CIRIS Agent gira su un piccolo insieme di modelli aperti che soddisfano cinque criteri non negoziabili. La lineup attuale in produzione è Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4, scelti per ruoli diversi nel carico di lavoro dell'agente.
Il motore del ragionamento. Gestisce un contesto molto ampio in una sola volta, quindi è il modello predefinito per i passi di ragionamento più profondi, dove mantenere l'intera visione d'insieme è fondamentale.
Provider: OpenRouter, Groq, Together, DeepInfra
Il compagno veloce della famiglia Llama 4. Più piccolo e rapido di Maverick, con un buon supporto alle chiamate di strumenti. Usato per i livelli interattivi dove la latenza conta e il budget completo di contesto di Maverick non è necessario.
Provider: OpenRouter, Groq
Profondità multilingue e output strutturato solido. Porta il peso nei percorsi di ragionamento non in inglese richiesti dall'Accord poliglotta; una base di provider indipendente al di fuori della famiglia Llama aggiunge ridondanza nella catena di fallback.
Provider: OpenRouter, DashScope, DeepInfra
Abbastanza piccolo da girare su hardware comune. Usato dove la diffusione conta più della capacità grezza (su dispositivo, con banda ridotta e in reti degradate) e come fallback di una terza famiglia accanto a Llama e Qwen.
Provider: OpenRouter, Google
Deve supportare nativamente le chiamate di funzione e restituire JSON valido su 12-70 chiamate di strumenti per interazione. CIRIS è un orchestratore. Abbiamo bisogno di semantiche di strumenti stabili, non di conversazioni prolisse.
CIRIS incorpora l'intero Accord e la Guida completa in ogni prompt. 128K è il minimo assoluto; 256K o più è fortemente preferito per conversazioni lunghe, output degli strumenti e log di audit.
Obiettivo: meno di $1,00 per 1M di token combinati. Scegliamo l'opzione funzionante più economica, non il vincitore di benchmark più economico. Un modello affidabile che non rompe mai il JSON batte un modello più economico che fallisce 1 chiamata su 10.
Deve essere disponibile da almeno due provider indipendenti per catene di fallback robuste. CIRIS degrada in modo controllato durante i disservizi invece di bloccarsi.
Le risposte rapide mantengono le persone nel ciclo per i flussi di revisione etica. Diamo priorità ai provider a bassa latenza per i livelli interattivi, accettando backend più lenti per le attività in background.
Llama 4 Maverick tramite provider ottimizzato per i costi, per i passi di ragionamento profondo che richiedono l'intero budget di contesto.
Llama 4 Scout tramite provider ottimizzato per la velocità (Groq) per l'uso interattivo, con Maverick su Groq come alternativa per contesti più pesanti.
Qwen 3.6 porta il peso nei percorsi di ragionamento non in inglese richiesti dall'Accord poliglotta, e fornisce un fallback non-Llama nella catena.
Gemma 4 per distribuzioni su dispositivo, a banda ridotta e in reti degradate, dove raggiungere l'utente conta più delle dimensioni del modello.
Maverick → Scout → Qwen 3.6 → Gemma 4 su più provider, così l'agente degrada in modo controllato tra famiglie di modelli e confini infrastrutturali invece di bloccarsi.
Maverick gestisce il ragionamento profondo dove il budget completo di contesto conta. Scout porta il livello interattivo dove la latenza domina. Qwen 3.6 raggiunge i percorsi di ragionamento poliglotta richiesti dall'Accord in 29 lingue. Gemma 4 è l'opzione a basso ingombro che mette l'agente alla portata di hardware comune. La lineup è scelta in modo che i diversi livelli di lavoro vadano al modello che si adatta davvero, invece di forzare un modello a fare tutto.
Llama (Maverick + Scout), Qwen e Gemma provengono da tre pipeline di addestramento indipendenti e tre ecosistemi di provider indipendenti. Questo conta per le catene di fallback: una CVE, un cambio di licenza o un disservizio di un provider su una famiglia non mette fuori uso l'agente. L'indipendenza a livello di modello è la stessa proprietà che rende il componente IDMA robusto a livello di ragionamento.
I modelli che non soddisfano i cinque criteri, nella maggior parte dei casi modelli che sembrano attraenti per il prezzo del token ma falliscono sugli output strutturati e sulle chiamate di strumenti.
Modalità di fallimento rappresentativa (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Questo errore è inaccettabile per un framework che dipende da 12-70 chiamate di strumenti per interazione. Anche un prezzo del token 3-10 volte più basso non vale i fallimenti operativi.
CIRIS incorpora il completo Accord e la Guida Completa in ogni prompt. Non un riassunto. Non una versione ridotta. L'intero testo di governance.
Questo garantisce che gli aggiornamenti all'Accord o alla Guida abbiano effetto immediato sul comportamento di tutti gli agenti, senza attendere nuovi fine-tune o strategie di compressione dei prompt.
Gli agenti CIRIS sono orchestratori ricchi di strumenti che gestiscono contemporaneamente:
Questo contesto combinato supera facilmente i 32K-64K, in particolare per sessioni lunghe o indagini complesse. Per questo 128K è il minimo e 256K o più è preferito.
Il punto centrale:
CIRIS non riduce i propri valori o procedure per adattarsi al modello. Al contrario, CIRIS sceglie modelli abbastanza grandi da portare l'intero framework etico e operativo in ogni chiamata. I modelli con finestre di contesto più piccole (anche se più economici o più popolari) sono esclusi dall'uso in produzione.
CIRIS esegue Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4 in produzione perché insieme soddisfano i vincoli operativi ed economici imposti dall'Accord: contesto lungo, chiamate di strumenti affidabili, copertura poliglotta e raggiungibilità su hardware comune, su tre famiglie di modelli indipendenti. I nuovi modelli vengono monitorati e testati continuamente; la lineup cambia quando qualcosa di meglio soddisfa davvero i cinque criteri.
Non si tratta di inseguire punteggi di benchmark o seguire i cicli di hype. Si tratta di scegliere modelli che funzionino davvero per agenti responsabili e centrati sugli strumenti in produzione, e che prendano l'Accord abbastanza sul serio da portarlo in ogni singola chiamata.