Primo ContattoInstallaRatchet di CoerenzaFederazioneConfrontaRicercaAccordGitHub
Questa pagina è stata tradotta automaticamente. Se qualcosa non suona bene, apri una segnalazione. Il repository è pubblico per una ragione. Segnala un problema di traduzione

Quali LLM usiamo e perché

CIRIS Agent gira su un piccolo insieme di modelli aperti che soddisfano cinque criteri non negoziabili. La lineup attuale in produzione è Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4, scelti per ruoli diversi nel carico di lavoro dell'agente.

Llama 4 Maverick

Il motore del ragionamento. Gestisce un contesto molto ampio in una sola volta, quindi è il modello predefinito per i passi di ragionamento più profondi, dove mantenere l'intera visione d'insieme è fondamentale.

Provider: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Il compagno veloce della famiglia Llama 4. Più piccolo e rapido di Maverick, con un buon supporto alle chiamate di strumenti. Usato per i livelli interattivi dove la latenza conta e il budget completo di contesto di Maverick non è necessario.

Provider: OpenRouter, Groq

Qwen 3.6

Profondità multilingue e output strutturato solido. Porta il peso nei percorsi di ragionamento non in inglese richiesti dall'Accord poliglotta; una base di provider indipendente al di fuori della famiglia Llama aggiunge ridondanza nella catena di fallback.

Provider: OpenRouter, DashScope, DeepInfra

Gemma 4

Abbastanza piccolo da girare su hardware comune. Usato dove la diffusione conta più della capacità grezza (su dispositivo, con banda ridotta e in reti degradate) e come fallback di una terza famiglia accanto a Llama e Qwen.

Provider: OpenRouter, Google

I nostri criteri per i modelli

Cinque requisiti non negoziabili per CIRIS Agent

1. Output strutturati e uso degli strumenti

Deve supportare nativamente le chiamate di funzione e restituire JSON valido su 12-70 chiamate di strumenti per interazione. CIRIS è un orchestratore. Abbiamo bisogno di semantiche di strumenti stabili, non di conversazioni prolisse.

2. Finestra di contesto: minimo 128K

CIRIS incorpora l'intero Accord e la Guida completa in ogni prompt. 128K è il minimo assoluto; 256K o più è fortemente preferito per conversazioni lunghe, output degli strumenti e log di audit.

3. Efficienza dei costi

Obiettivo: meno di $1,00 per 1M di token combinati. Scegliamo l'opzione funzionante più economica, non il vincitore di benchmark più economico. Un modello affidabile che non rompe mai il JSON batte un modello più economico che fallisce 1 chiamata su 10.

4. Disponibilità su più provider

Deve essere disponibile da almeno due provider indipendenti per catene di fallback robuste. CIRIS degrada in modo controllato durante i disservizi invece di bloccarsi.

5. Latenza ed esperienza utente

Le risposte rapide mantengono le persone nel ciclo per i flussi di revisione etica. Diamo priorità ai provider a bassa latenza per i livelli interattivi, accettando backend più lenti per le attività in background.

Distribuzione in produzione

Livello predefinito

Llama 4 Maverick tramite provider ottimizzato per i costi, per i passi di ragionamento profondo che richiedono l'intero budget di contesto.

Livello veloce

Llama 4 Scout tramite provider ottimizzato per la velocità (Groq) per l'uso interattivo, con Maverick su Groq come alternativa per contesti più pesanti.

Livello multilingue

Qwen 3.6 porta il peso nei percorsi di ragionamento non in inglese richiesti dall'Accord poliglotta, e fornisce un fallback non-Llama nella catena.

Livello edge

Gemma 4 per distribuzioni su dispositivo, a banda ridotta e in reti degradate, dove raggiungere l'utente conta più delle dimensioni del modello.

Catena di fallback

Maverick → Scout → Qwen 3.6 → Gemma 4 su più provider, così l'agente degrada in modo controllato tra famiglie di modelli e confini infrastrutturali invece di bloccarsi.

Perché questa lineup

Ruoli diversi, non parti intercambiabili

Maverick gestisce il ragionamento profondo dove il budget completo di contesto conta. Scout porta il livello interattivo dove la latenza domina. Qwen 3.6 raggiunge i percorsi di ragionamento poliglotta richiesti dall'Accord in 29 lingue. Gemma 4 è l'opzione a basso ingombro che mette l'agente alla portata di hardware comune. La lineup è scelta in modo che i diversi livelli di lavoro vadano al modello che si adatta davvero, invece di forzare un modello a fare tutto.

Tre famiglie di modelli indipendenti

Llama (Maverick + Scout), Qwen e Gemma provengono da tre pipeline di addestramento indipendenti e tre ecosistemi di provider indipendenti. Questo conta per le catene di fallback: una CVE, un cambio di licenza o un disservizio di un provider su una famiglia non mette fuori uso l'agente. L'indipendenza a livello di modello è la stessa proprietà che rende il componente IDMA robusto a livello di ragionamento.

Cosa resta fuori dalla lineup

I modelli che non soddisfano i cinque criteri, nella maggior parte dei casi modelli che sembrano attraenti per il prezzo del token ma falliscono sugli output strutturati e sulle chiamate di strumenti.

Modalità di fallimento rappresentativa (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Questo errore è inaccettabile per un framework che dipende da 12-70 chiamate di strumenti per interazione. Anche un prezzo del token 3-10 volte più basso non vale i fallimenti operativi.

Perché un contesto da 128K o più è non negoziabile

Accord e Guida sempre presenti

CIRIS incorpora il completo Accord e la Guida Completa in ogni prompt. Non un riassunto. Non una versione ridotta. L'intero testo di governance.

Questo garantisce che gli aggiornamenti all'Accord o alla Guida abbiano effetto immediato sul comportamento di tutti gli agenti, senza attendere nuovi fine-tune o strategie di compressione dei prompt.

Stato etico e procedurale completo

Gli agenti CIRIS sono orchestratori ricchi di strumenti che gestiscono contemporaneamente:

  • Flussi di lavoro a più passi
  • Stato del sistema e output degli strumenti
  • Messaggi degli utenti e cronologia della conversazione
  • L'intero Accord e la Guida

Questo contesto combinato supera facilmente i 32K-64K, in particolare per sessioni lunghe o indagini complesse. Per questo 128K è il minimo e 256K o più è preferito.

Il punto centrale:

CIRIS non riduce i propri valori o procedure per adattarsi al modello. Al contrario, CIRIS sceglie modelli abbastanza grandi da portare l'intero framework etico e operativo in ogni chiamata. I modelli con finestre di contesto più piccole (anche se più economici o più popolari) sono esclusi dall'uso in produzione.

Come questo supporta l'Accord CIRIS

La selezione dei modelli come infrastruttura etica

Trasparenza e ispezionabilità

  • Il contesto lungo mantiene visibili le tracce di ragionamento, le decisioni e le chiamate di strumenti per la revisione umana
  • JSON stabile e output strutturati rendono ogni chiamata di strumento verificabile
  • Gli artefatti di governance completi in ogni chiamata garantiscono che le decisioni siano tracciabili fino ai principi

Resilienza e governance

  • La distribuzione su più provider evita punti di guasto singoli nell'infrastruttura etica critica
  • Scegliere «abbastanza buono e affidabile» rispetto a «brillante ma fragile» dà priorità alla sicurezza e alla continuità
  • La degradazione controllata durante i disservizi mantiene la disponibilità del servizio

Supervisione umana

  • I livelli veloci mantengono le persone comodamente nel ciclo per la revisione etica in tempo reale
  • I livelli più economici consentono un'analisi approfondita in background senza costi proibitivi
  • L'approccio bilanciato supporta sia l'uso quotidiano che i controlli di governance periodici

Il punto centrale

CIRIS esegue Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4 in produzione perché insieme soddisfano i vincoli operativi ed economici imposti dall'Accord: contesto lungo, chiamate di strumenti affidabili, copertura poliglotta e raggiungibilità su hardware comune, su tre famiglie di modelli indipendenti. I nuovi modelli vengono monitorati e testati continuamente; la lineup cambia quando qualcosa di meglio soddisfa davvero i cinque criteri.

Non si tratta di inseguire punteggi di benchmark o seguire i cicli di hype. Si tratta di scegliere modelli che funzionino davvero per agenti responsabili e centrati sugli strumenti in produzione, e che prendano l'Accord abbastanza sul serio da portarlo in ogni singola chiamata.