
Se non puoi verificare la responsabilità, è solo marketing. Ecco cosa cercare e come si confrontano gli approcci esistenti.
La coscienza è necessaria. Ma non sufficiente.
Alcune IA non hanno regole. Altre le seguono ma non riescono a capire quando le loro fonti si stanno solo copiando a vicenda. Solo un tipo verifica se le informazioni provengono davvero da fonti diverse.
Nessun principio pubblicato. Nessun registro di controllo. Sorgente chiusa. Non puoi verificare cosa ha fatto né perché.
La maggior parte degli assistenti IA per i consumatori (ChatGPT, Gemini) rientra qui dal punto di vista della responsabilità pubblica. Potrebbero esistere buone pratiche interne, ma non puoi verificarle.
Richiede una regolamentazione esterna. Non può governarsi da sola.
Segue regole etiche. Ma non riesce a capire quando tutte le sue fonti si stanno copiando a vicenda, quindi può sbagliare con sicurezza.
Sicura se supervisionata. Non riesce a rilevare le camere d'eco da sola.
Segue regole etiche E verifica se le sue informazioni provengono da fonti davvero diverse. Quando un accordo sembra sospetto, lo segnala prima di agire.
È questo che costruisce CIRIS.
Un'IA può seguire ogni regola, superare ogni verifica e fallire comunque se tutte le sue informazioni vengono dallo stesso posto. Quel punto cieco è ciò per cui CIRIS è stato costruito.
Queste sono le cose che rendono l'IA verificabile e responsabile. Le prime sei riguardano fare la cosa giusta. La settima riguarda l'individuare le situazioni in cui "fare la cosa giusta" si basa su informazioni sbagliate.
L'agente deve seguire un quadro etico pubblico. Non regole nascoste: un documento che chiunque può leggere e usare per ritenerlo responsabile.
Ogni azione passa attraverso una verifica della coscienza prima che l'agente la compia. Non a posteriori. Prima.
Quando è incerto o di fronte a possibili danni, l'agente chiede a una persona invece di azzardare. È integrato nel processo, non è opzionale.
Ogni decisione viene registrata e firmata così puoi verificare esattamente cosa è successo e perché. Una ricevuta per ogni azione.
Il consenso funziona in entrambe le direzioni. Puoi dire no all'agente. L'agente può dire no a te. Nessuno dei due è costretto a scendere a compromessi.
Non puoi verificare ciò che non puoi vedere. CIRIS è completamente open source sotto AGPL-3.0. Chiunque può leggere, verificare e migliorare il codice.
La cosa che le sole regole non riescono a cogliere.
Prima di agire, l'agente si chiede: "Le mie fonti sono davvero in disaccordo tra loro, oppure stanno tutte prendendo le informazioni dallo stesso posto?" Dieci fonti che hanno copiato tutte dallo stesso originale sono in realtà una fonte sola. Quando un accordo appare troppo uniforme, l'agente lo segnala a una persona per la revisione.
Troppo caotico
Le fonti si contraddicono talmente tanto che non si può trarre nulla di utile.
Sano
Le fonti differiscono davvero. Un accordo reale conta qualcosa.
Camera d'eco
Sembra un accordo, ma le fonti si stanno solo ripetendo a vicenda.
Questo è ciò che distingue CIRIS dagli altri quadri di responsabilità per l'IA.
Vuoi i dettagli matematici? Leggi la tesi completa →Basato sulla documentazione pubblica disponibile a febbraio 2026. Se abbiamo tralasciato qualcosa o sbagliato qualcosa, faccelo sapere.
| Progetto | Verifica ogni decisione | Regole pubblicate | Coscienza integrata | Prova di ciò che ha fatto | Open source | Rilevamento camere d'eco |
|---|---|---|---|---|---|---|
| CIRIS | Sì | Sì | Sì | Sì | AGPL-3.0 | Sì |
| Constitutional AI | Solo in fase di addestramento | Implicite | No | No | No | No |
| LlamaFirewall / NeMo Guardrails | Sì | No | No | Registri | Sì | No |
| HatCat | Sì | Parziale | Orientamento | Parziale | CC0 | No |
| Comitati etici / Quadri di governance | No | Sì | No | Manuale | Varia | No |
I filtri di output e i quadri di governance risolvono problemi importanti ma diversi. I filtri bloccano gli output dannosi. La coscienza ragiona sui valori. CIRIS punta a fare entrambe le cose e a individuare i punti ciechi che nessuno dei due affronta da solo.
Bloccano gli output pericolosi: prompt injection, contenuti dannosi, attacchi avversariali. Come un filtro che intercetta le cose cattive in uscita.
Ragiona se un'azione sia giusta, non solo se sia sicura. Come un giudice che valuta la situazione prima di prendere una decisione.
Verifica se un accordo sia reale o solo ripetizione. Come un fact-checker che chiede "avete letto tutti lo stesso articolo?"
Molti agenti più piccoli, ognuno vincolato a principi pubblicati, ognuno verificabile, ognuno che si affida all'autorità umana. Nessuna singola azienda o entità controlla l'intero sistema. Più gli agenti sono indipendenti, più è difficile che un singolo guasto si propaghi.
Questa è ricerca attiva. Siamo trasparenti su ciò che è consolidato e su ciò che è ancora in fase di test.
Ben consolidato
In fase di test
Guardalo pensare
Segui passo dopo passo il ragionamento di un agente reale. Esplora una traccia →
Verifica la sua identità
Scopri come gli agenti provano chi sono, come una motorizzazione per l'IA. Fiducia e identità →
Inizia
Distribuisci il tuo primo agente o leggi la tesi in italiano semplice. Primo contatto →
Ogni affermazione in questa pagina è supportata da codice che puoi leggere, tracce che puoi verificare e ricerche che puoi controllare. Questo è il punto.