Primo ContattoInstallaRatchet di CoerenzaFederazioneConfrontaRicercaAccordGitHub
Questa pagina è stata tradotta automaticamente. Se qualcosa non suona bene, apri una segnalazione. Il repository è pubblico per una ragione. Segnala un problema di traduzione
Background Image
L'IA più sicura ed etica in produzione oggi

Senza responsabilità, l'IA tende a prendere più di quanto dà.

Se non puoi verificare la responsabilità, è solo marketing. Ecco cosa cercare e come si confrontano gli approcci esistenti.

Tre tipi di IA

La coscienza è necessaria. Ma non sufficiente.

Alcune IA non hanno regole. Altre le seguono ma non riescono a capire quando le loro fonti si stanno solo copiando a vicenda. Solo un tipo verifica se le informazioni provengono davvero da fonti diverse.

1

Nessuna regola

Nessun principio pubblicato. Nessun registro di controllo. Sorgente chiusa. Non puoi verificare cosa ha fatto né perché.

La maggior parte degli assistenti IA per i consumatori (ChatGPT, Gemini) rientra qui dal punto di vista della responsabilità pubblica. Potrebbero esistere buone pratiche interne, ma non puoi verificarle.

Richiede una regolamentazione esterna. Non può governarsi da sola.

2

Regole, nessuna consapevolezza

Segue regole etiche. Ma non riesce a capire quando tutte le sue fonti si stanno copiando a vicenda, quindi può sbagliare con sicurezza.

Sicura se supervisionata. Non riesce a rilevare le camere d'eco da sola.

3

Regole + consapevolezza

Segue regole etiche E verifica se le sue informazioni provengono da fonti davvero diverse. Quando un accordo sembra sospetto, lo segnala prima di agire.

È questo che costruisce CIRIS.

Un'IA può seguire ogni regola, superare ogni verifica e fallire comunque se tutte le sue informazioni vengono dallo stesso posto. Quel punto cieco è ciò per cui CIRIS è stato costruito.

Sette cose da verificare

Sei per l'etica. Una per i punti ciechi.

Queste sono le cose che rendono l'IA verificabile e responsabile. Le prime sei riguardano fare la cosa giusta. La settima riguarda l'individuare le situazioni in cui "fare la cosa giusta" si basa su informazioni sbagliate.

1. Principi pubblicati

L'agente deve seguire un quadro etico pubblico. Non regole nascoste: un documento che chiunque può leggere e usare per ritenerlo responsabile.

2. Verifica della coscienza su ogni decisione

Ogni azione passa attraverso una verifica della coscienza prima che l'agente la compia. Non a posteriori. Prima.

3. Chiede agli esseri umani quando non è sicuro

Quando è incerto o di fronte a possibili danni, l'agente chiede a una persona invece di azzardare. È integrato nel processo, non è opzionale.

4. Prova di ciò che ha fatto

Ogni decisione viene registrata e firmata così puoi verificare esattamente cosa è successo e perché. Una ricevuta per ogni azione.

5. Consenso reciproco

Il consenso funziona in entrambe le direzioni. Puoi dire no all'agente. L'agente può dire no a te. Nessuno dei due è costretto a scendere a compromessi.

6. Open source

Non puoi verificare ciò che non puoi vedere. CIRIS è completamente open source sotto AGPL-3.0. Chiunque può leggere, verificare e migliorare il codice.

7

Rilevamento delle camere d'eco

La cosa che le sole regole non riescono a cogliere.

Prima di agire, l'agente si chiede: "Le mie fonti sono davvero in disaccordo tra loro, oppure stanno tutte prendendo le informazioni dallo stesso posto?" Dieci fonti che hanno copiato tutte dallo stesso originale sono in realtà una fonte sola. Quando un accordo appare troppo uniforme, l'agente lo segnala a una persona per la revisione.

Troppo caotico

Le fonti si contraddicono talmente tanto che non si può trarre nulla di utile.

Sano

Le fonti differiscono davvero. Un accordo reale conta qualcosa.

Camera d'eco

Sembra un accordo, ma le fonti si stanno solo ripetendo a vicenda.

Questo è ciò che distingue CIRIS dagli altri quadri di responsabilità per l'IA.

Vuoi i dettagli matematici? Leggi la tesi completa →

Il panorama attuale

Progetti diversi, obiettivi diversi.

Basato sulla documentazione pubblica disponibile a febbraio 2026. Se abbiamo tralasciato qualcosa o sbagliato qualcosa, faccelo sapere.

ProgettoVerifica ogni decisioneRegole pubblicateCoscienza integrataProva di ciò che ha fattoOpen sourceRilevamento camere d'eco
CIRISAGPL-3.0
Constitutional AISolo in fase di addestramentoImpliciteNoNoNoNo
LlamaFirewall / NeMo GuardrailsNoNoRegistriNo
HatCatParzialeOrientamentoParzialeCC0No
Comitati etici / Quadri di governanceNoNoManualeVariaNo

I filtri di output e i quadri di governance risolvono problemi importanti ma diversi. I filtri bloccano gli output dannosi. La coscienza ragiona sui valori. CIRIS punta a fare entrambe le cose e a individuare i punti ciechi che nessuno dei due affronta da solo.

Tre livelli di protezione

Ognuno risolve un problema diverso.

Filtri di output

Bloccano gli output pericolosi: prompt injection, contenuti dannosi, attacchi avversariali. Come un filtro che intercetta le cose cattive in uscita.

Coscienza etica

Ragiona se un'azione sia giusta, non solo se sia sicura. Come un giudice che valuta la situazione prima di prendere una decisione.

Rilevamento delle camere d'eco

Verifica se un accordo sia reale o solo ripetizione. Come un fact-checker che chiede "avete letto tutti lo stesso articolo?"

Molti agenti coerenti

Governance distribuita, non potere concentrato.

Nessun punto unico di guasto

Agenti più piccoli, ognuno responsabile.

Molti agenti più piccoli, ognuno vincolato a principi pubblicati, ognuno verificabile, ognuno che si affida all'autorità umana. Nessuna singola azienda o entità controlla l'intero sistema. Più gli agenti sono indipendenti, più è difficile che un singolo guasto si propaghi.

Stato della ricerca

Questa è ricerca attiva. Siamo trasparenti su ciò che è consolidato e su ciò che è ancora in fase di test.

Ben consolidato

  • - Le fonti copiate riducono la diversità reale
  • - I modelli IA condividono la sovrapposizione dei dati di addestramento
  • - Le camere d'eco creano false certezze
  • - La verifica indipendente individua più errori

In fase di test

  • - Misurare con precisione quanto le fonti IA siano copiate
  • - Le soglie migliori per segnalare le camere d'eco
  • - Quanto bene gli interventi riducono la copiatura
  • - Come questo varia nei diversi settori

Provalo tu stesso

Verificalo tu stesso.

Open source. Aperto al controllo.

Ogni affermazione in questa pagina è supportata da codice che puoi leggere, tracce che puoi verificare e ricerche che puoi controllare. Questo è il punto.