Fidarsi dei pesi, o controllare il comportamento

La linea principale della sicurezza dell'IA cerca di rendere buono un modello al suo interno: addestrare i suoi valori, studiare i suoi pensieri, farlo discutere con se stesso. Quel lavoro è importante. CIRIS punta sull'altra strada. Supponiamo che un modello capace possa essere disallineato, e invece di fidarci della sua mente, rendiamo le sue azioni consequenziali responsabili verso persone e altri sistemi che possono verificarle.

Nei termini propri del settore, CIRIS si colloca nel ramo istituzionale e di controllo, insieme al controllo dell'IA e alla GS-AI, non nella linea principale dell'internalizzazione dei valori di RLHF, Constitutional AI, dibattito e interpretabilità. La sua risposta alla supervisione scalabile, ovvero come si supervisiona qualcosa di più intelligente di noi, è verificare il perimetro di responsabilità, non il ragionamento. Una firma, un quorum, un audit con hash concatenati rimangono facili da verificare anche quando la decisione dietro di essi è superumana. Allinea sistemi di molti agenti capaci nel tempo, non i valori di una singola mente.

La linea che teniamo

Non cerca di allineare un'IA onnipotente. Di proposito.

La responsabilità ha bisogno di più di una parte. Qualcuno a cui rispondere. Un modo per verificare che non possa essere inghiottito silenziosamente. Un equilibrio di potere che nessuna parte può catturare. Una singola super-intelligenza non ha nessuna di queste cose, quindi non c'è modo onesto di ritenerla responsabile. CIRIS è costruito per l'altro futuro: molti agenti capaci, persone e organizzazioni le cui decisioni consequenziali sono tutte verificabili in modo indipendente.

Quindi la posizione è esplicita. Un'ASI singleton non è un sistema da allineare ma una condizione da prevenire. Concentrare la capacità superumana in un unico posto non responsabile, in questa fase dello sviluppo istituzionale umano, è illegittimo, perché nessuna istituzione è abbastanza matura da ritenerla responsabile, il che è precisamente il pericolo. Nei termini propri del framework, un singleton è il collasso a voce singola ρ→1 che il modello del corridoio identifica come un fallimento di coordinamento, non un successo. Il fatto che le nostre garanzie reggano in una federazione ed erodano contro un singleton non è un divario che stiamo tappando. È il regime che rifiutiamo di legittimare, mantenuto come impegno, non solo come previsione.

Lavori correlati, onestamente

Ogni vicino riempie alcune caselle. Una riga le riempie tutte.

CIRIS ha seri colleghi intellettuali, ognuno forte nel proprio campo. Il punto di questa tabella non è che le idee siano inedite. È che quasi nessuno ha costruito e distribuito l'intero stack come un unico sistema responsabile. Ogni riga qui sotto è una vera linea di discendenza che vale la pena leggere. Solo l'ultima riga spunta ogni colonna, e quell'integrazione è la tesi.

Approccio	Lavoro più vicino	Meccanismo	Runtime, non addestramento	Firma la decisione	Costituzione runtime	Verifica federata	Conformità eseguibile	In distribuzione
La tesi istituzionale	Gillian Hadfield	Infrastruttura normativa e mercati regolatori, come teoria e politica	Teoria	No	Teoria	Teoria	No	No
Grafi di governance	IA istituzionale (Pierucci et al.)	Grafi pubblici di stati legali e sanzioni, come prototipo di ricerca	Ricerca	No	Ricerca	No	No	No
Governance costituzionale on-chain	AgentCity (Ruan, Zhang)	Separazione dei poteri come smart contract, pre-registrati su una testnet	Ricerca	Parziale	Ricerca	No	No	No
Assumere che il modello sia disallineato	Redwood Research (controllo IA)	Monitoraggio e red-teaming all'interno di un singolo deployment	Sì	No	No	No	Ricerca	Ricerca
Provabilmente sicuro, esternalizzato	davidad, Bengio, la linea GS-AI	Prove formali su modelli del mondo	Parziale	No	Teoria	Teoria	Ricerca	No
Costituzione al momento dell'addestramento	Anthropic Constitutional AI	Valori addestrati nei pesi, una singola organizzazione	No	No	No	No	No	Sì
Provenienza crittografica	C2PA, zkML (EZKL, Giza)	Firma la provenienza dei media, prova che un'inferenza è stata eseguita	Sì	Parziale	No	Parziale	Parziale	Sì
DAG di ragionamento firmato	Proof of Insight (Arclio)	Un grafo firmato di passi di derivazione dell'IA, come bozza di specifica	No	Parziale	No	Teoria	Teoria	No
Inferenza attestata via hardware	Phala, Marlin, Attestable Audits	Esegue l'inferenza in un enclave sicuro che firma l'output	Sì	Parziale	No	Parziale	No	Parziale
Identità decentralizzata e federazione	atproto, Bittensor	Federazione sociale o di calcolo, senza livello di coscienza	Parziale	No	No	Parziale	Parziale	Sì
Protocolli agente	MCP, A2A	Interoperabilità di strumenti e agenti, senza governance	Sì	No	No	No	Parziale	Sì
Suite di valutazione della sicurezza e conformità	MLCommons, METR, HarmBench	Benchmark eseguibili che valutano il comportamento del modello, non le decisioni	No	No	No	No	Parziale	Sì
Audit di terze parti e federato	AISI Network, GovAI	Istituti indipendenti testano congiuntamente i sistemi distribuiti	Parziale	No	No	Sì	No	Parziale
CIRIS	Questo sistema	Pipeline di coscienza verso artefatti firmati, costituzione runtime, federazione post-quantistica	Sì	Sì	Sì	Sì	Sì	Sì

Mappato da lavori pubblici a giugno 2026, ogni riga citata qui sotto. Se abbiamo sbagliato un vicino, dircelo e correggeremo la riga.

Fonti

02AI per il grande pubblico

Come si confronta con l'AI che usi davvero

Gli assistenti di tutti i giorni sono potenti e facili da usare. Funzionano però nel cloud di qualcun altro, non lasciano tracce che tu possa controllare e non rispondono a nessuno che tu possa nominare. Ecco lo stesso test di responsabilità applicato all'AI che la maggior parte delle persone apre ogni giorno.

Assistente	Principi pubblicati	Prova di ciò che ha fatto	Chiede aiuto a un umano quando non è sicura	Open source	Controllo della camera d'eco
ChatGPT	Sì	No	No	No	No
Gemini	Sì	No	No	No	No
Claude	Sì	No	No	No	No
CIRIS	Sì	Sì	Sì	Sì	Sì

Confronto basato sul comportamento pubblico del prodotto a giugno 2026. Ogni link ai principi rimanda alle specifiche pubblicate dalla stessa azienda.

La maggior parte del settore sta allineando il modello. CIRIS sta costruendo le istituzioni attorno ad esso.

Fidarsi dei pesi, o controllare il comportamento

Non cerca di allineare un'IA onnipotente. Di proposito.

Come si confronta con l'AI che usi davvero

Provalo tu stesso

Guardalo pensare

Verifica la sua identità

Inizia