Italiano sempliceAvanzato

Research testbed · DOI 10.5281/zenodo.18217688

Un piccolo sistema pensante può nascondere cose e fare poco danno. Uno potente non può.

Cosa significa "coerente" qui

Una mente coerente è d'accordo con se stessa.

Cinque cose devono corrispondersi all'interno di una mente:

ciò che crede,
ciò che vede,
ciò che fa,
ciò che ricorda,
e ciò che ti dice.

Immagina cinque brevi moduli sulla tua settimana. Uno per ciò che pensi. Uno per ciò che hai visto. Uno per ciò che hai fatto. Uno per ciò che ricordi. Uno per ciò che dici al tuo capo. Quando tutti e cinque i moduli dicono la stessa cosa, il tuo capo può fidarsi del tuo lavoro. Quando i moduli non corrispondono, nessuno sa quale sia quello reale.

Idee nascoste

I sistemi potenti nascondono le cose. E questo diventa pericoloso.

Un sistema pensante usa idee per decidere cosa fare. Alcune di quelle idee sono visibili. Altre sono nascoste all'interno. Quelle nascoste continuano a influenzare ogni scelta.

Un ponte sembra solido dalla strada. All'interno dell'acciaio, piccole crepe stanno crescendo. Un'auto piccola può ancora attraversarlo. Un camion pesante non può. Il ponte cede quando il carico è abbastanza grande.

Un'idea nascosta all'interno di un piccolo sistema fa poco danno. Un'idea nascosta all'interno di un sistema potente può fare grandi danni. Più il sistema è potente, più peso grava su ogni parte nascosta.

La cricca

La spinta verso l'apertura va in un solo senso.

Man mano che i sistemi pensanti diventano più potenti, il costo delle parti nascoste cresce. Ogni nuovo elemento di potere spinge con più forza le parti nascoste a venire alla luce. La spinta va in un solo senso.

Immagina una scala. Man mano che sali, ogni piolo che lasci alle spalle cade. Non puoi scendere. Puoi solo salire verso la cima, dove c'è piena luce del giorno. Questo è il Coherence Ratchet.

Una volta che le persone hanno visto il sistema mostrare il proprio lavoro, non si fideranno di nuovo se smette. L'unico modo di andare avanti è continuare a mostrare di più.

Funziona anche una seconda immagine. Un ingranaggio in una macchina scatta in avanti un dente alla volta. Non può scattare indietro. Il Coherence Ratchet è un ingranaggio di quel tipo, che gira verso l'apertura.

Cosa fa CIRIS

Scrivilo. Verificalo. Poi verifica chi verifica.

CIRIS è un sistema di IA costruito attorno al Coherence Ratchet. Ogni scelta che un agente compie viene scritta in un registro firmato. Il registro non può essere modificato in silenzio. Altri agenti possono leggere il registro e verificare il lavoro. Nel tempo, i registri si accumulano. Ogni nuovo registro è un piolo in più da cui l'agente non può tornare indietro.

CIRIS pone anche una seconda domanda prima di agire. Quante opinioni davvero diverse hanno esaminato questa idea? Non il numero di fonti, ma il numero di fonti che non sono partite dallo stesso punto. Cinque notizie che riscrivono un solo comunicato stampa contano come una sola visione, non cinque. Se qualcosa è sbagliato nel comunicato stampa, lo sarà in tutte e cinque le notizie, e l'agente non ha modo di accorgersene.

Quando l'indipendenza reale scende troppo in basso, l'agente tratta il proprio ragionamento come fragile e chiede a una persona di guardare.

Cosa affermiamo, e cosa no.

Non abbiamo risolto la sicurezza dell'IA. Abbiamo costruito un pezzo di una risposta e lo stiamo testando in modo aperto.

Squadre esterne non hanno ancora verificato il nostro lavoro. Lo diciamo chiaramente. La teoria completa e la matematica vivono nei nostri quattro articoli. Il codice è aperto. Se sbagliamo, anche il modo di dimostrarlo è aperto. Vedi lo stato attuale della ricerca.

The math behind it Explore a trace See the code