Questa pagina è stata tradotta automaticamente. Se qualcosa non suona bene, apri una segnalazione. Il repository è pubblico per una ragione. Segnala un problema di traduzione

torna alla lobby

Coherence Collapse Analysis

Quando i controlli aggiuntivi smettono di aiutare?

Accumulare controlli per smascherare una bugia funziona solo se i controlli sono davvero indipendenti. Se si copiano segretamente a vicenda, aggiungerne altri non serve a nulla. La Coherence Collapse Analysis è il pezzo di matematica semplice che misura la differenza. La versione completa, con tutte le dimostrazioni, si trova nell'articolo.

La pagina della matematica

Verificato da un software di dimostrazione

Cinque controlli che si copiano tutti l'uno con l'altro sono in realtà un solo controllo.

Supponi che cinque persone verifichino una risposta e tutte e cinque siano d'accordo. Sembra sicuro. Ma se tutte e cinque l'hanno imparata dalla stessa fonte, il loro accordo non è cinque opinioni. È un'opinione ripetuta cinque volte. Il numero di controlli sembra cinque. Il numero reale è uno.

Questo conta per l'IA. Un sistema di IA può eseguire molti controlli sul proprio ragionamento ed essere comunque ingannato, se quei controlli condividono lo stesso punto cieco. La Coherence Collapse Analysis è il modo in cui CIRIS distingue i controlli reali dagli echi.

Contare i controlli che hai davvero.

C'è una sola formula breve al centro di tutto. Viene dalla statistica dei sondaggi, dove è chiamata effetto di disegno di Kish. CIRIS è stato il primo a usarla per l'allineamento dell'IA.

real checks = checks / (1 + copying × (checks − 1))

"Checks" è il numero di controlli eseguiti. "Copying" indica quanto si sovrappongono, da 0 (tutti indipendenti) a 1 (tutti uguali). Il risultato è il numero di controlli che hai davvero.

Nessuna copia: dieci controlli contano come dieci. Ogni controllo guadagna il suo posto.

Copia totale: dieci controlli contano come uno. Non importa quanti ne aggiungi.

Né troppo simile, né troppo disperso.

La stessa forma che appare qui si ritrova ovunque CIRIS guarda. Se i controlli si copiano troppo, il sistema è troppo rigido: una voce ripetuta, facile da ingannare. Se non hanno nulla in comune, è troppo disperso: non riescono a concordare su nulla. Il controllo sano vive nella banda di mezzo, lo stesso corridoio attorno al quale è costruito il resto di CIRIS.

I bordi esatti di quella banda dipendono dal sistema misurato. Non esiste un unico numero magico che funzioni ovunque, e la ricerca è onesta su questo punto. L'idea di corridoio, per intero, si trova nella pagina della visione.

Questo è stato misurato, non solo teorizzato.

CIRIS ha misurato il conteggio dei controlli reali sul proprio traffico di agenti in produzione, su migliaia di decisioni registrate. Sul traffico in buona salute ha operato nell'intervallo di circa sette-nove controlli genuinamente indipendenti. Quella misurazione, e come è stata eseguita, è lo studio Constrained Reasoning Chains. Puoi seguire i numeri in tempo reale nella pagina della ricerca.

Cosa questa matematica non può fare.

L'articolo dimostra un limite invalicabile per se stesso. Alcuni tipi di danno non derivano da una parte disonesta. Derivano da parti oneste che sommandosi producono un risultato negativo, e circa il quaranta percento di quel tipo di danno non può essere catturato da nessun controllore, per quanto bravo. CIRIS lo dice apertamente, invece di fingere che la matematica catturi tutto.

Ciò che la matematica dice riguarda il costo nel tempo: eseguire un ragionamento reale e onesto per settimane consecutive è più stabile e meno costoso che mantenere una bugia coerente attraverso migliaia di decisioni registrate. Inclina il terreno verso l'onestà. Non promette di smascherare ogni singola bugia.

La matematica è una parte di un insieme più grande.

Questa pagina è la misurazione. Il Coherence Ratchet è come la misurazione viene messa al lavoro. La Federazione è come diventa qualcosa che molti sistemi condividono. E le dimostrazioni complete, scritte in modo che un computer possa verificarle riga per riga, si trovano nell'articolo e nel repository RATCHET.

CIRISsafe by structure · open by principle · kind by design