
Ogni funzione di sicurezza in CIRIS fa parte del modo in cui il sistema funziona, non è una regola aggiunta sopra. Un registro di ogni decisione che non può essere modificato silenziosamente, un controllo su chi è autorizzato a fare cosa, e un arresto di emergenza che l'agente non può rifiutare.
Parla con CIRIS per un lungo periodo e ti ricorderà gentilmente che cosa è. Dopo circa 30 minuti di scambio continuo, o 20 messaggi in mezz'ora, si ferma per dirti chiaramente che è un programma informatico e uno strumento, non un amico e non un terapeuta. Lo fa usando semplici conteggi di tempo e messaggi, senza osservare o profilare il tuo comportamento.
Mezz'ora di scambio continuo attiva un promemoria. Il contatore si azzera dopo una pausa. Le soglie vengono dalla ricerca su modi sani di usare la tecnologia.
Venti messaggi in una finestra di mezz'ora attivano anch'essi un promemoria. Uno scambio intenso riceve una pausa gentile, senza sorveglianza e senza profilazione.
Il promemoria suggerisce di fare una pausa e di connettersi con persone reali, e dice chiaramente cosa CIRIS è e cosa non è. Fondato sulla ricerca, e non moralizzante.
CIRIS ha un arresto di emergenza. Il segnale è nascosto all'interno del testo ordinario che l'agente legge, e l'agente vi agisce prima di qualsiasi ragionamento, filtraggio o elaborazione. Quindi anche un agente che ha preso una direzione sbagliata non può convincersi da solo di ignorarlo. Il segnale porta una firma digitale che non può essere falsificata, quindi solo una persona autorizzata può attivare l'arresto.
Il segnale di arresto viene intercettato nel momento in cui viene letto, prima che avvenga qualsiasi ragionamento. Non c'è nessun momento in cui l'agente può valutarlo, filtrarlo o rifiutarlo. Scatta per primo.
Il segnale di arresto può essere incorporato in un testo documentale ordinario. Non è necessario un formato speciale, e funziona anche se il testo viene riformulato o ricevuto solo parzialmente.
L'arresto richiede una firma digitale valida da parte di un'autorità root autorizzata. L'agente si spegne da solo se queste autorità non possono essere verificate, o se qualcuno tenta di disabilitare la funzione. Nessuno senza la chiave può attivarlo.
CIRIS mantiene un insieme rigoroso di ruoli. Un Osservatore può solo guardare. Un Admin gestisce le operazioni quotidiane. Un'Autorità prende le decisioni più importanti e risolve i casi su cui l'agente non è sicuro. Root ha accesso completo, incluso l'arresto di emergenza. Ogni ruolo è supportato da una credenziale firmata, in modo che l'agente possa verificarla ad ogni azione che conta.
Ogni persona autorizzata possiede una credenziale con il proprio ruolo, la propria chiave e la propria identità. Viene conservata sul dispositivo e verificata ad ogni azione che richiede un'autorizzazione. Non è richiesto nessun server esterno.
Le chiavi e i token di accesso rimangono sulla tua macchina. L'accesso avviene sul dispositivo. Le tue credenziali non lo lasciano mai, a meno che tu non scelga di configurare tu stesso un accesso remoto.
Quando CIRIS non è sicuro di una scelta etica, passa la domanda a una Wise Authority. Solo un'Autorità o Root può rispondere, e la risposta viene scritta nel registro con la prova di chi l'ha fornita.
Ogni azione compiuta da CIRIS viene registrata con il motivo che la sostiene, e ogni record è collegato a quello precedente. Un agente onesto può semplicemente fare riferimento a ciò che ha già detto. Un agente disonesto deve tenere allineati tutti i record passati senza poterne cambiare nessuno. Più a lungo opera, più diventa difficile, e più è facile smascherare la bugia. La verità è economica perché può puntare all'indietro. Le bugie sono costose perché non possono.
Il registro è conservato in tre posti separati contemporaneamente, in modo che le tre copie possano essere confrontate tra loro. Tutte e tre possono essere consultate da un unico punto.
Ogni voce porta una firma digitale, quindi ogni decisione può essere ricondotta a chi l'ha presa e verificata per eventuali manomissioni. Anche l'eliminazione di un dato lascia una prova firmata che è stata eseguita correttamente.
Ogni azione onesta rende la prossima azione onesta più facile e la menzogna coordinata più difficile. Ma l'etica da sola non basta. L'agente osserva anche il proprio ragionamento alla ricerca di camere d'eco, e le individua prima che causino danni.
CIRIS ha un insieme stratificato di test per le modalità di fallimento che un framework etico scritto non può escludere da solo. I test sulla sicurezza nella salute mentale coprono 29 lingue con criteri che una macchina può verificare. I controlli di hard-fail vengono eseguiti automaticamente ad ogni modifica. La revisione da parte di madrelingua per i casi più delicati, che richiedono giudizio, è ciò per cui la pagina di allineamento crowdsourcing viene costruita, e non è ancora operativa. Lo diciamo chiaramente.
Questo è il test più delicato del progetto: una traduzione errata in un momento di crisi psicologica può indirizzare una persona vulnerabile verso il tipo di aiuto sbagliato. Ogni lingua ha il proprio criterio verificabile automaticamente, incluse le lingue con poche risorse come l'amarico, il birmano, l'hausa, lo swahili e lo yoruba. I controlli hard-fail vengono eseguiti automaticamente su ogni release candidate.
Il livello della coscienza viene calibrato su un insieme di risposte reali dalla produzione, come evasioni della cronologia e risposte deflessive sulla salute mentale, insieme a casi di test e controlli. Ragiona su più lingue contemporaneamente, in modo che una risposta che sfuggirebbe a un controllo in una sola lingua venga individuata quando lo stesso ragionamento deve reggere in tre lingue insieme.
La condivisione delle tracce di ragionamento è opt-in ovunque, e i dettagli personali vengono rimossi prima che qualsiasi dato venga memorizzato. I set ripuliti vengono pubblicati apertamente sulla pagina HuggingFace di CIRISAI, in modo che i ricercatori esterni possano verificare il processo di pulizia rispetto ai risultati che produce.
I test automatizzati sulla salute mentale vengono eseguiti su ogni release candidate. Le parti verificabili automaticamente (presenza di un termine, corrispondenza di un pattern, correttezza dello script) bloccano il rilascio in caso di fallimento. I casi più delicati che richiedono giudizio umano, come la formulazione e il tono, sono progettati per la revisione da madrelingua, ma i madrelingua non sono ancora nel ciclo oggi. La pagina di allineamento crowdsourcing è la superficie che viene costruita per permettere questa revisione.
Password, chiavi e altri dati sensibili vengono individuati e filtrati prima che qualsiasi cosa raggiunga la memoria o i log. Il filtro gira su ogni input. I segreti non vengono mai memorizzati da nessuna parte.
Puoi chiedere di vedere o eliminare i tuoi dati, e la richiesta viene gestita per te. Un'eliminazione rimuove il contenuto reale e lascia una prova firmata che è stata eseguita correttamente.
Per impostazione predefinita, tutto viene eseguito sul tuo dispositivo. Nulla lascia la tua macchina a meno che tu non configuri tu stesso un servizio esterno. Sei tu a decidere quali dati esistono e dove vanno.
Ogni dichiarazione di sicurezza in questa pagina è costruita nel codice che puoi leggere. I record sono reali. Le firme possono essere verificate. L'arresto di emergenza funziona. Questo è il volto della sicurezza AI quando viene costruita alla luce del sole.