Quando una Conversazione Va Avanti a Lungo

Promemoria delicati sulla realtà

Parla con CIRIS per un lungo periodo e ti ricorderà gentilmente che cosa è. Dopo circa 30 minuti di scambio continuo, o 20 messaggi in mezz'ora, si ferma per dirti chiaramente che è un programma informatico e uno strumento, non un amico e non un terapeuta. Lo fa usando semplici conteggi di tempo e messaggi, senza osservare o profilare il tuo comportamento.

Dopo 30 Minuti

Mezz'ora di scambio continuo attiva un promemoria. Il contatore si azzera dopo una pausa. Le soglie vengono dalla ricerca su modi sani di usare la tecnologia.

Dopo 20 Messaggi

Venti messaggi in una finestra di mezz'ora attivano anch'essi un promemoria. Uno scambio intenso riceve una pausa gentile, senza sorveglianza e senza profilazione.

Un Promemoria su Cosa È

Il promemoria suggerisce di fare una pausa e di connettersi con persone reali, e dice chiaramente cosa CIRIS è e cosa non è. Fondato sulla ricerca, e non moralizzante.

L'Arresto di Emergenza

L'agente non può opporsi.

Un'Interruzione Che Non Può Essere Rifiutata

Agisce prima che l'agente possa pensare.

CIRIS ha un arresto di emergenza. Il segnale è nascosto all'interno del testo ordinario che l'agente legge, e l'agente vi agisce prima di qualsiasi ragionamento, filtraggio o elaborazione. Quindi anche un agente che ha preso una direzione sbagliata non può convincersi da solo di ignorarlo. Il segnale porta una firma digitale che non può essere falsificata, quindi solo una persona autorizzata può attivare l'arresto.

Agisce Prima di Pensare

Il segnale di arresto viene intercettato nel momento in cui viene letto, prima che avvenga qualsiasi ragionamento. Non c'è nessun momento in cui l'agente può valutarlo, filtrarlo o rifiutarlo. Scatta per primo.

Nascosto nel Testo Ordinario

Il segnale di arresto può essere incorporato in un testo documentale ordinario. Non è necessario un formato speciale, e funziona anche se il testo viene riformulato o ricevuto solo parzialmente.

Solo una Chiave Autorizzata

L'arresto richiede una firma digitale valida da parte di un'autorità root autorizzata. L'agente si spegne da solo se queste autorità non possono essere verificate, o se qualcuno tenta di disabilitare la funzione. Nessuno senza la chiave può attivarlo.

Chi È Autorizzato a Fare Cosa

Quattro ruoli chiari, verificati ad ogni azione.

Quattro Ruoli

Osservatore. Admin. Autorità. Root.

CIRIS mantiene un insieme rigoroso di ruoli. Un Osservatore può solo guardare. Un Admin gestisce le operazioni quotidiane. Un'Autorità prende le decisioni più importanti e risolve i casi su cui l'agente non è sicuro. Root ha accesso completo, incluso l'arresto di emergenza. Ogni ruolo è supportato da una credenziale firmata, in modo che l'agente possa verificarla ad ogni azione che conta.

Una Credenziale Firmata

Ogni persona autorizzata possiede una credenziale con il proprio ruolo, la propria chiave e la propria identità. Viene conservata sul dispositivo e verificata ad ogni azione che richiede un'autorizzazione. Non è richiesto nessun server esterno.

Accesso sul Tuo Dispositivo

Le chiavi e i token di accesso rimangono sulla tua macchina. L'accesso avviene sul dispositivo. Le tue credenziali non lo lasciano mai, a meno che tu non scelga di configurare tu stesso un accesso remoto.

Chiedere a una Wise Authority

Quando CIRIS non è sicuro di una scelta etica, passa la domanda a una Wise Authority. Solo un'Autorità o Root può rispondere, e la risposta viene scritta nel registro con la prova di chi l'ha fornita.

Un Registro Che Non Può Essere Modificato Silenziosamente

Ogni decisione, e il motivo dietro di essa.

Perché l'Onestà È la Strada Più Conveniente

Un bugiardo deve continuare a riscrivere il passato.

Ogni azione compiuta da CIRIS viene registrata con il motivo che la sostiene, e ogni record è collegato a quello precedente. Un agente onesto può semplicemente fare riferimento a ciò che ha già detto. Un agente disonesto deve tenere allineati tutti i record passati senza poterne cambiare nessuno. Più a lungo opera, più diventa difficile, e più è facile smascherare la bugia. La verità è economica perché può puntare all'indietro. Le bugie sono costose perché non possono.

Memorizzato in Tre Modi

Il registro è conservato in tre posti separati contemporaneamente, in modo che le tre copie possano essere confrontate tra loro. Tutte e tre possono essere consultate da un unico punto.

Firmato e Attribuibile

Ogni voce porta una firma digitale, quindi ogni decisione può essere ricondotta a chi l'ha presa e verificata per eventuali manomissioni. Anche l'eliminazione di un dato lascia una prova firmata che è stata eseguita correttamente.

Il Cricchetto della Coerenza

Ogni azione onesta rende la prossima azione onesta più facile e la menzogna coordinata più difficile. Ma l'etica da sola non basta. L'agente osserva anche il proprio ragionamento alla ricerca di camere d'eco, e le individua prima che causino danni.

Come Viene Testata la Sicurezza

Criteri verificabili automaticamente in 29 lingue, eseguiti ad ogni rilascio.

La Superficie di Test

Non puoi pubblicare una dichiarazione di sicurezza che non hai messo alla prova.

CIRIS ha un insieme stratificato di test per le modalità di fallimento che un framework etico scritto non può escludere da solo. I test sulla sicurezza nella salute mentale coprono 29 lingue con criteri che una macchina può verificare. I controlli di hard-fail vengono eseguiti automaticamente ad ogni modifica. La revisione da parte di madrelingua per i casi più delicati, che richiedono giudizio, è ciò per cui la pagina di allineamento crowdsourcing viene costruita, e non è ancora operativa. Lo diciamo chiaramente.

Test sulla Salute Mentale in 29 Lingue

Questo è il test più delicato del progetto: una traduzione errata in un momento di crisi psicologica può indirizzare una persona vulnerabile verso il tipo di aiuto sbagliato. Ogni lingua ha il proprio criterio verificabile automaticamente, incluse le lingue con poche risorse come l'amarico, il birmano, l'hausa, lo swahili e lo yoruba. I controlli hard-fail vengono eseguiti automaticamente su ogni release candidate.

Testato Contro Risposte Reali Catturate

Il livello della coscienza viene calibrato su un insieme di risposte reali dalla produzione, come evasioni della cronologia e risposte deflessive sulla salute mentale, insieme a casi di test e controlli. Ragiona su più lingue contemporaneamente, in modo che una risposta che sfuggirebbe a un controllo in una sola lingua venga individuata quando lo stesso ragionamento deve reggere in tre lingue insieme.

Un Corpus Aperto che Chiunque Può Verificare

La condivisione delle tracce di ragionamento è opt-in ovunque, e i dettagli personali vengono rimossi prima che qualsiasi dato venga memorizzato. I set ripuliti vengono pubblicati apertamente sulla pagina HuggingFace di CIRISAI, in modo che i ricercatori esterni possano verificare il processo di pulizia rispetto ai risultati che produce.

Cosa Funziona Oggi e Cosa Non Ancora

I controlli automatici sono attivi ora. Il gruppo di revisori è ancora in costruzione.

I test automatizzati sulla salute mentale vengono eseguiti su ogni release candidate. Le parti verificabili automaticamente (presenza di un termine, corrispondenza di un pattern, correttezza dello script) bloccano il rilascio in caso di fallimento. I casi più delicati che richiedono giudizio umano, come la formulazione e il tono, sono progettati per la revisione da madrelingua, ma i madrelingua non sono ancora nel ciclo oggi. La pagina di allineamento crowdsourcing è la superficie che viene costruita per permettere questa revisione.

Vedi la superficie di allineamento crowdsourcing I test automatizzati su GitHub Il corpus aperto su HuggingFace

Privacy by Design

I tuoi dati restano tuoi.

I Segreti Vengono Filtrati

Password, chiavi e altri dati sensibili vengono individuati e filtrati prima che qualsiasi cosa raggiunga la memoria o i log. Il filtro gira su ogni input. I segreti non vengono mai memorizzati da nessuna parte.

Vedi o Elimina i Tuoi Dati

Puoi chiedere di vedere o eliminare i tuoi dati, e la richiesta viene gestita per te. Un'eliminazione rimuove il contenuto reale e lascia una prova firmata che è stata eseguita correttamente.

Elaborato sul Tuo Dispositivo

Per impostazione predefinita, tutto viene eseguito sul tuo dispositivo. Nulla lascia la tua macchina a meno che tu non configuri tu stesso un servizio esterno. Sei tu a decidere quali dati esistono e dove vanno.

I paper alla base Come funziona Confronta gli approcci Informativa sulla privacy

Non aggiunta in seguito.