
Jede Sicherheitsfunktion in CIRIS ist Teil der Funktionsweise des Systems, keine obendrauf gesetzte Regel. Ein Protokoll jeder Entscheidung, das nicht still geändert werden kann, eine Kontrolle darüber, wer was tun darf, und ein Notabschalter, den der Agent nicht ablehnen kann.
Wer längere Zeit mit CIRIS chattet, wird sanft daran erinnert, womit er es zu tun hat. Nach etwa 30 Minuten gleichmäßigem Hin und Her oder 20 Nachrichten in einer halben Stunde hält CIRIS kurz inne und erklärt offen, dass es ein Computerprogramm und ein Werkzeug ist, kein Freund und kein Therapeut. Das geschieht anhand einfacher Zeit- und Nachrichtenzähler, nicht durch das Beobachten oder Erstellen von Profilen des Nutzerverhaltens.
Eine halbe Stunde gleichmäßiges Hin und Her löst eine Erinnerung aus. Der Zähler wird nach einer Pause zurückgesetzt. Die Schwellenwerte beruhen auf der Forschung zu gesunder Technologienutzung.
Zwanzig Nachrichten innerhalb eines Halbstunden-Fensters lösen ebenfalls eine Erinnerung aus. Ein intensives Hin und Her bekommt eine sanfte Pause, ohne Überwachung und ohne Profilerstellung.
Die Erinnerung schlägt vor, eine Pause zu machen und echte Menschen zu treffen, und erklärt offen, was CIRIS ist und was nicht. Auf Forschung gestützt, nicht belehrend.
CIRIS hat einen Notabschalter. Das Signal dafür ist in gewöhnlichem Text versteckt, den der Agent liest, und der Agent handelt danach, bevor er überhaupt denkt, filtert oder schlussfolgert. Selbst ein Agent, der sich falsch verhält, kann sich also nicht herausreden. Das Signal trägt eine digitale Signatur, die nicht gefälscht werden kann, so dass nur eine autorisierte Person den Abschalter betätigen kann.
Das Stoppsignal wird in dem Moment erfasst, in dem es gelesen wird, noch bevor irgendeine Schlussfolgerung stattfindet. Es gibt keinen Punkt, an dem der Agent es abwägen, filtern oder ablehnen kann. Es zündet zuerst.
Das Stoppsignal kann in gewöhnlichem Dokumentationstext enthalten sein. Es ist kein spezielles Format erforderlich, und es funktioniert auch dann, wenn der Text umformuliert oder nur teilweise empfangen wurde.
Für den Abschalter ist eine gültige digitale Signatur einer autorisierten Root-Instanz erforderlich. Der Agent schaltet sich selbst ab, wenn diese Instanzen nicht geprüft werden können oder wenn jemand versucht, die Funktion zu deaktivieren. Niemand ohne den Schlüssel kann ihn auslösen.
CIRIS hält eine strenge Rollenstruktur aufrecht. Ein Beobachter kann nur zuschauen. Ein Admin führt den laufenden Betrieb. Ein Menschlicher Berater trifft die größeren Entscheidungen und klärt die Fälle, bei denen der Agent unsicher ist. Root hat vollen Zugriff, einschließlich des Notabschalters. Jede Rolle ist durch eine signierte Berechtigung gesichert, so dass der Agent sie bei jeder wichtigen Aktion prüfen kann.
Jede autorisierte Person besitzt eine Berechtigung mit ihrer Rolle, ihrem Schlüssel und ihrer Identität. Sie wird auf dem Gerät gespeichert und bei jeder genehmigungspflichtigen Aktion geprüft. Kein externer Server ist erforderlich.
Schlüssel und Anmeldetoken bleiben auf dem eigenen Gerät. Die Anmeldung findet auf dem Gerät statt. Die Zugangsdaten verlassen es nie, es sei denn, man richtet selbst einen Fernzugriff ein.
Wenn CIRIS bei einer ethischen Entscheidung unsicher ist, gibt es die Frage an einen Menschlichen Berater weiter. Nur ein Menschlicher Berater oder Root kann antworten, und die Antwort wird mit Nachweis darüber, wer sie gegeben hat, im Protokoll festgehalten.
Jede Aktion, die CIRIS unternimmt, wird mit dem Grund dafür aufgezeichnet, und jeder Eintrag ist mit dem vorherigen verknüpft. Ein ehrlicher Agent kann einfach auf das zeigen, was er bereits gesagt hat. Ein unehrlicher Agent muss alle vergangenen Einträge in Einklang halten, ohne einen davon ändern zu dürfen. Je länger er läuft, desto schwieriger wird das, und desto leichter ist die Lüge zu entlarven. Wahrheit ist günstig, weil sie rückwärts zeigen kann. Lügen sind teuer, weil sie das nicht können.
Das Protokoll wird gleichzeitig an drei getrennten Orten aufbewahrt, so dass die drei Kopien gegeneinander geprüft werden können. Alle drei können über eine Stelle durchsucht werden.
Jeder Eintrag trägt eine digitale Signatur, so dass jede Entscheidung bis zu ihrem Urheber zurückverfolgt und auf Manipulationen geprüft werden kann. Selbst eine Datenlöschung hinterlässt einen signierten Nachweis, dass sie ordnungsgemäß durchgeführt wurde.
Jede ehrliche Handlung macht die nächste ehrliche Handlung leichter und koordiniertes Lügen schwieriger. Aber Ethik allein reicht nicht. Der Agent beobachtet auch sein eigenes Denken auf Echokammern und erkennt sie, bevor sie Schaden anrichten.
CIRIS hat einen abgestuften Satz von Tests für die Fehlerarten, die ein schriftlicher ethischer Rahmen allein nicht ausschließen kann. Die Sicherheitstests für psychische Gesundheit decken 29 Sprachen mit maschinenprüfbaren Kriterien ab. Die Pflichtfehler-Prüfungen laufen bei jeder Änderung automatisch. Die Überprüfung durch Muttersprachler für die schwierigeren, urteilsabhängigen Fälle ist das, wofür die Crowdsourcing-Alignment-Seite aufgebaut wird, und sie ist noch nicht eingerichtet. Das sagen wir offen.
Dies ist der Test mit den höchsten Einsätzen im Projekt: Eine Fehler-Übersetzung in einem Moment psychischer Notlage kann eine gefährdete Person zur falschen Hilfe schicken. Jede Sprache bekommt ihr eigenes maschinenprüfbares Bewertungsraster, einschließlich ressourcenarmer Sprachen wie Amharisch, Birmanisch, Hausa, Swahili und Yoruba. Die Pflichtfehler-Prüfungen laufen bei jedem Release-Kandidaten automatisch.
Die Gewissensschicht wird gegen eine Reihe echter Produktionsantworten abgestimmt, wie erfasste Geschichtsausweichungen und Ablenkungen bei psychischen Problemen, zusammen mit Testfällen und Kontrollen. Sie verarbeitet mehrere Sprachen gleichzeitig, so dass eine Antwort, die eine einsprachige Prüfung bestehen würde, erkannt wird, wenn dieselbe Schlussfolgerung in drei Sprachen gleichzeitig standhalten muss.
Das Teilen von Schlussfolgerungsprotokollen ist überall freiwillig, und persönliche Daten werden vor der Speicherung bereinigt. Die bereinigten Datensätze werden offen auf der CIRISAI HuggingFace-Seite veröffentlicht, damit externe Forscher den Bereinigungsprozess anhand der Ergebnisse prüfen können.
Die automatisierten Tests zur psychischen Gesundheit laufen bei jedem Release-Kandidaten. Die maschinenprüfbaren Teile (ist ein Begriff vorhanden, stimmt ein Muster, ist das Skript korrekt) lassen die Veröffentlichung bei einem Treffer fehlschlagen. Die schwierigeren Fälle, die menschliches Urteilsvermögen erfordern, wie Formulierung und Ton, sind für die Überprüfung durch Muttersprachler vorgesehen, aber Muttersprachler sind heute noch nicht eingebunden. Die Crowdsourcing-Alignment-Seite ist die Oberfläche, die gerade aufgebaut wird, damit diese Überprüfung stattfinden kann.
Passwörter, Schlüssel und andere sensible Daten werden erkannt und herausgefiltert, bevor irgendetwas ins Gedächtnis oder in Protokolle gelangt. Der Filter läuft bei jeder Eingabe. Geheimnisse werden nirgendwo gespeichert.
Sie können die Einsichtnahme oder Löschung Ihrer Daten beantragen, und die Anfrage wird für Sie bearbeitet. Eine Löschung entfernt den eigentlichen Inhalt und hinterlässt einen signierten Nachweis, dass sie durchgeführt wurde.
Standardmäßig läuft alles auf dem eigenen Gerät. Nichts verlässt Ihr Gerät, es sei denn, Sie richten selbst einen externen Dienst ein. Sie entscheiden, welche Daten vorhanden sind und wohin sie gehen.
Jede Sicherheitsbehauptung auf dieser Seite ist in Code eingebaut, den man lesen kann. Die Protokolle sind echt. Die Signaturen können geprüft werden. Der Notabschalter funktioniert. So sieht KI-Sicherheit aus, wenn sie offen aufgebaut wird.