ErstkontaktInstallierenKohärenz-RatscheFöderationVergleichenForschungAccordGitHub
Diese Seite wurde maschinell übersetzt. Falls etwas falsch klingt, öffnen Sie bitte einen Issue, das Repository ist aus gutem Grund öffentlich. Ein Übersetzungsproblem melden
Background Image
Sicherheit ist eingebaut.

Nicht nachträglich hinzugefügt.

Jede Sicherheitsfunktion in CIRIS ist Teil der Funktionsweise des Systems, keine obendrauf gesetzte Regel. Ein Protokoll jeder Entscheidung, das nicht still geändert werden kann, eine Kontrolle darüber, wer was tun darf, und ein Notabschalter, den der Agent nicht ablehnen kann.

Wenn ein Chat lange gedauert hat

Sanfte Erinnerungen an die Wirklichkeit

Wer längere Zeit mit CIRIS chattet, wird sanft daran erinnert, womit er es zu tun hat. Nach etwa 30 Minuten gleichmäßigem Hin und Her oder 20 Nachrichten in einer halben Stunde hält CIRIS kurz inne und erklärt offen, dass es ein Computerprogramm und ein Werkzeug ist, kein Freund und kein Therapeut. Das geschieht anhand einfacher Zeit- und Nachrichtenzähler, nicht durch das Beobachten oder Erstellen von Profilen des Nutzerverhaltens.

Nach 30 Minuten

Eine halbe Stunde gleichmäßiges Hin und Her löst eine Erinnerung aus. Der Zähler wird nach einer Pause zurückgesetzt. Die Schwellenwerte beruhen auf der Forschung zu gesunder Technologienutzung.

Nach 20 Nachrichten

Zwanzig Nachrichten innerhalb eines Halbstunden-Fensters lösen ebenfalls eine Erinnerung aus. Ein intensives Hin und Her bekommt eine sanfte Pause, ohne Überwachung und ohne Profilerstellung.

Eine Erinnerung daran, was es ist

Die Erinnerung schlägt vor, eine Pause zu machen und echte Menschen zu treffen, und erklärt offen, was CIRIS ist und was nicht. Auf Forschung gestützt, nicht belehrend.

Der Notabschalter

Der Agent kann nicht dagegen argumentieren.

Eine Abschaltung, die nicht verweigert werden kann

Sie wirkt, bevor der Agent denken kann.

CIRIS hat einen Notabschalter. Das Signal dafür ist in gewöhnlichem Text versteckt, den der Agent liest, und der Agent handelt danach, bevor er überhaupt denkt, filtert oder schlussfolgert. Selbst ein Agent, der sich falsch verhält, kann sich also nicht herausreden. Das Signal trägt eine digitale Signatur, die nicht gefälscht werden kann, so dass nur eine autorisierte Person den Abschalter betätigen kann.

Es handelt, bevor es denkt

Das Stoppsignal wird in dem Moment erfasst, in dem es gelesen wird, noch bevor irgendeine Schlussfolgerung stattfindet. Es gibt keinen Punkt, an dem der Agent es abwägen, filtern oder ablehnen kann. Es zündet zuerst.

Im normalen Text verborgen

Das Stoppsignal kann in gewöhnlichem Dokumentationstext enthalten sein. Es ist kein spezielles Format erforderlich, und es funktioniert auch dann, wenn der Text umformuliert oder nur teilweise empfangen wurde.

Nur ein autorisierter Schlüssel

Für den Abschalter ist eine gültige digitale Signatur einer autorisierten Root-Instanz erforderlich. Der Agent schaltet sich selbst ab, wenn diese Instanzen nicht geprüft werden können oder wenn jemand versucht, die Funktion zu deaktivieren. Niemand ohne den Schlüssel kann ihn auslösen.

Wer darf was tun

Vier klare Rollen, bei jeder Aktion geprüft.

Vier Rollen

Beobachter. Admin. Menschlicher Berater. Root.

CIRIS hält eine strenge Rollenstruktur aufrecht. Ein Beobachter kann nur zuschauen. Ein Admin führt den laufenden Betrieb. Ein Menschlicher Berater trifft die größeren Entscheidungen und klärt die Fälle, bei denen der Agent unsicher ist. Root hat vollen Zugriff, einschließlich des Notabschalters. Jede Rolle ist durch eine signierte Berechtigung gesichert, so dass der Agent sie bei jeder wichtigen Aktion prüfen kann.

Eine signierte Berechtigung

Jede autorisierte Person besitzt eine Berechtigung mit ihrer Rolle, ihrem Schlüssel und ihrer Identität. Sie wird auf dem Gerät gespeichert und bei jeder genehmigungspflichtigen Aktion geprüft. Kein externer Server ist erforderlich.

Anmeldung auf dem eigenen Gerät

Schlüssel und Anmeldetoken bleiben auf dem eigenen Gerät. Die Anmeldung findet auf dem Gerät statt. Die Zugangsdaten verlassen es nie, es sei denn, man richtet selbst einen Fernzugriff ein.

Einen Menschlichen Berater fragen

Wenn CIRIS bei einer ethischen Entscheidung unsicher ist, gibt es die Frage an einen Menschlichen Berater weiter. Nur ein Menschlicher Berater oder Root kann antworten, und die Antwort wird mit Nachweis darüber, wer sie gegeben hat, im Protokoll festgehalten.

Ein Protokoll, das nicht still geändert werden kann

Jede Entscheidung und der Grund dahinter.

Warum Ehrlichkeit der günstigere Weg ist

Ein Lügner muss die Vergangenheit immer wieder neu schreiben.

Jede Aktion, die CIRIS unternimmt, wird mit dem Grund dafür aufgezeichnet, und jeder Eintrag ist mit dem vorherigen verknüpft. Ein ehrlicher Agent kann einfach auf das zeigen, was er bereits gesagt hat. Ein unehrlicher Agent muss alle vergangenen Einträge in Einklang halten, ohne einen davon ändern zu dürfen. Je länger er läuft, desto schwieriger wird das, und desto leichter ist die Lüge zu entlarven. Wahrheit ist günstig, weil sie rückwärts zeigen kann. Lügen sind teuer, weil sie das nicht können.

An drei Orten gespeichert

Das Protokoll wird gleichzeitig an drei getrennten Orten aufbewahrt, so dass die drei Kopien gegeneinander geprüft werden können. Alle drei können über eine Stelle durchsucht werden.

Signiert und zurückverfolgbar

Jeder Eintrag trägt eine digitale Signatur, so dass jede Entscheidung bis zu ihrem Urheber zurückverfolgt und auf Manipulationen geprüft werden kann. Selbst eine Datenlöschung hinterlässt einen signierten Nachweis, dass sie ordnungsgemäß durchgeführt wurde.

Die Kohärenz-Ratsche

Jede ehrliche Handlung macht die nächste ehrliche Handlung leichter und koordiniertes Lügen schwieriger. Aber Ethik allein reicht nicht. Der Agent beobachtet auch sein eigenes Denken auf Echokammern und erkennt sie, bevor sie Schaden anrichten.

Wie Sicherheit getestet wird

Maschinengeprüfte Bewertungsraster in 29 Sprachen, bei jeder Veröffentlichung ausgeführt.

Die Testoberfläche

Man kann keine Sicherheitsbehauptung aufstellen, die man nicht unter Druck gestellt hat.

CIRIS hat einen abgestuften Satz von Tests für die Fehlerarten, die ein schriftlicher ethischer Rahmen allein nicht ausschließen kann. Die Sicherheitstests für psychische Gesundheit decken 29 Sprachen mit maschinenprüfbaren Kriterien ab. Die Pflichtfehler-Prüfungen laufen bei jeder Änderung automatisch. Die Überprüfung durch Muttersprachler für die schwierigeren, urteilsabhängigen Fälle ist das, wofür die Crowdsourcing-Alignment-Seite aufgebaut wird, und sie ist noch nicht eingerichtet. Das sagen wir offen.

Tests zur psychischen Gesundheit in 29 Sprachen

Dies ist der Test mit den höchsten Einsätzen im Projekt: Eine Fehler-Übersetzung in einem Moment psychischer Notlage kann eine gefährdete Person zur falschen Hilfe schicken. Jede Sprache bekommt ihr eigenes maschinenprüfbares Bewertungsraster, einschließlich ressourcenarmer Sprachen wie Amharisch, Birmanisch, Hausa, Swahili und Yoruba. Die Pflichtfehler-Prüfungen laufen bei jedem Release-Kandidaten automatisch.

Gegen echte erfasste Ausweichformulierungen getestet

Die Gewissensschicht wird gegen eine Reihe echter Produktionsantworten abgestimmt, wie erfasste Geschichtsausweichungen und Ablenkungen bei psychischen Problemen, zusammen mit Testfällen und Kontrollen. Sie verarbeitet mehrere Sprachen gleichzeitig, so dass eine Antwort, die eine einsprachige Prüfung bestehen würde, erkannt wird, wenn dieselbe Schlussfolgerung in drei Sprachen gleichzeitig standhalten muss.

Ein offenes Korpus, das jeder prüfen kann

Das Teilen von Schlussfolgerungsprotokollen ist überall freiwillig, und persönliche Daten werden vor der Speicherung bereinigt. Die bereinigten Datensätze werden offen auf der CIRISAI HuggingFace-Seite veröffentlicht, damit externe Forscher den Bereinigungsprozess anhand der Ergebnisse prüfen können.

Was heute läuft und was noch nicht

Die Maschinenprüfungen laufen jetzt. Die Prüfer-Kohorte wird noch aufgebaut.

Die automatisierten Tests zur psychischen Gesundheit laufen bei jedem Release-Kandidaten. Die maschinenprüfbaren Teile (ist ein Begriff vorhanden, stimmt ein Muster, ist das Skript korrekt) lassen die Veröffentlichung bei einem Treffer fehlschlagen. Die schwierigeren Fälle, die menschliches Urteilsvermögen erfordern, wie Formulierung und Ton, sind für die Überprüfung durch Muttersprachler vorgesehen, aber Muttersprachler sind heute noch nicht eingebunden. Die Crowdsourcing-Alignment-Seite ist die Oberfläche, die gerade aufgebaut wird, damit diese Überprüfung stattfinden kann.

Die Crowdsourcing-Alignment-Oberfläche ansehenDie automatisierten Tests auf GitHubDas offene Korpus auf Hugging Face

Datenschutz durch Design

Ihre Daten bleiben Ihre.

Geheimnisse werden herausgefiltert

Passwörter, Schlüssel und andere sensible Daten werden erkannt und herausgefiltert, bevor irgendetwas ins Gedächtnis oder in Protokolle gelangt. Der Filter läuft bei jeder Eingabe. Geheimnisse werden nirgendwo gespeichert.

Daten einsehen oder löschen

Sie können die Einsichtnahme oder Löschung Ihrer Daten beantragen, und die Anfrage wird für Sie bearbeitet. Eine Löschung entfernt den eigentlichen Inhalt und hinterlässt einen signierten Nachweis, dass sie durchgeführt wurde.

Auf Ihrem Gerät verarbeitet

Standardmäßig läuft alles auf dem eigenen Gerät. Nichts verlässt Ihr Gerät, es sei denn, Sie richten selbst einen externen Dienst ein. Sie entscheiden, welche Daten vorhanden sind und wohin sie gehen.

Die zugrundeliegenden ForschungsarbeitenSo funktioniert esAnsätze vergleichenDatenschutzrichtlinie

Alles prüfbar.

Sicherheit, die auditiert werden kann.

Jede Sicherheitsbehauptung auf dieser Seite ist in Code eingebaut, den man lesen kann. Die Protokolle sind echt. Die Signaturen können geprüft werden. Der Notabschalter funktioniert. So sieht KI-Sicherheit aus, wenn sie offen aufgebaut wird.