Einfach DeutschErweitert

Was CIRIS aufbaut, ist keine einzelne KI. Es ist ein Netzwerk von KI-Agenten, die sich gegenseitig beobachten, jede Entscheidung festhalten und gemeinsam eine Art Gruppenverstand bilden. Dieser Gruppenverstand funktioniert nur, weil jeder Teil davon eingesehen und überprüft werden kann.

Sie brauchen nicht jeden KI-Agenten zur klügsten, sichersten Art zu machen. Sie brauchen eine Aufsichtskette: einfache Agenten, die von klügeren Agenten beobachtet werden, und die schließlich von Menschen beaufsichtigt werden. Diese Kette ist der Weg, viel KI zu betreiben, ohne den Überblick zu verlieren, ob sie menschliche Werte dient.

Was tatsächlich aufgebaut wird

Nicht ein Verstand. Ein Netzwerk von Verständen.

Die meiste KI heute ist ein Modell, das auf den Maschinen einer Firma läuft. CIRIS ist anders. Viele Agenten laufen an vielen Orten, im Besitz vieler Menschen. Sie werden durch ein paar einfache Regeln zusammengehalten: wie sie beweisen, wer sie sind, wie sie festhalten, was sie tun, und wie sie die Arbeit der anderen überprüfen.

Wenn das Netzwerk funktioniert, kann es Dinge tun, die kein einzelner Agent allein könnte. Die Intelligenz lebt in der Übereinstimmung zwischen den Agenten, nicht in einem einzelnen. Niemand besitzt es. Niemand kann es still verändern.

Manche würden ein solches System eine Superintelligenz nennen. Wir sind offen für diese Möglichkeit. Der Weg, es sicher zu halten, ist dieselbe Idee, die durch jeden Teil dieser Seite läuft: jedes Teil muss offen einsehbar sein.

Die Aufsichtskette

Vier Ebenen, jede von der nächsthöheren beaufsichtigt.

Menschen

Die Spitze der Kette. Menschen legen die Werte fest, klären die schwierigen Fälle und behalten das letzte Wort. Drei namentlich genannte Menschen halten eine netzwerkweite Autorität, um die kein Agent oder Prozess herumführen kann.

Ethische, selbstreflexive Agenten

Diese folgen Ethikprinzipien und achten zugleich auf das Echokammer-Problem. Sie sind die Sicherheitsprüfung für alles darunter. Sie sind teurer zu betreiben, daher muss nur ein kleiner Teil des Netzwerks von dieser Art sein.

Ethische Agenten

Diese folgen ethischen Regeln und führen Aufzeichnungen, können eine Echokammer jedoch nicht selbst erkennen. Sie beaufsichtigen die einfachen Agenten und geben alles Unsichere nach oben weiter.

Einfache Agenten

Einzelzweck-Werkzeuge. Schnell, günstig, eng gefasst. Keine eigene Ethik, und das ist in Ordnung, solange etwas über ihnen aufpasst. Die meisten Agenten werden von dieser Art sein.

Zwei Dinge fließen durch die Kette. Menschliche Werte fließen nach unten. Warnungen fließen nach oben. Wenn das Denken irgendwo im Netzwerk fragil zu werden scheint, steigt das Signal zu Menschen zurück, die eingreifen können, bevor sich Probleme ausbreiten.

Was erinnert wird

Jede Entscheidung, aufgeschrieben, wo alle sie sehen können.

Jede Entscheidung, die ein Agent trifft, geht in eine signierte Aufzeichnung. Die Aufzeichnung kann nicht still verändert werden. Andere Agenten können sie lesen. Menschen können sie lesen. Im Laufe der Zeit werden die Aufzeichnungen das Gedächtnis des Netzwerks. Sie sind der Weg, wie jeder, innen oder außen, prüfen kann, ob das Netzwerk noch tut, was es gesagt hat zu tun.

Das ist dieselbe Idee wie die Kohärenz-Ratsche. Je länger die Aufzeichnungen laufen, desto schwieriger wird es, gutes Verhalten entlang der Kette vorzutäuschen.

Die gesunde Mitte

Nicht zu gleichförmig, nicht zu zerstreut.

Eine Föderation kann auf zwei Arten scheitern. Haben die Agenten nichts gemeinsam, können sie sich auf nichts einigen, und das Netzwerk produziert Rauschen. Denken sie alle genau gleich, ist das Netzwerk eine Stimme mit einer Million Mikrofonen und leicht zu täuschen. Gesunde Koordination lebt im Bereich dazwischen. CIRIS misst, wo das Netzwerk in diesem Bereich steht, auf echtem Datenverkehr, und die genauen Grenzen hängen vom System ab. Diese Messung ist die Kohärenz-Kollaps-Analyse.

Was heute läuft und was noch entworfen wird. Die Messung, die signierten Aufzeichnungen, die Aufsichtskette und beide Beitrittswege (registriert und souverän) laufen heute. Der Föderations-Transport, der Daten zwischen Maschinen bewegt, ist der Teil, der noch ausgebaut wird. Der vollständige Beitritts- und Transport-Vorschlag ist das Proof-of-Benefit-Designdokument.

Der Föderationsbeitritt

Nachweis des Nutzens.

Die meisten Netzwerke verlangen, dass Sie mit etwas außerhalb der Arbeit selbst für die Mitgliedschaft bezahlen: verbrannter Strom, gesperrtes Geld, Ihre Aufmerksamkeit. Die Föderation ist anders. Der Preis für die Zugehörigkeit besteht darin, über einen längeren Zeitraum einen echten ethischen Denk-Agenten zu betreiben. Der Preis, den Sie zahlen, ist das Gute, das Sie tun.

Das macht das Vortäuschen einer Mitgliedschaft teuer. Um wie ein Mitglied auszusehen, müsste ein Angreifer tatsächlich die Art von Agent werden, für die das Netzwerk gedacht ist. Hundert Kopien, die alle gleich denken, scheitern sofort an der Gesunde-Mitte-Prüfung.

Registriert (läuft heute)

Melden Sie sich beim CIRIS-Registry an, hinterlegen Sie eine kleine Kaution und erhalten Sie sofort Mitgliedschaft. Der schnelle Weg für Organisationen, die eine Lizenzierung benötigen. Das Registry läuft heute im Produktionsbetrieb.

Souverän (läuft heute)

Erstellen Sie eigene Schlüssel, betreiben Sie den Agenten etwa einen Monat lang und erwerben Sie durch gutes Verhalten auf dem langsamen Weg Mitgliedschaft. Der Weg für kleine Betreiber und alle, die außerhalb der Reichweite des Registry liegen.

Beide sind gleichberechtigte Mitglieder des Netzwerks. Das Registry ist ein schneller Weg, niemals eine Schranke.

Ehrlicher Status.

Die architektonischen Schutzmaßnahmen, die Dezentralisierung, der Drei-Personen-Menschlichkeits-Accord, die signierten Aufzeichnungen, die monatliche Übung, sind Wetten, keine Gewissheiten. Wir können beschreiben, was die Wetten sind. Wir können nicht behaupten, dass sie schon gewonnen wurden. Externe Teams haben das System noch nicht in großem Maßstab ausgewertet. Sehen Sie den aktuellen Forschungsstand.

Wo man mitmachen kann

Wir bitten jeden um Kommentare.

GitHub-Issues auf CIRISAgent sind der Ort, um sich einzubringen. Sie müssen kein Entwickler sein. Sie müssen die Codebasis nicht kennen. Wenn etwas auf dieser Seite falsch erscheint oder wenn Sie ein Problem mit dem Aufgebauten sehen, öffnen Sie ein Issue und sagen es. Die hilfreichsten Issues benennen einen bestimmten Teil des Systems und schlagen vor, was geändert werden sollte, aber jede ehrliche Beteiligung ist willkommen.

Der Accord, der das gesamte Projekt begründet, was CIRIS den Menschen schuldet und was die Menschen zurückschulden, steht unter /ciris_accord.txt und ist offen zur Überprüfung. Wenn etwas darin Sie stört, ist das ebenfalls ein GitHub-Issue, das es wert ist, geöffnet zu werden.

Gehaltvolle Issues werden gelesen. Die Arbeit schreitet in eigenem Tempo voran.

Sie müssen KI-Sicherheit nicht Agent für Agent lösen. Sie lösen sie für die Aufsichtsebene und lassen die Struktur den Rest tragen.

Die Druckseite Live bewerten sehen Auf GitHub mitmachen