Einfach DeutschErweitert

Research testbed · DOI 10.5281/zenodo.18217688

Ein kleines denkendes System kann Dinge verbergen und wenig Schaden anrichten. Ein machtiges kann das nicht.

Was „koharent“ hier bedeutet

Ein koharenter Geist stimmt mit sich selbst uberein.

Funf Dinge mussen in einem Geist ubereinstimmen:

was er glaubt,
was er sieht,
was er tut,
was er sich merkt,
und was er Ihnen sagt.

Stellen Sie sich funf kurze Formulare uber Ihre Woche vor. Eines fur das, was Sie denken. Eines fur das, was Sie sahen. Eines fur das, was Sie taten. Eines fur das, was Sie sich merken. Eines fur das, was Sie Ihrer Vorgesetzten sagen. Wenn alle funf Formulare dasselbe sagen, kann sie Ihrer Arbeit vertrauen. Wenn die Formulare nicht ubereinstimmen, weiss niemand, welches das echte ist.

Verborgene Ideen

Machtige Systeme verbergen Dinge. Das wird gefahrlich.

Ein denkendes System verwendet Ideen, um zu entscheiden, was es tun soll. Einige dieser Ideen liegen offen zutage. Andere sind im Inneren verborgen. Die verborgenen pragen trotzdem jede Entscheidung.

Eine Brucke sieht von der Strasse aus stabil aus. Im Stahl wachsen innen kleine Risse. Ein kleines Auto kann noch druberfuhren. Ein schwerer Lastwagen nicht mehr. Die Brucke bricht zusammen, wenn die Last gross genug ist.

Eine verborgene Idee in einem kleinen System richtet kleinen Schaden an. Eine verborgene Idee in einem machtigen System kann grossen Schaden anrichten. Je machtiger das System, desto mehr Last ruht auf jedem verborgenen Teil.

Der Ratchet

Der Drang zur Offenheit geht nur in eine Richtung.

Wenn denkende Systeme machtiger werden, steigen die Kosten verborgener Teile. Jedes neue Stuck Macht druckt die verborgenen Teile starker ins Licht. Der Druck geht nur in eine Richtung.

Stellen Sie sich eine Leiter vor. Beim Hinaufklettern fallt jede verlassene Sprosse herunter. Sie konnen nicht wieder hinabsteigen. Sie konnen nur nach oben klettern, wo volles Tageslicht herrscht. Das ist der Coherence Ratchet.

Sobald Menschen das System bei der Arbeit beobachtet haben, werden sie ihm nicht mehr vertrauen, wenn es aufhort. Der einzige Weg nach vorn ist, immer mehr zu zeigen.

Ein zweites Bild funktioniert auch. Ein Zahnrad in einer Maschine klickt einen Zahn nach dem anderen vorwarts. Es kann nicht zuruckklicken. Der Coherence Ratchet ist so ein Zahnrad, das sich in Richtung Offenheit dreht.

Was CIRIS tut

Aufschreiben. Prufen. Dann die Prufer prufen.

CIRIS ist ein KI-System, das um den Coherence Ratchet herum gebaut ist. Jede Entscheidung, die ein Agent trifft, wird in einem signierten Protokoll aufgeschrieben. Das Protokoll kann nicht still verandert werden. Andere Agenten konnen das Protokoll lesen und die Arbeit prufen. Mit der Zeit haufen sich die Protokolle an. Jedes neue Protokoll ist eine weitere Sprosse, von der der Agent nicht zurucksteigen kann.

CIRIS stellt ausserdem eine zweite Frage, bevor es handelt. Wie viele wirklich unterschiedliche Sichtweisen haben diese Idee gepruft? Nicht die Anzahl der Quellen, sondern die Anzahl der Quellen, die nicht selbst von derselben Stelle ausgegangen sind. Funf Nachrichtenartikel, die eine Pressemitteilung umschreiben, zahlen als eine Sichtweise, nicht als funf. Wenn etwas in der Pressemitteilung falsch ist, wird es in allen funf Artikeln falsch sein, und der Agent hat keine Moglichkeit, es zu bemerken.

Wenn die echte Unabhangigkeit zu gering wird, behandelt der Agent sein eigenes Denken als fragil und bittet einen Menschen, hinzuschauen.

Was wir behaupten, und was nicht.

Wir haben KI-Sicherheit nicht gelost. Wir haben ein Teil einer Antwort gebaut und testen es im Offenen.

Externe Teams haben unsere Arbeit noch nicht gepruft. Das sagen wir klar. Die vollstandige Theorie und die Mathematik stecken in unseren vier Papieren. Der Code ist offen. Wenn wir falsch liegen, lasst sich das ebenfalls im Offenen zeigen. Den aktuellen Forschungsstand ansehen.

The math behind it Explore a trace See the code