Funf Prufungen, die alle voneinander kopieren, sind eigentlich eine Prufung.

Stellen Sie sich vor, funf Personen prufen eine Antwort und alle funf stimmen zu. Das fuhlt sich sicher an. Aber wenn alle funf es aus derselben Quelle gelernt haben, ist ihre Ubereinstimmung keine funf Meinungen. Es ist eine Meinung, funfmal wiederholt. Die Anzahl der Prufungen sieht wie funf aus. Die echte Zahl ist eins.

Das ist wichtig fur KI. Ein KI-System kann viele Prufungen seines eigenen Reasonings durchfuhren und trotzdem getauscht werden, wenn diese Prufungen denselben blinden Fleck teilen. Coherence Collapse Analysis ist die Methode, mit der CIRIS den Unterschied zwischen echten Prufungen und Echos erkennt.

Die eine Formel

Die Prufungen zahlen, die man wirklich hat.

Im Kern steht eine einzige kurze Formel. Sie stammt aus der Umfragestatistik, wo sie Kish-Designeffekt heisst. CIRIS war das erste System, das sie fur KI-Alignment einsetzte.

real checks = checks / (1 + copying × (checks − 1))

„Checks“ ist die Anzahl der durchgefuhrten Prufungen. „Copying“ ist das Ausmass der Uberschneidung, von 0 (alle unabhangig) bis 1 (alle gleich). Das Ergebnis ist die Anzahl der Prufungen, die man wirklich hat.

Kein Kopieren: zehn Prufungen zahlen als zehn. Jede Prufung verdient ihren Platz.

Vollstandiges Kopieren: zehn Prufungen zahlen als eine. Es spielt keine Rolle, wie viele man hinzufugt.

Das gesunde Band

Nicht zu gleichformig, nicht zu verstreut.

Dieselbe Form zeigt sich hier wie uberall, wo CIRIS hinschaut. Wenn die Prufungen sich zu sehr aneinander anpassen, ist das System zu starr: eine Stimme wiederholt, leicht zu tauschen. Wenn sie uberhaupt nichts gemein haben, ist es zu verstreut: sie konnen sich auf nichts einigen. Gesundes Prufen lebt im Band dazwischen, demselben Korridor, um den herum der Rest von CIRIS aufgebaut ist.

Die genauen Grenzen dieses Bandes hangen vom gemessenen System ab. Es gibt keine einzige Zauberformel, die uberall gilt, und die Forschung ist ehrlich daruber. Die Korridor-Idee, vollstandig, findet sich auf der Vision-Seite.

Am echten Datenverkehr

Das wurde gemessen, nicht nur argumentiert.

CIRIS hat die Echtprufanzahl am eigenen Live-Agenten-Datenverkehr gemessen, uber Tausende aufgezeichneter Entscheidungen. Bei gesundem Datenverkehr lag sie im Bereich von etwa sieben bis neun wirklich unabhangigen Prufungen. Diese Messung und ihre Methode sind in der Constrained Reasoning Chains-Studie beschrieben. Die Live-Zahlen konnen auf der Forschungsseite beobachtet werden.

Die ehrliche Obergrenze

Was diese Mathematik nicht kann.

Das Paper beweist eine harte Grenze fur sich selbst. Manche Arten von Schaden entstehen nicht durch ein unehrliches Teil. Sie entstehen durch ehrliche Teile, die sich zu einem schlechten Ergebnis addieren, und etwa vierzig Prozent dieser Art von Schaden kann von keiner Prufung erfasst werden, egal wie gut sie ist. CIRIS sagt das klar, anstatt so zu tun, als ob die Mathematik alles abfangen wurde.

Was die Mathematik aussagt, betrifft die Kosten uber die Zeit: ehrliches Reasoning wochenlang durchzufuhren ist bestandiger und gunstiger, als eine Luge uber Tausende aufgezeichneter Entscheidungen konsistent zu halten. Sie neigt den Boden in Richtung Ehrlichkeit. Sie verspricht nicht, jede einzelne Luge zu entlarven.

Wie es zusammenpasst

Die Mathematik ist ein Teil eines grosseren Ganzen.

Diese Seite ist die Messung. Der Coherence Ratchet ist, wie die Messung eingesetzt wird. Die Foderation ist, wie sie zu etwas wird, das viele Systeme teilen. Und die vollstandigen Beweise, so geschrieben, dass ein Computer sie Zeile fur Zeile prufen kann, stecken im Paper und im RATCHET-Repository.

The Coherence Ratchet Forschungsstand Paper lesen