Den Gewichten vertrauen oder das Verhalten prüfen

Der Mainstream der KI-Sicherheit versucht, ein Modell von innen heraus gut zu machen: seine Werte trainieren, seine Gedanken untersuchen, es mit sich selbst debattieren lassen. Diese Arbeit ist wichtig. CIRIS setzt auf den anderen Weg. Es wird angenommen, dass ein fähiges Modell möglicherweise falsch ausgerichtet ist. Statt seinem Verstand zu vertrauen, werden seine folgenreichen Handlungen gegenüber Menschen und anderen Systemen verantwortlich gemacht, die sie prüfen können.

In den eigenen Begriffen des Feldes gehört CIRIS zum institutionellen und kontrollorientierten Zweig, gemeinsam mit KI-Kontrolle und garantiert sicherer KI, nicht zur werteinternen Hauptlinie von RLHF, Constitutional AI, Debatte und Interpretierbarkeit. Seine Antwort auf skalierbare Aufsicht, also wie man etwas überwacht, das klüger ist als man selbst, besteht darin, den Verantwortlichkeitsrahmen zu überprüfen, nicht das Denken. Eine Signatur, ein Quorum, ein hash-verkettetes Audit bleiben günstig zu prüfen, auch wenn die dahinterstehende Entscheidung übermenschlich ist. Es richtet Systeme vieler fähiger Agenten über die Zeit aus, nicht die Werte eines einzelnen Geistes.

Die Linie, die wir halten

Es versucht nicht, eine einzige allmächtige KI auszurichten. Absichtlich.

Verantwortlichkeit braucht mehr als eine Partei. Jemanden, dem man Rechenschaft schuldet. Eine Möglichkeit zur Überprüfung, die nicht stillschweigend beseitigt werden kann. Ein Machtgleichgewicht, das keine Seite allein übernehmen kann. Eine einzelne Superintelligenz hat nichts davon, daher gibt es keinen ehrlichen Weg, sie zur Verantwortung zu ziehen. CIRIS ist für die andere Zukunft gebaut: viele fähige Agenten, Menschen und Organisationen, deren folgenreiche Entscheidungen alle unabhängig überprüfbar sind.

Die Haltung ist daher klar formuliert. Eine Singleton-ASI ist kein System, das ausgerichtet werden soll, sondern ein Zustand, der verhindert werden muss. Übermenschliche Fähigkeiten an einem einzigen, nicht rechenschaftspflichtigen Ort zu konzentrieren, auf diesem Stand der menschlichen institutionellen Entwicklung, ist illegitim, weil keine Institution reif genug ist, sie zur Verantwortung zu ziehen, was genau die Gefahr ist. In den eigenen Begriffen des Rahmens ist ein Singleton der ρ→1 Einzelstimmen-Kollaps, den das Korridormodell als Koordinationsversagen bezeichnet, nicht als Erfolg. Dass unsere Garantien in einem Verbund gelten und gegenüber einem Singleton nachlassen, ist keine Lücke, die wir schließen. Es ist das Regime, das wir ablehnen zu legitimieren, gehalten als Verpflichtung, nicht nur als Vorhersage.

Verwandte Arbeiten, ehrlich dargestellt

Jeder nahe Nachbar füllt einige Felder aus. Eine Zeile füllt sie alle.

CIRIS hat ernsthafte intellektuelle Mitstreiter, jeder stark auf seinem eigenen Gebiet. Der Punkt dieser Tabelle ist nicht, dass die Ideen beispiellos sind. Es ist, dass fast niemand den gesamten Stack als ein einziges rechenschaftspflichtiges System gebaut und ausgeliefert hat. Jede Zeile unten ist eine echte Entwicklungslinie, die es wert ist, gelesen zu werden. Nur die letzte Zeile erfüllt jede Spalte, und diese Integration ist die eigentliche Aussage.

Ansatz	Nächstverwandte Arbeiten	Mechanismus	Laufzeit, kein Training	Signiert die Entscheidung	Laufzeitverfassung	Föderierte Verifikation	Ausführbare Konformität	In Betrieb
Die institutionelle These	Gillian Hadfield	Normative Infrastruktur und regulatorische Märkte, als Theorie und Politik	Theorie	Nein	Theorie	Theorie	Nein	Nein
Governance-Graphen	Institutional AI (Pierucci et al.)	Öffentliche Graphen rechtlicher Zustände und Sanktionen, als Forschungsprototyp	Forschung	Nein	Forschung	Nein	Nein	Nein
Verfassungsbasierte Governance auf der Blockchain	AgentCity (Ruan, Zhang)	Gewaltenteilung als Smart Contracts, vorab auf einem Testnetz registriert	Forschung	Teilweise	Forschung	Nein	Nein	Nein
Annahme: Das Modell ist falsch ausgerichtet	Redwood Research (KI-Kontrolle)	Überwachung und Red-Teaming innerhalb einer einzigen Bereitstellung	Ja	Nein	Nein	Nein	Forschung	Forschung
Beweisbar sicher, externalisiert	davidad, Bengio, die GS-AI-Linie	Formale Beweise über Weltmodelle	Teilweise	Nein	Theorie	Theorie	Forschung	Nein
Verfassung zur Trainingszeit	Anthropic Constitutional AI	In die Gewichte trainierte Werte, eine Organisation	Nein	Nein	Nein	Nein	Nein	Ja
Kryptographische Herkunft	C2PA, zkML (EZKL, Giza)	Medienherkunft signieren, beweisen, dass ein Inferenzlauf stattfand	Ja	Teilweise	Nein	Teilweise	Teilweise	Ja
Signierter Schlussfolgerungs-DAG	Proof of Insight (Arclio)	Ein signierter Graph von KI-Ableitungsschritten, als Entwurfsspezifikation	Nein	Teilweise	Nein	Theorie	Theorie	Nein
Hardware-bestätigte Inferenz	Phala, Marlin, Attestable Audits	Führt Inferenz in einer sicheren Enklave durch, die die Ausgabe signiert	Ja	Teilweise	Nein	Teilweise	Nein	Teilweise
Dezentrale Identität und Verbund	atproto, Bittensor	Soziale oder Rechenverbünde, keine Gewissensschicht	Teilweise	Nein	Nein	Teilweise	Teilweise	Ja
Agentenprotokolle	MCP, A2A	Werkzeug- und Agenteninteroperabilität, keine Governance	Ja	Nein	Nein	Nein	Teilweise	Ja
Sicherheitsbewertung und Konformitätssuiten	MLCommons, METR, HarmBench	Ausführbare Benchmarks, die Modellverhalten bewerten, keine Entscheidungen	Nein	Nein	Nein	Nein	Teilweise	Ja
Drittanbieter- und föderiertes Audit	AISI Network, GovAI	Unabhängige Institute testen gemeinsam eingesetzte Systeme	Teilweise	Nein	Nein	Ja	Nein	Teilweise
CIRIS	Dieses System	Gewissens-Pipeline zu signierten Artefakten, Laufzeitverfassung, post-quantengesicherter Verbund	Ja	Ja	Ja	Ja	Ja	Ja

Abgeleitet aus öffentlichen Arbeiten Stand Juni 2026, jede Zeile unten zitiert. Wenn wir einen nahen Nachbarn falsch dargestellt haben, teilen Sie es uns mit und wir korrigieren die Zeile.

Quellen

02Verbraucher-KI

So schneidet CIRIS im Vergleich zur KI ab, die du wirklich nutzt

Die alltäglichen Assistenten sind leistungsstark und einfach zu bedienen. Sie laufen auch in der Cloud von jemand anderem, führen keine Aufzeichnungen, die du prüfen kannst, und antworten niemandem, den du benennen kannst. Hier ist derselbe Rechenschaftstest, angewendet auf die KI, die die meisten Menschen täglich öffnen.

Assistent	Veröffentlichte Grundsätze	Nachweis der Handlungen	Fragt einen Menschen bei Unsicherheit	Open Source	Echokammer-Prüfung
ChatGPT	Ja	Nein	Nein	Nein	Nein
Gemini	Ja	Nein	Nein	Nein	Nein
Claude	Ja	Nein	Nein	Nein	Nein
CIRIS	Ja	Ja	Ja	Ja	Ja

Verglichen am öffentlichen Produktverhalten vom Juni 2026. Jeder Link zu Grundsätzen führt zur eigenen veröffentlichten Spezifikation des jeweiligen Unternehmens.

Der größte Teil des Feldes richtet das Modell aus. CIRIS baut die Institutionen darum herum.

Den Gewichten vertrauen oder das Verhalten prüfen

Es versucht nicht, eine einzige allmächtige KI auszurichten. Absichtlich.

So schneidet CIRIS im Vergleich zur KI ab, die du wirklich nutzt

Selbst ausprobieren

Beim Denken zuschauen

Die Identität verifizieren

Loslegen