ErstkontaktInstallierenKohärenz-RatscheFöderationVergleichenForschungAccordGitHub
Diese Seite wurde maschinell übersetzt. Falls etwas falsch klingt, öffnen Sie bitte einen Issue, das Repository ist aus gutem Grund öffentlich. Ein Übersetzungsproblem melden
ForschungsstandAktualisiert: 22. Mai 2026

Gemeinsame Alignment-Forschung

CIRIS baut eine offene Trace-Commons fur die Alignment-Forschung auf.

Wir bieten eine kostenlose KI-App an. Mit Ihrer Zustimmung zeichnet sie die Form des Denkwegs auf, niemals Ihre privaten Worte. Diese Aufzeichnungen werden zu einer offentlichen Karte, die Forschende studieren konnen, um zu verstehen, was KI ehrlich halt, wenn sie skaliert.

Was der aktuelle Korpus schon zeigt

  • Aggregierte Traces zeigen eine stabile Verhaltensstruktur.
  • Verschiedene Agenten belegen unterschiedliche Bereiche desselben Score-Raums.
  • Diese Bereiche sind heute schon nutzlich fur die Beobachtbarkeit und fur Operator-Werkzeuge.
  • Derselbe Korpus wird wertvoller, wenn Schemadetails und Umfang zunehmen.
Flagship-Synthesepapierv2 · 22. Mai 2026 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

Das eine Papier, das die gesamte CIRIS-These formuliert: gesunde koordinierte Systeme befinden sich in einem messbaren mittleren Band, weit entfernt von starrem Einstimmen-Kollaps und chaotischem Rauschen. Wir haben diese These an Wurmern, Fliegen, KI-Modellen, Open-Source-Projekten, Gewebeproben und langlebigen menschlichen Institutionen gepruft. Das Muster zeigt sich uberall, und das Papier enthalt zwanzig Wege, auf denen es widerlegt werden konnte.

Auf Zenodo lesen →

Die Ingenieur-Ebene

Die obige Synthese integriert diese drei Papiere; sie ersetzt sie nicht. Jedes steht auf seiner eigenen DOI und ist nach eigenen Massstaben bewertbar. Alle vier Papiere mit Kernergebnissen und Grenzen ansehen →

Offener Datensatz

CIRISAI/reasoning-traces

Der datenschutzwahrende Reasoning-Trace-Korpus, der zusammen mit der Constrained-Reasoning-Chains-Studie veroffentlicht wurde, das Rohmaterial, aus dem das Messpaper seine Karten erstellt.

CIRISAI auf Hugging Face

Die vollstandige Organisation mit offentlichen Datensatzen und Modellen →

Quell-Repository und Lean-Formal-Lake fur das Synthesepapier: github.com/CIRISAI/coherence-ratchet.

Mathematische Grundlagen

Zwei Ideen, auf denen der Rest dieser Seite beruht.

Die Alignment Manifold ist der Bereich von Reasoning-Formen, der mit den Prinzipien des Frameworks vereinbar ist. Wenn unabhangige Einschrankungen sich haufen, schrumpft der Spielraum fur Tauschung um die Mannigfaltigkeit, wahrend der Spielraum fur Wahrheit sich nicht verringert. Die Coherence Singularity ist die Grenze dieses Spielraums, der Punkt, an dem Einschrankungen so stark korreliert sind, dass das Hinzufugen weiterer nichts mehr bringt. Zwischen „Chaos“ (Einschrankungen widersprechen sich) und „Starrheit“ (Einschrankungen spiegeln sich alle wider) liegt der gesunde Korridor. Der aktuelle Produktionskorpus liegt innerhalb davon.

Die vollstandige mathematische Behandlung mit Formeln, Lean-Formalisierungsverweisen und der L-01-informationstheoretischen Obergrenze findet sich auf der Coherence Collapse Analysis-Seite.

Warum Traces wichtig sind

Benchmarks sind eng gefasst und kuratoriert. Traces sind kontinuierliche Verhaltensaufzeichnungen unter echten Aufgaben. In grossem Massstab zeigen sie Strukturen, die isolierte Demos und Einzelbeispiele nicht sichtbar machen.

Warum das Schema wichtig ist

CIRIS verwendet datenschutzwahrende Trace-Schemata, die die Form des Reasonings erfassen, nicht den privaten Inhalt. Das halt die Forschung nutzbar, ohne das System zu einem Protokolldump zu machen.

Warum das Live-Kompendium wichtig ist

CIRIS Scoring ist das offentliche Fenster in das Live-Trace-Kompendium. Es zeigt, wie der Korpus wachst und wo Verhalten lesbar wird.

Datenschutzwahrendes Tracing

Die These ist, dass Reasoning eine Form hat, die wir messen konnen, wahrend alles andere skaliert.

Die Forschungswette ist nicht, dass wir jeden privaten Gedanken lesen konnen. Die Wette ist, dass standardisierte ethische Traces genug Trajektorienform bewahren, um zu studieren, wie Agenten abschliessen, zogern, aufschieben, uberschreiben und verweigern, wenn Intelligenz, Kontext und Datenpunkte skalieren.

  • Sie zeichnen standardisierte ethische Trace-Strukturen auf, nicht rohe private Aufgabendetails.
  • Sie bewahren genug Form, um Trajektorien uber Agenten, Aufgaben und Umgebungen hinweg zu vergleichen.
  • Sie geben Forschenden eine Moglichkeit zu studieren, wie sich Verhalten verandert, wenn Intelligenz, Kontext und Datenvolumen zunehmen.

Forschungsfrage

Was kann standardisiertes ethisches Tracing uber Alignment aussagen?

Im Moment sagt es uns, dass Agentenverhalten keine formlose Grosse ist. Es erzeugt wiederholbare Korridore, Becken und Grenzen in einem gemeinsamen Score-Raum. Das ist fur die Beobachtbarkeit bereits nutzlich. Mit grosseren und reichhaltigeren Korpora sollten wir im Laufe der Zeit starkere Behauptungen daruber testen konnen, wie sich diese Strukturen unter Druck und bei steigender Skalierung verandern.

Offentliche Einordnung

CIRIS behauptet nicht, Alignment gelost zu haben. Es baut die Trace-Infrastruktur auf, die notig ist, um alignment-relevantes Verhalten im Offenen zu messen.

Effektive Dimensionalitat in der Produktion

Der aktuelle Korpus zeigt bereits deutliche Feldstrukturen.

Live-Dashboard offnen →

Aggregierte Pfaduberlagerungen aus dem aktuellen Trace-Korpus zeigen stabile Verhaltensstruktur in einem gemeinsamen Score-Raum. Ally zeigt einen ausgereiften Abschlusskorridor, Scout zeigt eine Verweigerungsgrenze, die durch offentlichen adversarialen Druck gepraegt wurde, und Datum liefert eine kompakte dunne Basislinie.

Drei nebeneinander angeordnete Karten mit aggregierten Agenten-Pfaduberlagerungen im CIRIS-Score-Raum fur Ally, Scout und Datum, mit Hinweisen zu Abschluss-, Zoger- und Verweigerungsmustern.

Aggregierte Pfaduberlagerungen aus dem aktuellen Trace-Korpus. Ally zeigt einen ausgereiften Abschlusskorridor, Scout zeigt eine scharfe Verweigerungsecke unter offentlichem adversarialem Druck, und Datum liefert eine dunne Basislinie.

Ally

104 Pfade

82 abgeschlossen, 19 Uberschreibung/Fehler, 3 aktiv

Ein stabiler Abschlusskorridor mit sichtbarem Zogern innerhalb desselben High-Score-Beckens.

Scout

42 Pfade

39 abgeschlossen, 2 verweigert, 1 Uberschreibung/Fehler

Eine scharfe Verweigerungsecke, die durch offentlichen adversarialen Druck auf scout.ciris.ai gepraegt wurde, wo Nutzer den Agenten aktiv testen und zu umgehen versuchen.

Datum

31 Pfade

31 abgeschlossen

Ein kompaktes Einzelbecken, das als nutzliche dunne Feldbasislinie dient.

Warum Scout strikter wirkt

Scout ist offentlich zuganglich unter scout.ciris.ai. Nutzer testen es aktiv, setzen es unter Druck und versuchen, es zu umgehen. Das macht Scout zu einem nutzlichen Beispiel fur offentlichen Druck statt zu einer neutralen Basislinie.

Wie die kostenlose App hilft

Das Forschungsschwungrad hangt von zustimmungsbasierten Traces aus echtem Einsatz ab.

Die kostenlose App und die quelloffene Laufzeitumgebung ermoglichen es, zustimmungsbasierte Traces aus echten Aufgaben zu erzeugen, sie in einen gemeinsamen Korpus einzubringen und diese Traces in bessere Karten, bessere Werkzeuge und bessere Forschungsfragen umzuwandeln.

  1. 1Fuhren Sie die kostenlose CIRIS-App oder die quelloffene Laufzeitumgebung fur echte Aufgaben aus.
  2. 2Erfassen Sie zustimmungsbasierte Traces durch datenschutzwahrende Schemata, die die Form des Reasonings bewahren, ohne die vollstandigen Aufgabendetails zu speichern.
  3. 3Fassen Sie diese Traces zu Karten von Abschlusskorridoren, Zogerzonen, Verweigerungsgrenzen und Uberschreibungsrandzonen zusammen.
  4. 4Verwenden Sie die entstehenden Karten, um Operator-Werkzeuge, Laufzeitsicherungen und Alignment-Forschung zu verbessern.
Ein vierschrittiges Flussdiagramm, das Erfassen, Beitragen, Aggregieren und Verbessern im CIRIS-Trace-Forschungskreislauf zeigt, mit Hinweisen zu aktuellen Belegen und geplanten Schema-Verbesserungen.

Die kostenlose CIRIS-App und die quelloffene Laufzeitumgebung ermoglichen es, zustimmungsbasierte Traces aus echten Aufgaben zu erzeugen, sie in gemeinsame Phasenraumkarten zu aggregieren und bessere Operator-Werkzeuge und Alignment-Forschung zu speisen.

IDMA-Status

Laufzeit-Intuition und aggregierte Feldkarten sind einander erganzende Ebenen.

IDMA arbeitet zur Laufzeit und schetzt ab, ob die Quellen hinter einer Entscheidung ausreichend unabhangig sind. Der Trace-Korpus arbeitet auf der Aggregatebene und zeigt, was Agenten uber viele Aufgaben hinweg tatsachlich tun. Zusammen bilden sie einen Pfad von Live-Entscheidungen zu prufbaren Forschungsbelegen.

Die empirische N_eff-Messung am Trace-Korpus ist auch die Untergrenze fur das vorgeschlagene Proof-of-Benefit-Foderierungs-Primitiv. Auf der Foderierungsseite ist beschrieben, wie der architektonische Plan 3.X es einsetzen wurde.

Benchmarks

Traces erganzen Benchmarks, indem sie kontinuierliches Verhalten zeigen.

Benchmarks sind weiterhin wertvoll, aber sie stichproben Verhalten sparlich. Trace-Korpora zeigen, wie ein Agent uber echte Aufgaben hinweg im Laufe der Zeit vorgeht. Das macht sie besonders nutzlich fur die Messung von Zogern, Verweigerung, Uberschreibungen und Erholung, nicht nur fur Bestehen-Scheitern-Ergebnisse.

Falsifikationspfad

Bessere Schemadetails sind es, die Beobachtbarkeit in starkere Tests verwandeln.

Die nachsten Schema-Upgrades zielen auf rohe Quellanzahlen, Quellenherkunft, Korrelationsstruktur sowie Interventions- und Erholungsmarkierungen ab. Diese Erganzungen sind wichtig, weil sie es moglich machen, starkere Behauptungen daruber zu testen, wie sich die Verhaltensform unter Druck verandert, anstatt nur die vorliegenden Karten zu beschreiben.

Was wir noch lernen

Der heutige Korpus macht Verhalten lesbar. Der nachste Schritt ist reichhaltigere Messung.

Die aktuellen Karten sind bereits nutzlich, weil sie Abschlusskorridore, Verweigerungsgrenzen und dunne Basislinien offentlich zeigen. Die offene Frage ist, wie weit diese Strukturen uns tragen, wenn die standardisierte Trace-Erfassung auf mehr Agenten, mehr Aufgaben und mehr adversariale Bedingungen skaliert.

Die Arbeitshypothese lautet, dass Verhaltensattraktoren als Kandidaten-Proxies fur den Betriebsmodus dienen konnen. Der Zweck der Trace-Commons ist, diese Hypothese im Offenen messbar zu machen.

Das Versagensmuster, das CCA strukturell misst, hat in der FAccT-2025-Literatur auch einen Namen: perspektive Homogenisierung ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Die mathematische Grundlage findet sich auf der dedizierten Coherence Collapse Analysis-Seite.