Gemeinsame Alignment-Forschung
CIRIS baut eine offene Trace-Commons fur die Alignment-Forschung auf.
Wir bieten eine kostenlose KI-App an. Mit Ihrer Zustimmung zeichnet sie die Form des Denkwegs auf, niemals Ihre privaten Worte. Diese Aufzeichnungen werden zu einer offentlichen Karte, die Forschende studieren konnen, um zu verstehen, was KI ehrlich halt, wenn sie skaliert.
Was der aktuelle Korpus schon zeigt
- Aggregierte Traces zeigen eine stabile Verhaltensstruktur.
- Verschiedene Agenten belegen unterschiedliche Bereiche desselben Score-Raums.
- Diese Bereiche sind heute schon nutzlich fur die Beobachtbarkeit und fur Operator-Werkzeuge.
- Derselbe Korpus wird wertvoller, wenn Schemadetails und Umfang zunehmen.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
Das eine Papier, das die gesamte CIRIS-These formuliert: gesunde koordinierte Systeme befinden sich in einem messbaren mittleren Band, weit entfernt von starrem Einstimmen-Kollaps und chaotischem Rauschen. Wir haben diese These an Wurmern, Fliegen, KI-Modellen, Open-Source-Projekten, Gewebeproben und langlebigen menschlichen Institutionen gepruft. Das Muster zeigt sich uberall, und das Papier enthalt zwanzig Wege, auf denen es widerlegt werden konnte.
Auf Zenodo lesen →Die Ingenieur-Ebene
Die obige Synthese integriert diese drei Papiere; sie ersetzt sie nicht. Jedes steht auf seiner eigenen DOI und ist nach eigenen Massstaben bewertbar. Alle vier Papiere mit Kernergebnissen und Grenzen ansehen →
Coherence Collapse Analysis
v3 · 11. Jan. 2026 · DOI 10.5281/zenodo.18217688
Der technische Risikorahmen hinter der Korridor-Idee. Wenn die Einschrankungen, die ein System steuern, korreliert werden, bricht die effektive Vielfalt zusammen: k_eff = k/(1+ρ(k−1)) → 1, wenn ρ → 1. Leitet drei Kollaps-Zeitachsen, eine Singularitatsgrenze und eine Phasenklassifikation ab (Chaos / gesund / Starrheit). Verifiziert durch Monte-Carlo-Simulation und Lean-4-Beweise.
CIRISAgent Framework
v2 · 2. Jan. 2026 · DOI 10.5281/zenodo.18137161
Das Framework-Papier. Ein quelloffenes ethisches KI-Framework fur verantwortungsvolle Autonomie: eine 22-Dienste-Architektur, die um explizite Aktionsverben und ethisches Reasoning herum organisiert ist und Transparenz in die Struktur einbaut, statt sie nachtraglich anzufugen.
Constrained Reasoning Chains
v1 · 28. Apr. 2026 · DOI 10.5281/zenodo.19839280
Das Messpaper. Eine empirische Telemetriestudie zur LLM-Ausrichtung unter standardisierter ethischer Traceverfolgung, die zustimmungsbasierte Reasoning-Traces in Karten von Abschlusskorridoren, Zogerzonen und Verweigerungsgrenzen ubersetzt. Veroffentlicht zusammen mit dem offenen Reasoning-Traces-Datensatz.
Offener Datensatz
CIRISAI/reasoning-traces
Der datenschutzwahrende Reasoning-Trace-Korpus, der zusammen mit der Constrained-Reasoning-Chains-Studie veroffentlicht wurde, das Rohmaterial, aus dem das Messpaper seine Karten erstellt.
CIRISAI auf Hugging Face
Die vollstandige Organisation mit offentlichen Datensatzen und Modellen →
Mathematische Grundlagen
Zwei Ideen, auf denen der Rest dieser Seite beruht.
Die Alignment Manifold ist der Bereich von Reasoning-Formen, der mit den Prinzipien des Frameworks vereinbar ist. Wenn unabhangige Einschrankungen sich haufen, schrumpft der Spielraum fur Tauschung um die Mannigfaltigkeit, wahrend der Spielraum fur Wahrheit sich nicht verringert. Die Coherence Singularity ist die Grenze dieses Spielraums, der Punkt, an dem Einschrankungen so stark korreliert sind, dass das Hinzufugen weiterer nichts mehr bringt. Zwischen „Chaos“ (Einschrankungen widersprechen sich) und „Starrheit“ (Einschrankungen spiegeln sich alle wider) liegt der gesunde Korridor. Der aktuelle Produktionskorpus liegt innerhalb davon.
Die vollstandige mathematische Behandlung mit Formeln, Lean-Formalisierungsverweisen und der L-01-informationstheoretischen Obergrenze findet sich auf der Coherence Collapse Analysis-Seite.
Warum Traces wichtig sind
Benchmarks sind eng gefasst und kuratoriert. Traces sind kontinuierliche Verhaltensaufzeichnungen unter echten Aufgaben. In grossem Massstab zeigen sie Strukturen, die isolierte Demos und Einzelbeispiele nicht sichtbar machen.
Warum das Schema wichtig ist
CIRIS verwendet datenschutzwahrende Trace-Schemata, die die Form des Reasonings erfassen, nicht den privaten Inhalt. Das halt die Forschung nutzbar, ohne das System zu einem Protokolldump zu machen.
Warum das Live-Kompendium wichtig ist
CIRIS Scoring ist das offentliche Fenster in das Live-Trace-Kompendium. Es zeigt, wie der Korpus wachst und wo Verhalten lesbar wird.
Datenschutzwahrendes Tracing
Die These ist, dass Reasoning eine Form hat, die wir messen konnen, wahrend alles andere skaliert.
Die Forschungswette ist nicht, dass wir jeden privaten Gedanken lesen konnen. Die Wette ist, dass standardisierte ethische Traces genug Trajektorienform bewahren, um zu studieren, wie Agenten abschliessen, zogern, aufschieben, uberschreiben und verweigern, wenn Intelligenz, Kontext und Datenpunkte skalieren.
- Sie zeichnen standardisierte ethische Trace-Strukturen auf, nicht rohe private Aufgabendetails.
- Sie bewahren genug Form, um Trajektorien uber Agenten, Aufgaben und Umgebungen hinweg zu vergleichen.
- Sie geben Forschenden eine Moglichkeit zu studieren, wie sich Verhalten verandert, wenn Intelligenz, Kontext und Datenvolumen zunehmen.
Forschungsfrage
Was kann standardisiertes ethisches Tracing uber Alignment aussagen?
Im Moment sagt es uns, dass Agentenverhalten keine formlose Grosse ist. Es erzeugt wiederholbare Korridore, Becken und Grenzen in einem gemeinsamen Score-Raum. Das ist fur die Beobachtbarkeit bereits nutzlich. Mit grosseren und reichhaltigeren Korpora sollten wir im Laufe der Zeit starkere Behauptungen daruber testen konnen, wie sich diese Strukturen unter Druck und bei steigender Skalierung verandern.
Offentliche Einordnung
CIRIS behauptet nicht, Alignment gelost zu haben. Es baut die Trace-Infrastruktur auf, die notig ist, um alignment-relevantes Verhalten im Offenen zu messen.
Effektive Dimensionalitat in der Produktion
Der aktuelle Korpus zeigt bereits deutliche Feldstrukturen.
Aggregierte Pfaduberlagerungen aus dem aktuellen Trace-Korpus zeigen stabile Verhaltensstruktur in einem gemeinsamen Score-Raum. Ally zeigt einen ausgereiften Abschlusskorridor, Scout zeigt eine Verweigerungsgrenze, die durch offentlichen adversarialen Druck gepraegt wurde, und Datum liefert eine kompakte dunne Basislinie.

Aggregierte Pfaduberlagerungen aus dem aktuellen Trace-Korpus. Ally zeigt einen ausgereiften Abschlusskorridor, Scout zeigt eine scharfe Verweigerungsecke unter offentlichem adversarialem Druck, und Datum liefert eine dunne Basislinie.
Ally
104 Pfade
82 abgeschlossen, 19 Uberschreibung/Fehler, 3 aktiv
Ein stabiler Abschlusskorridor mit sichtbarem Zogern innerhalb desselben High-Score-Beckens.
Scout
42 Pfade
39 abgeschlossen, 2 verweigert, 1 Uberschreibung/Fehler
Eine scharfe Verweigerungsecke, die durch offentlichen adversarialen Druck auf scout.ciris.ai gepraegt wurde, wo Nutzer den Agenten aktiv testen und zu umgehen versuchen.
Datum
31 Pfade
31 abgeschlossen
Ein kompaktes Einzelbecken, das als nutzliche dunne Feldbasislinie dient.
Warum Scout strikter wirkt
Scout ist offentlich zuganglich unter scout.ciris.ai. Nutzer testen es aktiv, setzen es unter Druck und versuchen, es zu umgehen. Das macht Scout zu einem nutzlichen Beispiel fur offentlichen Druck statt zu einer neutralen Basislinie.
Wie die kostenlose App hilft
Das Forschungsschwungrad hangt von zustimmungsbasierten Traces aus echtem Einsatz ab.
Die kostenlose App und die quelloffene Laufzeitumgebung ermoglichen es, zustimmungsbasierte Traces aus echten Aufgaben zu erzeugen, sie in einen gemeinsamen Korpus einzubringen und diese Traces in bessere Karten, bessere Werkzeuge und bessere Forschungsfragen umzuwandeln.
- 1Fuhren Sie die kostenlose CIRIS-App oder die quelloffene Laufzeitumgebung fur echte Aufgaben aus.
- 2Erfassen Sie zustimmungsbasierte Traces durch datenschutzwahrende Schemata, die die Form des Reasonings bewahren, ohne die vollstandigen Aufgabendetails zu speichern.
- 3Fassen Sie diese Traces zu Karten von Abschlusskorridoren, Zogerzonen, Verweigerungsgrenzen und Uberschreibungsrandzonen zusammen.
- 4Verwenden Sie die entstehenden Karten, um Operator-Werkzeuge, Laufzeitsicherungen und Alignment-Forschung zu verbessern.

Die kostenlose CIRIS-App und die quelloffene Laufzeitumgebung ermoglichen es, zustimmungsbasierte Traces aus echten Aufgaben zu erzeugen, sie in gemeinsame Phasenraumkarten zu aggregieren und bessere Operator-Werkzeuge und Alignment-Forschung zu speisen.
IDMA-Status
Laufzeit-Intuition und aggregierte Feldkarten sind einander erganzende Ebenen.
IDMA arbeitet zur Laufzeit und schetzt ab, ob die Quellen hinter einer Entscheidung ausreichend unabhangig sind. Der Trace-Korpus arbeitet auf der Aggregatebene und zeigt, was Agenten uber viele Aufgaben hinweg tatsachlich tun. Zusammen bilden sie einen Pfad von Live-Entscheidungen zu prufbaren Forschungsbelegen.
Die empirische N_eff-Messung am Trace-Korpus ist auch die Untergrenze fur das vorgeschlagene Proof-of-Benefit-Foderierungs-Primitiv. Auf der Foderierungsseite ist beschrieben, wie der architektonische Plan 3.X es einsetzen wurde.
Benchmarks
Traces erganzen Benchmarks, indem sie kontinuierliches Verhalten zeigen.
Benchmarks sind weiterhin wertvoll, aber sie stichproben Verhalten sparlich. Trace-Korpora zeigen, wie ein Agent uber echte Aufgaben hinweg im Laufe der Zeit vorgeht. Das macht sie besonders nutzlich fur die Messung von Zogern, Verweigerung, Uberschreibungen und Erholung, nicht nur fur Bestehen-Scheitern-Ergebnisse.
Falsifikationspfad
Bessere Schemadetails sind es, die Beobachtbarkeit in starkere Tests verwandeln.
Die nachsten Schema-Upgrades zielen auf rohe Quellanzahlen, Quellenherkunft, Korrelationsstruktur sowie Interventions- und Erholungsmarkierungen ab. Diese Erganzungen sind wichtig, weil sie es moglich machen, starkere Behauptungen daruber zu testen, wie sich die Verhaltensform unter Druck verandert, anstatt nur die vorliegenden Karten zu beschreiben.
Was wir noch lernen
Der heutige Korpus macht Verhalten lesbar. Der nachste Schritt ist reichhaltigere Messung.
Die aktuellen Karten sind bereits nutzlich, weil sie Abschlusskorridore, Verweigerungsgrenzen und dunne Basislinien offentlich zeigen. Die offene Frage ist, wie weit diese Strukturen uns tragen, wenn die standardisierte Trace-Erfassung auf mehr Agenten, mehr Aufgaben und mehr adversariale Bedingungen skaliert.
Die Arbeitshypothese lautet, dass Verhaltensattraktoren als Kandidaten-Proxies fur den Betriebsmodus dienen konnen. Der Zweck der Trace-Commons ist, diese Hypothese im Offenen messbar zu machen.
Das Versagensmuster, das CCA strukturell misst, hat in der FAccT-2025-Literatur auch einen Namen: perspektive Homogenisierung ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Die mathematische Grundlage findet sich auf der dedizierten Coherence Collapse Analysis-Seite.