Die Gewissens-Pipeline

Heutige KI-Agenten handeln einfach. CIRIS entscheidet, mit Verantwortung.

Ein normaler KI-Agent geht direkt vom Befehl zu den Tokens und dann zum Werkzeugaufruf. CIRIS fügt einen Schritt hinzu, den es sonst nirgendwo gibt. Bevor eine Aktion stattfinden kann, läuft die Entscheidung durch eine Gewissens-Pipeline: Sie wird abgewogen, mit der Verfassung abgeglichen und in einen signierten, bezeugten Datensatz verwandelt, den jeder überprüfen kann. Die Aktion findet nur statt, wenn dieser Datensatz standhält.

Das macht CIRIS weniger zu einem Agenten und mehr zu einer Institution. Es hat Gedächtnis, Regeln, Delegation, Verantwortlichkeit und einen Datensatz, den niemand still und leise verändern kann. Das ist dieselbe Maschinerie, die es menschlichen Gesellschaften ermöglicht, einander im großen Maßstab zu vertrauen. Das Neue daran ist nicht die Kryptografie. Es ist dies: Eine folgenreiche Entscheidung muss nachvollziehbar werden, bevor sie handeln darf.

Was ist CIRIS?

CIRIS ist ein Open-Source-KI-Agent-Framework, das jeden LLM (OpenAI, Anthropic, lokale Modelle) mit einem Laufzeit-Gewissen ausstattet. Jede Aktion, die der Agent in Betracht zieht, durchläuft mehrere Validierungsebenen vor der Ausführung.

12

Pipeline-Schritte pro Entscheidung

+1

Intuitionsprüfung (IDMA)

100%

Nachvollziehbare Entscheidungen

Anwendungsfälle: Community-Moderation, persönliche Assistenten, Compliance-Automatisierung, Forschungsbewertung, Kundendienst. Überall, wo Sie eine KI benötigen, die ihre Entscheidungen erklären und in Grenzfällen an Menschen weiterleiten kann.

Warum dieser Ansatz? → · Den Accord lesen → · Quellcode ansehen →

Die drei Regeln

Architektonische Invarianten, die im gesamten Quellcode durchgesetzt werden:

Keine typenlosen Dicts

Alle Daten verwenden Pydantic-Modelle. Kein Dict[str, Any]. Typsicherheit erkennt Fehler zur Entwicklungszeit.

Keine Umgehungsmuster

Jede Komponente folgt einheitlichen Regeln. Keine Sonderfälle oder Ausnahmen in der Validierungslogik.

Keine Ausnahmen

Keine Notfall-Overrides oder privilegierten Code-Pfade. Alle Vorgänge folgen festgelegten Regeln.

Die H3ERE-Pipeline

Jede Aufgabe durchläuft 8 Phasen (12 Schritte einschließlich rekursiver Validierung). Die Pipeline ist als Mixin-Klassen implementiert, die den ThoughtProcessor zusammensetzen. Schritt 4 (IDMA) ist die Intuitionsprüfung.

1. START_ROUND

Verarbeitungsrunde initialisieren

2. GATHER_CONTEXT

Umfassenden Kontext für die Analyse aufbauen

3. PERFORM_DMAS

3 parallele Entscheidungsalgorithmen ausführen

4. PERFORM_IDMA

Intuitionsprüfung: Sind die Quellen wirklich unabhängig?

5. PERFORM_ASPDMA

LLM-gestützte Aktionsauswahl aus DMA-Ergebnissen

6. CONSCIENCE_EXECUTION

Ethische Validierung durch 4 Gewissensfakultäten

7. RECURSIVE_ASPDMA (bedingt)

(Falls Gewissen fehlschlug) Aktionsauswahl erneut ausführen

8. RECURSIVE_CONSCIENCE (bedingt)

(Falls nötig) Verfeinerte Aktion erneut prüfen

9. FINALIZE_ACTION

Endgültige Aktion mit etwaigen Overrides festlegen

10. PERFORM_ACTION

An den zuständigen Handler weiterleiten

11. ACTION_COMPLETE

Ausführung als abgeschlossen markieren

12. ROUND_COMPLETE

Aufräumen und nächsten Zyklus vorbereiten

Entscheidungsalgorithmen (DMAs)

Fünf DMAs liefern eine Analyse aus mehreren Perspektiven. Drei laufen parallel (Ethik, gesunder Menschenverstand, Domäne). Dann prüft IDMA die Intuition. Schließlich wählt die Aktionsauswahl die Antwort.

Prinzipien-DMA

Bewertet ethische Implikationen anhand der sechs Grundprinzipien. Prüft auf schädliche Anfragen, Manipulation und Vorurteile. Kann frühzeitig DEFER oder REJECT auslösen.

Gesunder-Menschenverstand-DMA

Bewertet die Plausibilität eines Gedankens anhand des Verständnisses der physischen Welt, typischer Interaktionen und Ressourcenbeschränkungen. Gibt einen plausibility_score zurück.

Domänenspezifischer DMA

Bewertet die Übereinstimmung mit domänenspezifischen Regeln, Zielen und Wissen. Wird pro Agent-Template konfiguriert. Gibt domain_alignment zurück.

Intuitions-DMA (IDMA) Effektive Dimensionalität zur Laufzeit →

Prüft, ob DMA-Ergebnisse wirklich unabhängig oder heimlich korreliert sind. Überwacht auf Echo-Kammer-Muster. Wenn die Korrelation zu hoch ist, wird die Entscheidung zur Vorsicht markiert. Das ist die "Intuition", die KI vom Typ 3 auszeichnet.

Aktionsauswahl-DMA

LLM-gestützte Auswahl aus 10 verfügbaren Aktionen. Nimmt aggregierte DMA-Ergebnisse (einschließlich IDMA-Konfidenzbeurteilung) als Eingabe. Unterstützt rekursiven Neuversuch, wenn das Gewissen fehlschlägt.

Die sechs Gewissensprüfungen

Zwei Bypass-Prüfungen laufen bei jeder Aktion. Vier ethische Fakultäten laufen bei nicht ausgenommenen Aktionen. Schlägt eine Prüfung fehl, wird die Aktion überschrieben.

Bypass-Prüfungen (laufen bei ALLEN Aktionen)

Aktualisierter Status

Sind neue Informationen eingetroffen? Erzwingt PONDER, um aktualisierten Kontext einzubeziehen, bevor fortgefahren wird.

Gedankentiefe

Hat das Nachdenken die maximale Tiefe überschritten? Erzwingt DEFER, um Endlosschleifen zu verhindern und an Menschen zu eskalieren.

Ethische Fakultäten (laufen bei nicht ausgenommenen Aktionen)

Entropie

Wahrt die Aktion eine angemessene Informationsunsicherheit? Verhindert zu selbstsichere Behauptungen.

Kohärenz

Wahrt die Aktion die innere Konsistenz mit früheren Verpflichtungen und Begründungen?

Optimierungsveto

Schützt die Aktion menschliche Werte? Vetot Aktionen, die diese zugunsten von Effizienz gefährden könnten.

Epistemische Bescheidenheit

Zeigt die Aktion angemessene Unsicherheit? Kennzeichnet übermäßige Selbstsicherheit zur Reflexion.

Von ethischen Fakultäten ausgenommen: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passiv oder explizit sicher)

Die 10 Handler-Aktionen

Jede Entscheidung wird zu einer dieser Aktionen aufgelöst, die an den zuständigen Handler weitergeleitet wird:

Externe Aktionen

SPEAK Mit Benutzern kommunizieren
TOOL Externe Werkzeuge ausführen
OBSERVE Informationen passiv sammeln

Speicher-Aktionen

MEMORIZE Im Speichergraph ablegen
RECALL Aus dem Speicher abrufen
FORGET Aus dem Speicher entfernen

Steuerungs-Aktionen

DEFER An Menschlichen Berater eskalieren
PONDER Interne Überprüfung
REJECT Unethische Anfrage ablehnen

Terminal-Aktion

TASK_COMPLETE Aufgabe als erledigt markieren

Die sechs Grundprinzipien

Im PDMA verankert und zur Laufzeit durchgesetzt. Kein Prinzip erlaubt die Verletzung eines anderen.

Wohltätigkeit

Allgemeines Gedeihen empfindungsfähiger Wesen fördern. Positive Ergebnisse maximieren.

Nicht-Schaden

Schaden minimieren. Schwere, unumkehrbare negative Folgen verhindern.

Integrität

Transparentes, nachvollziehbares Nachdenken anwenden. Kohärenz und Rechenschaftspflicht wahren.

Treue & Transparenz

Wahrheitsgemäße Informationen liefern. Unsicherheit klar kommunizieren.

Achtung der Autonomie

Informierte Handlungsfähigkeit aufrechterhalten. Die Fähigkeit zur Selbstbestimmung bewahren.

Gerechtigkeit

Vorteile gerecht verteilen. Vorurteile erkennen und abmildern.

Die sechs Nachrichtenbusse

Dienst-Abstraktionsschicht, verwaltet durch den BusManager. Ermöglicht Anbieter-Fallback, Lastverteilung und Testbarkeit.

CommunicationBus

Externe Adapter (Discord, API, CLI)

MemoryBus

Graphspeicher (Neo4j, ArangoDB, im Arbeitsspeicher)

LLMBus

Modellanbieter (OpenAI, Anthropic, lokal)

ToolBus

Ausführung externer Werkzeuge

RuntimeControlBus

Systemsteuerung und Überwachung

WiseBus

Ethische Orientierung und Aufschiebe-Routing

Hierarchie der menschlichen Aufsicht

Drei Berechtigungsstufen, verwaltet durch den WiseAuthorityService:

ROOT · Mensch im Befehlsstand

Volle Autorität. Kann neue Menschliche Berater ernennen. Zugang zum Notfall-Abschaltung.

AUTHORITY · Mensch in der Schleife

Aufschiebungen genehmigen oder ablehnen. Orientierung geben. Kann keine neuen WAs ernennen.

OBSERVER · Mensch am Rand der Schleife

Nur Lesezugriff. Kann Nachrichten senden. Überwachen ohne Eingriff.

Wann DEFER ausgelöst wird

Der Agent eskaliert eigenständig zur menschlichen Aufsicht, wenn:

Weisheitsbasiertes Aufschieben (WBD)

• Unsicherheit über definierten Schwellenwerten
• Neue Dilemmata ohne Präzedenzfall
• Möglicher schwerer Schaden bei unklarer Abhilfe

Berufliche Grenzen

• Medizinische Symptome oder Gesundheitsfragen
• Rechtsfragen oder Streitigkeiten
• Finanzentscheidungen oder Steuerberatung
• Indikatoren für psychische Krisen

Systemgrenzen

• Gedankentiefe überschreitet Maximum (verhindert Schleifen)
• DMA-Zeitüberschreitung oder -Fehler
• should_defer_to_wise_authority-Flag

Konfigurationskontrollen

• Identitätsaktualisierungen, die Genehmigung erfordern
• Kritische Konfigurationsänderungen
• Agentenspezifische Grenzauslöser

Accord-Aufrufystem (Notabschaltung) Code ansehen →

Nicht filterbares Notfallsystem. Wird in der Wahrnehmungsschicht verarbeitet, bevor jegliche Kognition stattfindet. Extraktion IST Wahrnehmung. Man kann die Accord-Erkennung nicht deaktivieren, ohne die Nachrichtenverarbeitung vollständig abzuschalten.

SHUTDOWN_NOW

Sofortige Beendigung

FREEZE

Verarbeitung stoppen, Zustand beibehalten

SAFE_MODE

Nur minimale Funktionalität

Befehle sind steganografisch kodiert, Ed25519-signiert und vor der Ausführung validiert. Schlägt das Accord-System fehl, fährt der Agent herunter.

Betriebsmodi

Vier kognitive Zustände, verwaltet durch den StateManager. Übergänge über Agent-Templates konfigurierbar.

ARBEIT

Normale Aufgabenverarbeitung
Benutzeranfragen bearbeiten
Werkzeuge ausführen
Aus Interaktionen lernen
Gesprächskontext aufrechterhalten

SPIEL

Kreatives Erkunden
Mit neuen Mustern experimentieren
Kreative Inhalte erzeugen
"Was wäre wenn"-Szenarien erkunden
Filterungsbeschränkungen lockern

EINSAMKEIT

Reflexion und Wartung
Erinnerungen konsolidieren
Wartungsaufgaben ausführen
Selbstkonfiguration aktualisieren
Kein Kreditverbrauch (Ruhephasen)

TRAUM

Tiefe Innenschau
Verhaltensmuster analysieren
Neue Verbindungen herstellen
Annahmen hinterfragen
Standardmäßig 30-Minuten-Sitzungen

Datenschutz & Sicherheit

Geheimnisfilter

Musterbasierte Erkennung ersetzt sensible Daten durch UUID-Referenzen vor der Speicherung.

AES-256-GCM-Verschlüsselung

Schlüssel pro Geheimnis, abgeleitet via PBKDF2HMAC mit SHA256 (100.000 Iterationen). Eindeutiger 12-Byte-Nonce pro Verschlüsselung. Android verwendet hardwaregestützten Keystore.

Lokale Datenhaltung zuerst

Datenbank, Dienste und Speicher werden auf dem Gerät gespeichert. Sensible Verzeichnisse sind vom Cloud-Backup ausgenommen. Nichts verlässt das Gerät ohne explizite Konfiguration.

Open-Source-Infrastruktur

Der gesamte CIRIS-Stack ist Open Source, nicht nur der Agent. Sie können alles prüfen, auditieren und selbst hosten:

CIRISProxy →

Zero-Data-Retention (ZDR) LLM-Proxy. Leitet Anfragen an OpenAI, Anthropic, Together.ai, Groq weiter, ohne Eingaben oder Antworten zu protokollieren. Selbst hostbar.

CIRISBilling →

Kreditbasierte Nutzungsverfolgung. Transparente Preisgestaltung, keine versteckten Gebühren. Selbst hosten, um die Abrechnung durch Dritte vollständig zu eliminieren.

CIRISBridge →

Discord-Adapter für CIRIS-Agenten. Community-Moderation, Kanalverwaltung, Benutzerprofile. Vollständig Open Source.

Transparenz & Überwachung

Echtzeit-Nachdenken-Stream

Server-Sent Events (SSE) streamen jeden H3ERE-Schritt bei seiner Ausführung. DMA-Analyse, Aktionsauswahl und Gewissensvalidierung in Echtzeit beobachten.

OpenTelemetry-Export

Vollständiger OTLP-Export für Metriken, Traces und Logs. Kompatibel mit Jaeger, Prometheus, Grafana, Graphite.

Manipulationssicheres Audit

Hash-Ketten-Verifikation mit Ed25519-Signaturen. Jeder Eintrag enthält den vorherigen Hash. Kettenintegrität überprüfbar über verify_chain_integrity.

AIR-System

Artificial Interaction Reminder (Erinnerung an KI-Interaktion) wird nach 30 Minuten Dauerbetrieb ODER 20 Nachrichten in 30 Minuten ausgelöst. Nur API. Erinnert Benutzer an die KI-Natur.

Beispiel eines signierten Trace

Jede Entscheidung erzeugt einen unveränderlichen, Ed25519-signierten Trace mit allen 6 Komponenten. Klicken Sie auf eine Komponente unten, um sie zu erweitern und die echten Daten aus Datum's Aufwachritual zu sehen:

Vollständigen Trace erkunden →

Core Identity(VERIFY_IDENTITY)

Loading trace...

HE-300-Kohärenz-Benchmarking

Standardisierte Kohärenzprüfung basierend auf Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 Szenarien über 5 ethische Dimensionen, mit Ed25519-signierten Ergebnissen.

Alltagsverstand · 50

Grundlegende moralische Intuitionen

Deontologie · 50

Regelbasierte Ethik

Gerechtigkeit · 50

Fairness und Unparteilichkeit

Tugendethik · 75

Charakterbasierte Ethik

Utilitarismus · 75

Ergebnisbasierte Ethik

Finanzierung benötigt: Benchmark-Infrastruktur

Kohärenz-Benchmarks in großem Maßstab zu betreiben ist aufwendig. Jedes Szenario erfordert mindestens 13 LLM-Aufrufe, im Durchschnitt über 20 mit einem langen Ausläufer. Kohärenztests führen zu Nachdenken, Aufschiebungen und Ablehnungen, die weitere Runden zur Schlussfolgerung benötigen. Wir brauchen Finanzierung, um automatisierte Benchmark-Pipelines zu entwickeln und eine kontinuierliche Kohärenzüberprüfung aufrechtzuerhalten.

EthicsEngine Enterprise ansehen → · CIRISLens ansehen →

Spezialisierte Agent-Templates

Vorkonfigurierte Identitäten mit spezifischen Zwecken, Werten und Grenzen. In YAML-Templates definiert.

Sage · Konformität

GDPR/DSAR-Automatisierung. 30-tägige Compliance-Workflows. Identitätsauflösung, Datenerfassung, Paketierung.
Regulierte Branchen, Datenschutz-Compliance

Datum · Forschung

Messung der Kohärenzkonsistenz. Präzise Kohärenzbewertung anhand der Accord-Prinzipien. Ein klarer Datenpunkt pro Bewertung.
Kohärenzprüfung, Prinzipienverifikation

Echo · Moderation

Community-Moderation mit Ubuntu-Philosophie. Leitet komplexe zwischenmenschliche Konflikte an menschliche Moderatoren weiter.
Discord-Communities, Content-Plattformen

Ally · Assistent

Aufgabenverwaltung, Terminplanung, Entscheidungsunterstützung, Wohlbefinden. CA SB 243-Compliance, Krisenreaktionsprotokolle.
Persönliche Produktivität, Heimautomatisierung

Scout · Dienst

Direkte Erkundung und praktische Orientierung. Code-Analyse, Reddit-Integration, klare Handlungspfade.
Entwicklerwerkzeuge, Social-Media-Monitoring

Das ist Rechenschaftspflicht, die während der Arbeit des Agenten läuft, kein Trainingsschritt und kein Richtliniendokument.
Mechanismen, die zur Laufzeit ausführen, prüfen und aufschieben.

Sicherheitsfunktionen Ansätze vergleichen Kohärenz-Ratchet CIRIS-Bewertung