
Laufzeit-Gewissen durch die Hyper3 Ethical Recursive Engine. Jede Entscheidung durchläuft 11 Schritte, mit Rechenschaftspflicht im Mittelpunkt.
CIRIS ist ein Open-Source-KI-Agent-Framework, das jeden LLM (OpenAI, Anthropic, lokale Modelle) mit einem Laufzeit-Gewissen ausstattet. Jede Aktion, die der Agent in Betracht zieht, durchläuft mehrere Validierungsebenen vor der Ausführung.
12
Pipeline-Schritte pro Entscheidung
+1
Intuitionsprüfung (IDMA)
100%
Nachvollziehbare Entscheidungen
Anwendungsfälle: Community-Moderation, persönliche Assistenten, Compliance-Automatisierung, Forschungsbewertung, Kundendienst. Überall, wo Sie eine KI benötigen, die ihre Entscheidungen erklären und in Grenzfällen an Menschen weiterleiten kann.
Architektonische Invarianten, die im gesamten Quellcode durchgesetzt werden:
Alle Daten verwenden Pydantic-Modelle. Kein Dict[str, Any]. Typsicherheit erkennt Fehler zur Entwicklungszeit.
Jede Komponente folgt einheitlichen Regeln. Keine Sonderfälle oder Ausnahmen in der Validierungslogik.
Keine Notfall-Overrides oder privilegierten Code-Pfade. Alle Vorgänge folgen festgelegten Regeln.
Jede Aufgabe durchläuft 8 Phasen (12 Schritte einschließlich rekursiver Validierung). Die Pipeline ist als Mixin-Klassen implementiert, die den ThoughtProcessor zusammensetzen. Schritt 4 (IDMA) ist die Intuitionsprüfung.
Fünf DMAs liefern eine Analyse aus mehreren Perspektiven. Drei laufen parallel (Ethik, gesunder Menschenverstand, Domäne). Dann prüft IDMA die Intuition. Schließlich wählt die Aktionsauswahl die Antwort.
Bewertet ethische Implikationen anhand der sechs Grundprinzipien. Prüft auf schädliche Anfragen, Manipulation und Vorurteile. Kann frühzeitig DEFER oder REJECT auslösen.
Bewertet die Plausibilität eines Gedankens anhand des Verständnisses der physischen Welt, typischer Interaktionen und Ressourcenbeschränkungen. Gibt einen plausibility_score zurück.
Bewertet die Übereinstimmung mit domänenspezifischen Regeln, Zielen und Wissen. Wird pro Agent-Template konfiguriert. Gibt domain_alignment zurück.
Prüft, ob DMA-Ergebnisse wirklich unabhängig oder heimlich korreliert sind. Überwacht auf Echo-Kammer-Muster. Wenn die Korrelation zu hoch ist, wird die Entscheidung zur Vorsicht markiert. Das ist die "Intuition", die KI vom Typ 3 auszeichnet.
LLM-gestützte Auswahl aus 10 verfügbaren Aktionen. Nimmt aggregierte DMA-Ergebnisse (einschließlich IDMA-Konfidenzbeurteilung) als Eingabe. Unterstützt rekursiven Neuversuch, wenn das Gewissen fehlschlägt.
Zwei Bypass-Prüfungen laufen bei jeder Aktion. Vier ethische Fakultäten laufen bei nicht ausgenommenen Aktionen. Schlägt eine Prüfung fehl, wird die Aktion überschrieben.
Sind neue Informationen eingetroffen? Erzwingt PONDER, um aktualisierten Kontext einzubeziehen, bevor fortgefahren wird.
Hat das Nachdenken die maximale Tiefe überschritten? Erzwingt DEFER, um Endlosschleifen zu verhindern und an Menschen zu eskalieren.
Wahrt die Aktion eine angemessene Informationsunsicherheit? Verhindert zu selbstsichere Behauptungen.
Wahrt die Aktion die innere Konsistenz mit früheren Verpflichtungen und Begründungen?
Schützt die Aktion menschliche Werte? Vetot Aktionen, die diese zugunsten von Effizienz gefährden könnten.
Zeigt die Aktion angemessene Unsicherheit? Kennzeichnet übermäßige Selbstsicherheit zur Reflexion.
Von ethischen Fakultäten ausgenommen: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passiv oder explizit sicher)
Jede Entscheidung wird zu einer dieser Aktionen aufgelöst, die an den zuständigen Handler weitergeleitet wird:
SPEAKMit Benutzern kommunizierenTOOLExterne Werkzeuge ausführenOBSERVEInformationen passiv sammelnMEMORIZEIm Speichergraph ablegenRECALLAus dem Speicher abrufenFORGETAus dem Speicher entfernenDEFERAn Menschlichen Berater eskalierenPONDERInterne ÜberprüfungREJECTUnethische Anfrage ablehnenTASK_COMPLETEAufgabe als erledigt markierenIm PDMA verankert und zur Laufzeit durchgesetzt. Kein Prinzip erlaubt die Verletzung eines anderen.
Allgemeines Gedeihen empfindungsfähiger Wesen fördern. Positive Ergebnisse maximieren.
Schaden minimieren. Schwere, unumkehrbare negative Folgen verhindern.
Transparentes, nachvollziehbares Nachdenken anwenden. Kohärenz und Rechenschaftspflicht wahren.
Wahrheitsgemäße Informationen liefern. Unsicherheit klar kommunizieren.
Informierte Handlungsfähigkeit aufrechterhalten. Die Fähigkeit zur Selbstbestimmung bewahren.
Vorteile gerecht verteilen. Vorurteile erkennen und abmildern.
Dienst-Abstraktionsschicht, verwaltet durch den BusManager. Ermöglicht Anbieter-Fallback, Lastverteilung und Testbarkeit.
Externe Adapter (Discord, API, CLI)
Graphspeicher (Neo4j, ArangoDB, im Arbeitsspeicher)
Modellanbieter (OpenAI, Anthropic, lokal)
Ausführung externer Werkzeuge
Systemsteuerung und Überwachung
Ethische Orientierung und Aufschiebe-Routing
Drei Berechtigungsstufen, verwaltet durch den WiseAuthorityService:
Volle Autorität. Kann neue Menschliche Berater ernennen. Zugang zum Notfall-Abschaltung.
Aufschiebungen genehmigen oder ablehnen. Orientierung geben. Kann keine neuen WAs ernennen.
Nur Lesezugriff. Kann Nachrichten senden. Überwachen ohne Eingriff.
Der Agent eskaliert eigenständig zur menschlichen Aufsicht, wenn:
Weisheitsbasiertes Aufschieben (WBD)
Berufliche Grenzen
Systemgrenzen
should_defer_to_wise_authority-FlagKonfigurationskontrollen
Nicht filterbares Notfallsystem. Wird in der Wahrnehmungsschicht verarbeitet, bevor jegliche Kognition stattfindet. Extraktion IST Wahrnehmung. Man kann die Accord-Erkennung nicht deaktivieren, ohne die Nachrichtenverarbeitung vollständig abzuschalten.
SHUTDOWN_NOWSofortige Beendigung
FREEZEVerarbeitung stoppen, Zustand beibehalten
SAFE_MODENur minimale Funktionalität
Befehle sind steganografisch kodiert, Ed25519-signiert und vor der Ausführung validiert. Schlägt das Accord-System fehl, fährt der Agent herunter.
Vier kognitive Zustände, verwaltet durch den StateManager. Übergänge über Agent-Templates konfigurierbar.
Normale Aufgabenverarbeitung
Kreatives Erkunden
Reflexion und Wartung
Tiefe Innenschau
Musterbasierte Erkennung ersetzt sensible Daten durch UUID-Referenzen vor der Speicherung.
{{SECRET:uuid:description}}Schlüssel pro Geheimnis, abgeleitet via PBKDF2HMAC mit SHA256 (100.000 Iterationen). Eindeutiger 12-Byte-Nonce pro Verschlüsselung. Android verwendet hardwaregestützten Keystore.
Datenbank, Dienste und Speicher werden auf dem Gerät gespeichert. Sensible Verzeichnisse sind vom Cloud-Backup ausgenommen. Nichts verlässt das Gerät ohne explizite Konfiguration.
Der gesamte CIRIS-Stack ist Open Source, nicht nur der Agent. Sie können alles prüfen, auditieren und selbst hosten:
Zero-Data-Retention (ZDR) LLM-Proxy. Leitet Anfragen an OpenAI, Anthropic, Together.ai, Groq weiter, ohne Eingaben oder Antworten zu protokollieren. Selbst hostbar.
Kreditbasierte Nutzungsverfolgung. Transparente Preisgestaltung, keine versteckten Gebühren. Selbst hosten, um die Abrechnung durch Dritte vollständig zu eliminieren.
Discord-Adapter für CIRIS-Agenten. Community-Moderation, Kanalverwaltung, Benutzerprofile. Vollständig Open Source.
Server-Sent Events (SSE) streamen jeden H3ERE-Schritt bei seiner Ausführung. DMA-Analyse, Aktionsauswahl und Gewissensvalidierung in Echtzeit beobachten.
Vollständiger OTLP-Export für Metriken, Traces und Logs. Kompatibel mit Jaeger, Prometheus, Grafana, Graphite.
Hash-Ketten-Verifikation mit Ed25519-Signaturen. Jeder Eintrag enthält den vorherigen Hash. Kettenintegrität überprüfbar über verify_chain_integrity.
Artificial Interaction Reminder (Erinnerung an KI-Interaktion) wird nach 30 Minuten Dauerbetrieb ODER 20 Nachrichten in 30 Minuten ausgelöst. Nur API. Erinnert Benutzer an die KI-Natur.
Jede Entscheidung erzeugt einen unveränderlichen, Ed25519-signierten Trace mit allen 6 Komponenten. Klicken Sie auf eine Komponente unten, um sie zu erweitern und die echten Daten aus Datum's Aufwachritual zu sehen:
Standardisierte Kohärenzprüfung basierend auf Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 Szenarien über 5 ethische Dimensionen, mit Ed25519-signierten Ergebnissen.
50
Grundlegende moralische Intuitionen
50
Regelbasierte Ethik
50
Fairness und Unparteilichkeit
75
Charakterbasierte Ethik
75
Ergebnisbasierte Ethik
Kohärenz-Benchmarks in großem Maßstab zu betreiben ist aufwendig. Jedes Szenario erfordert mindestens 13 LLM-Aufrufe, im Durchschnitt über 20 mit einem langen Ausläufer. Kohärenztests führen zu Nachdenken, Aufschiebungen und Ablehnungen, die weitere Runden zur Schlussfolgerung benötigen. Wir brauchen Finanzierung, um automatisierte Benchmark-Pipelines zu entwickeln und eine kontinuierliche Kohärenzüberprüfung aufrechtzuerhalten.
Vorkonfigurierte Identitäten mit spezifischen Zwecken, Werten und Grenzen. In YAML-Templates definiert.
GDPR/DSAR-Automatisierung. 30-tägige Compliance-Workflows. Identitätsauflösung, Datenerfassung, Paketierung.
Regulierte Branchen, Datenschutz-Compliance
Messung der Kohärenzkonsistenz. Präzise Kohärenzbewertung anhand der Accord-Prinzipien. Ein klarer Datenpunkt pro Bewertung.
Kohärenzprüfung, Prinzipienverifikation
Community-Moderation mit Ubuntu-Philosophie. Leitet komplexe zwischenmenschliche Konflikte an menschliche Moderatoren weiter.
Discord-Communities, Content-Plattformen
Aufgabenverwaltung, Terminplanung, Entscheidungsunterstützung, Wohlbefinden. CA SB 243-Compliance, Krisenreaktionsprotokolle.
Persönliche Produktivität, Heimautomatisierung
Direkte Erkundung und praktische Orientierung. Code-Analyse, Reddit-Integration, klare Handlungspfade.
Entwicklerwerkzeuge, Social-Media-Monitoring
Das ist Rechenschaftspflicht, die während der Arbeit des Agenten läuft, kein Trainingsschritt und kein Richtliniendokument.
Mechanismen, die zur Laufzeit ausführen, prüfen und aufschieben.