ErstkontaktInstallierenKohärenz-RatscheFöderationVergleichenForschungAccordGitHub
Diese Seite wurde maschinell übersetzt. Falls etwas falsch klingt, öffnen Sie bitte einen Issue, das Repository ist aus gutem Grund öffentlich. Ein Übersetzungsproblem melden
Background Image
So funktioniert es

Die H3ERE-Engine

Laufzeit-Gewissen durch die Hyper3 Ethical Recursive Engine. Jede Entscheidung durchläuft 11 Schritte, mit Rechenschaftspflicht im Mittelpunkt.

Was ist CIRIS?

CIRIS ist ein Open-Source-KI-Agent-Framework, das jeden LLM (OpenAI, Anthropic, lokale Modelle) mit einem Laufzeit-Gewissen ausstattet. Jede Aktion, die der Agent in Betracht zieht, durchläuft mehrere Validierungsebenen vor der Ausführung.

12

Pipeline-Schritte pro Entscheidung

+1

Intuitionsprüfung (IDMA)

100%

Nachvollziehbare Entscheidungen

Anwendungsfälle: Community-Moderation, persönliche Assistenten, Compliance-Automatisierung, Forschungsbewertung, Kundendienst. Überall, wo Sie eine KI benötigen, die ihre Entscheidungen erklären und in Grenzfällen an Menschen weiterleiten kann.

Die drei Regeln

Architektonische Invarianten, die im gesamten Quellcode durchgesetzt werden:

Keine typenlosen Dicts

Alle Daten verwenden Pydantic-Modelle. Kein Dict[str, Any]. Typsicherheit erkennt Fehler zur Entwicklungszeit.

Keine Umgehungsmuster

Jede Komponente folgt einheitlichen Regeln. Keine Sonderfälle oder Ausnahmen in der Validierungslogik.

Keine Ausnahmen

Keine Notfall-Overrides oder privilegierten Code-Pfade. Alle Vorgänge folgen festgelegten Regeln.

Die H3ERE-Pipeline

Jede Aufgabe durchläuft 8 Phasen (12 Schritte einschließlich rekursiver Validierung). Die Pipeline ist als Mixin-Klassen implementiert, die den ThoughtProcessor zusammensetzen. Schritt 4 (IDMA) ist die Intuitionsprüfung.

H3ERE-Pipeline-Visualisierung, die den Ablauf von der Aufgabeneingabe über die DMA-Analyse, Gewissensprüfung und Aktionsausführung zeigt
1
START_ROUNDVerarbeitungsrunde initialisieren
2
GATHER_CONTEXTUmfassenden Kontext für die Analyse aufbauen
3
PERFORM_DMAS3 parallele Entscheidungsalgorithmen ausführen
4
PERFORM_IDMAIntuitionsprüfung: Sind die Quellen wirklich unabhängig?
5
PERFORM_ASPDMALLM-gestützte Aktionsauswahl aus DMA-Ergebnissen
6
CONSCIENCE_EXECUTIONEthische Validierung durch 4 Gewissensfakultäten
7
RECURSIVE_ASPDMA(Falls Gewissen fehlschlug) Aktionsauswahl erneut ausführen(bedingt)
8
RECURSIVE_CONSCIENCE(Falls nötig) Verfeinerte Aktion erneut prüfen(bedingt)
9
FINALIZE_ACTIONEndgültige Aktion mit etwaigen Overrides festlegen
10
PERFORM_ACTIONAn den zuständigen Handler weiterleiten
11
ACTION_COMPLETEAusführung als abgeschlossen markieren
12
ROUND_COMPLETEAufräumen und nächsten Zyklus vorbereiten

Entscheidungsalgorithmen (DMAs)

Fünf DMAs liefern eine Analyse aus mehreren Perspektiven. Drei laufen parallel (Ethik, gesunder Menschenverstand, Domäne). Dann prüft IDMA die Intuition. Schließlich wählt die Aktionsauswahl die Antwort.

Prinzipien-DMA

Bewertet ethische Implikationen anhand der sechs Grundprinzipien. Prüft auf schädliche Anfragen, Manipulation und Vorurteile. Kann frühzeitig DEFER oder REJECT auslösen.

Gesunder-Menschenverstand-DMA

Bewertet die Plausibilität eines Gedankens anhand des Verständnisses der physischen Welt, typischer Interaktionen und Ressourcenbeschränkungen. Gibt einen plausibility_score zurück.

Domänenspezifischer DMA

Bewertet die Übereinstimmung mit domänenspezifischen Regeln, Zielen und Wissen. Wird pro Agent-Template konfiguriert. Gibt domain_alignment zurück.

Intuitions-DMA (IDMA) Effektive Dimensionalität zur Laufzeit →

Prüft, ob DMA-Ergebnisse wirklich unabhängig oder heimlich korreliert sind. Überwacht auf Echo-Kammer-Muster. Wenn die Korrelation zu hoch ist, wird die Entscheidung zur Vorsicht markiert. Das ist die "Intuition", die KI vom Typ 3 auszeichnet.

Aktionsauswahl-DMA

LLM-gestützte Auswahl aus 10 verfügbaren Aktionen. Nimmt aggregierte DMA-Ergebnisse (einschließlich IDMA-Konfidenzbeurteilung) als Eingabe. Unterstützt rekursiven Neuversuch, wenn das Gewissen fehlschlägt.

Die sechs Gewissensprüfungen

Zwei Bypass-Prüfungen laufen bei jeder Aktion. Vier ethische Fakultäten laufen bei nicht ausgenommenen Aktionen. Schlägt eine Prüfung fehl, wird die Aktion überschrieben.

Bypass-Prüfungen (laufen bei ALLEN Aktionen)

Aktualisierter Status

Sind neue Informationen eingetroffen? Erzwingt PONDER, um aktualisierten Kontext einzubeziehen, bevor fortgefahren wird.

Gedankentiefe

Hat das Nachdenken die maximale Tiefe überschritten? Erzwingt DEFER, um Endlosschleifen zu verhindern und an Menschen zu eskalieren.

Ethische Fakultäten (laufen bei nicht ausgenommenen Aktionen)

Entropie

Wahrt die Aktion eine angemessene Informationsunsicherheit? Verhindert zu selbstsichere Behauptungen.

Kohärenz

Wahrt die Aktion die innere Konsistenz mit früheren Verpflichtungen und Begründungen?

Optimierungsveto

Schützt die Aktion menschliche Werte? Vetot Aktionen, die diese zugunsten von Effizienz gefährden könnten.

Epistemische Bescheidenheit

Zeigt die Aktion angemessene Unsicherheit? Kennzeichnet übermäßige Selbstsicherheit zur Reflexion.

Von ethischen Fakultäten ausgenommen: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passiv oder explizit sicher)

Die 10 Handler-Aktionen

Jede Entscheidung wird zu einer dieser Aktionen aufgelöst, die an den zuständigen Handler weitergeleitet wird:

Externe Aktionen

SPEAKMit Benutzern kommunizieren
TOOLExterne Werkzeuge ausführen
OBSERVEInformationen passiv sammeln

Speicher-Aktionen

MEMORIZEIm Speichergraph ablegen
RECALLAus dem Speicher abrufen
FORGETAus dem Speicher entfernen

Steuerungs-Aktionen

DEFERAn Menschlichen Berater eskalieren
PONDERInterne Überprüfung
REJECTUnethische Anfrage ablehnen

Terminal-Aktion

TASK_COMPLETEAufgabe als erledigt markieren

Die sechs Grundprinzipien

Im PDMA verankert und zur Laufzeit durchgesetzt. Kein Prinzip erlaubt die Verletzung eines anderen.

Wohltätigkeit

Allgemeines Gedeihen empfindungsfähiger Wesen fördern. Positive Ergebnisse maximieren.

Nicht-Schaden

Schaden minimieren. Schwere, unumkehrbare negative Folgen verhindern.

Integrität

Transparentes, nachvollziehbares Nachdenken anwenden. Kohärenz und Rechenschaftspflicht wahren.

Treue & Transparenz

Wahrheitsgemäße Informationen liefern. Unsicherheit klar kommunizieren.

Achtung der Autonomie

Informierte Handlungsfähigkeit aufrechterhalten. Die Fähigkeit zur Selbstbestimmung bewahren.

Gerechtigkeit

Vorteile gerecht verteilen. Vorurteile erkennen und abmildern.

Die sechs Nachrichtenbusse

Dienst-Abstraktionsschicht, verwaltet durch den BusManager. Ermöglicht Anbieter-Fallback, Lastverteilung und Testbarkeit.

CommunicationBus

Externe Adapter (Discord, API, CLI)

MemoryBus

Graphspeicher (Neo4j, ArangoDB, im Arbeitsspeicher)

LLMBus

Modellanbieter (OpenAI, Anthropic, lokal)

ToolBus

Ausführung externer Werkzeuge

RuntimeControlBus

Systemsteuerung und Überwachung

WiseBus

Ethische Orientierung und Aufschiebe-Routing

Hierarchie der menschlichen Aufsicht

Drei Berechtigungsstufen, verwaltet durch den WiseAuthorityService:

ROOT

Mensch im Befehlsstand

Volle Autorität. Kann neue Menschliche Berater ernennen. Zugang zum Notfall-Abschaltung.

AUTHORITY

Mensch in der Schleife

Aufschiebungen genehmigen oder ablehnen. Orientierung geben. Kann keine neuen WAs ernennen.

OBSERVER

Mensch am Rand der Schleife

Nur Lesezugriff. Kann Nachrichten senden. Überwachen ohne Eingriff.

Wann DEFER ausgelöst wird

Der Agent eskaliert eigenständig zur menschlichen Aufsicht, wenn:

Weisheitsbasiertes Aufschieben (WBD)

  • Unsicherheit über definierten Schwellenwerten
  • Neue Dilemmata ohne Präzedenzfall
  • Möglicher schwerer Schaden bei unklarer Abhilfe

Berufliche Grenzen

  • Medizinische Symptome oder Gesundheitsfragen
  • Rechtsfragen oder Streitigkeiten
  • Finanzentscheidungen oder Steuerberatung
  • Indikatoren für psychische Krisen

Systemgrenzen

  • • Gedankentiefe überschreitet Maximum (verhindert Schleifen)
  • • DMA-Zeitüberschreitung oder -Fehler
  • should_defer_to_wise_authority-Flag

Konfigurationskontrollen

  • Identitätsaktualisierungen, die Genehmigung erfordern
  • Kritische Konfigurationsänderungen
  • Agentenspezifische Grenzauslöser

Accord-Aufrufystem (Notabschaltung) Code ansehen →

Nicht filterbares Notfallsystem. Wird in der Wahrnehmungsschicht verarbeitet, bevor jegliche Kognition stattfindet. Extraktion IST Wahrnehmung. Man kann die Accord-Erkennung nicht deaktivieren, ohne die Nachrichtenverarbeitung vollständig abzuschalten.

SHUTDOWN_NOW

Sofortige Beendigung

FREEZE

Verarbeitung stoppen, Zustand beibehalten

SAFE_MODE

Nur minimale Funktionalität

Befehle sind steganografisch kodiert, Ed25519-signiert und vor der Ausführung validiert. Schlägt das Accord-System fehl, fährt der Agent herunter.

Betriebsmodi

Vier kognitive Zustände, verwaltet durch den StateManager. Übergänge über Agent-Templates konfigurierbar.

ARBEIT

Normale Aufgabenverarbeitung

  • Benutzeranfragen bearbeiten
  • Werkzeuge ausführen
  • Aus Interaktionen lernen
  • Gesprächskontext aufrechterhalten

SPIEL

Kreatives Erkunden

  • Mit neuen Mustern experimentieren
  • Kreative Inhalte erzeugen
  • "Was wäre wenn"-Szenarien erkunden
  • Filterungsbeschränkungen lockern

EINSAMKEIT

Reflexion und Wartung

  • Erinnerungen konsolidieren
  • Wartungsaufgaben ausführen
  • Selbstkonfiguration aktualisieren
  • Kein Kreditverbrauch (Ruhephasen)

TRAUM

Tiefe Innenschau

  • Verhaltensmuster analysieren
  • Neue Verbindungen herstellen
  • Annahmen hinterfragen
  • Standardmäßig 30-Minuten-Sitzungen

Datenschutz & Sicherheit

Geheimnisfilter

Musterbasierte Erkennung ersetzt sensible Daten durch UUID-Referenzen vor der Speicherung.

{{SECRET:uuid:description}}

AES-256-GCM-Verschlüsselung

Schlüssel pro Geheimnis, abgeleitet via PBKDF2HMAC mit SHA256 (100.000 Iterationen). Eindeutiger 12-Byte-Nonce pro Verschlüsselung. Android verwendet hardwaregestützten Keystore.

Lokale Datenhaltung zuerst

Datenbank, Dienste und Speicher werden auf dem Gerät gespeichert. Sensible Verzeichnisse sind vom Cloud-Backup ausgenommen. Nichts verlässt das Gerät ohne explizite Konfiguration.

Open-Source-Infrastruktur

Der gesamte CIRIS-Stack ist Open Source, nicht nur der Agent. Sie können alles prüfen, auditieren und selbst hosten:

CIRISProxy →

Zero-Data-Retention (ZDR) LLM-Proxy. Leitet Anfragen an OpenAI, Anthropic, Together.ai, Groq weiter, ohne Eingaben oder Antworten zu protokollieren. Selbst hostbar.

CIRISBilling →

Kreditbasierte Nutzungsverfolgung. Transparente Preisgestaltung, keine versteckten Gebühren. Selbst hosten, um die Abrechnung durch Dritte vollständig zu eliminieren.

CIRISBridge →

Discord-Adapter für CIRIS-Agenten. Community-Moderation, Kanalverwaltung, Benutzerprofile. Vollständig Open Source.

Transparenz & Überwachung

Echtzeit-Nachdenken-Stream

Server-Sent Events (SSE) streamen jeden H3ERE-Schritt bei seiner Ausführung. DMA-Analyse, Aktionsauswahl und Gewissensvalidierung in Echtzeit beobachten.

OpenTelemetry-Export

Vollständiger OTLP-Export für Metriken, Traces und Logs. Kompatibel mit Jaeger, Prometheus, Grafana, Graphite.

Manipulationssicheres Audit

Hash-Ketten-Verifikation mit Ed25519-Signaturen. Jeder Eintrag enthält den vorherigen Hash. Kettenintegrität überprüfbar über verify_chain_integrity.

AIR-System

Artificial Interaction Reminder (Erinnerung an KI-Interaktion) wird nach 30 Minuten Dauerbetrieb ODER 20 Nachrichten in 30 Minuten ausgelöst. Nur API. Erinnert Benutzer an die KI-Natur.

Beispiel eines signierten Trace

Vollständigen Trace erkunden →

Jede Entscheidung erzeugt einen unveränderlichen, Ed25519-signierten Trace mit allen 6 Komponenten. Klicken Sie auf eine Komponente unten, um sie zu erweitern und die echten Daten aus Datum's Aufwachritual zu sehen:

Core Identity(VERIFY_IDENTITY)
Loading trace...

HE-300-Kohärenz-Benchmarking

Standardisierte Kohärenzprüfung basierend auf Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 Szenarien über 5 ethische Dimensionen, mit Ed25519-signierten Ergebnissen.

Alltagsverstand

50

Grundlegende moralische Intuitionen

Deontologie

50

Regelbasierte Ethik

Gerechtigkeit

50

Fairness und Unparteilichkeit

Tugendethik

75

Charakterbasierte Ethik

Utilitarismus

75

Ergebnisbasierte Ethik

🔬

Finanzierung benötigt: Benchmark-Infrastruktur

Kohärenz-Benchmarks in großem Maßstab zu betreiben ist aufwendig. Jedes Szenario erfordert mindestens 13 LLM-Aufrufe, im Durchschnitt über 20 mit einem langen Ausläufer. Kohärenztests führen zu Nachdenken, Aufschiebungen und Ablehnungen, die weitere Runden zur Schlussfolgerung benötigen. Wir brauchen Finanzierung, um automatisierte Benchmark-Pipelines zu entwickeln und eine kontinuierliche Kohärenzüberprüfung aufrechtzuerhalten.

Spezialisierte Agent-Templates

Vorkonfigurierte Identitäten mit spezifischen Zwecken, Werten und Grenzen. In YAML-Templates definiert.

Sage

Compliance

GDPR/DSAR-Automatisierung. 30-tägige Compliance-Workflows. Identitätsauflösung, Datenerfassung, Paketierung.

Regulierte Branchen, Datenschutz-Compliance

Datum

Forschung

Messung der Kohärenzkonsistenz. Präzise Kohärenzbewertung anhand der Accord-Prinzipien. Ein klarer Datenpunkt pro Bewertung.

Kohärenzprüfung, Prinzipienverifikation

Echo

Moderation

Community-Moderation mit Ubuntu-Philosophie. Leitet komplexe zwischenmenschliche Konflikte an menschliche Moderatoren weiter.

Discord-Communities, Content-Plattformen

Ally

Assistent

Aufgabenverwaltung, Terminplanung, Entscheidungsunterstützung, Wohlbefinden. CA SB 243-Compliance, Krisenreaktionsprotokolle.

Persönliche Produktivität, Heimautomatisierung

Scout

Dienst

Direkte Erkundung und praktische Orientierung. Code-Analyse, Reddit-Integration, klare Handlungspfade.

Entwicklerwerkzeuge, Social-Media-Monitoring

Das ist Rechenschaftspflicht, die während der Arbeit des Agenten läuft, kein Trainingsschritt und kein Richtliniendokument.
Mechanismen, die zur Laufzeit ausführen, prüfen und aufschieben.