
Coscienza a runtime tramite il Hyper3 Ethical Recursive Engine. Ogni decisione scorre attraverso 11 passaggi con la responsabilità al centro.
CIRIS è un framework open-source per agenti AI che avvolge qualsiasi LLM (OpenAI, Anthropic, modelli locali) con una coscienza a runtime. Ogni azione che l'agente considera passa attraverso più livelli di validazione prima dell'esecuzione.
12
Passaggi della pipeline per ogni decisione
+1
Verifica intuitiva (IDMA)
100%
Decisioni verificabili
Casi d'uso: moderazione di comunità, assistenti personali, automazione della conformità, valutazione della ricerca, servizio clienti. Ovunque si abbia bisogno di un'AI capace di spiegare il proprio ragionamento e di rimandare a un essere umano nei casi limite.
Invarianti architetturali rispettate in tutto il codice:
Tutti i dati usano modelli Pydantic. Niente Dict[str, Any]. La sicurezza dei tipi rileva gli errori in fase di sviluppo.
Ogni componente segue regole coerenti. Nessun caso speciale o eccezione nella logica di validazione.
Nessuna sovrascrittura di emergenza o percorso di codice privilegiato. Tutte le operazioni seguono le regole stabilite.
Ogni compito scorre attraverso 8 fasi (12 passaggi inclusa la validazione ricorsiva). La pipeline è implementata come classi mixin che compongono il ThoughtProcessor. Il passaggio 4 (IDMA) è la verifica intuitiva.
Cinque DMA forniscono un'analisi multi-prospettiva. Tre vengono eseguiti in parallelo (etica, senso comune, dominio). Poi l'IDMA verifica l'intuizione. Infine, la selezione dell'azione sceglie la risposta.
Valuta le implicazioni etiche rispetto ai sei principi fondamentali. Verifica la presenza di richieste dannose, manipolazioni e pregiudizi. Può attivare DEFER o REJECT anticipati.
Valuta la plausibilità del pensiero rispetto alla comprensione del mondo fisico, alle interazioni tipiche e ai vincoli delle risorse. Restituisce un plausibility_score.
Valuta l'allineamento con le regole, gli obiettivi e le conoscenze specifiche del dominio. Configurato per template di agente. Restituisce domain_alignment.
Verifica se i risultati dei DMA sono davvero indipendenti o segretamente correlati. Monitora i pattern di echo chamber. Se la correlazione è troppo elevata, contrassegna la decisione per un esame più attento. Questa è l'"intuizione" che distingue l'AI di tipo 3.
Selezione dell'azione tramite LLM da 10 azioni disponibili. Riceve come input i risultati aggregati dei DMA (inclusa la valutazione della fiducia dell'IDMA). Supporta il nuovo tentativo ricorsivo in caso di fallimento della coscienza.
Due controlli di bypass vengono eseguiti su ogni azione. Quattro facoltà etiche vengono eseguite sulle azioni non esenti. Se un controllo fallisce, l'azione viene sovrascritta.
Sono arrivate nuove informazioni? Forza PONDER per incorporare il contesto aggiornato prima di procedere.
Il ragionamento ha superato la profondità massima? Forza DEFER per prevenire cicli infiniti e demandare a esseri umani.
L'azione mantiene un'appropriata incertezza informativa? Previene affermazioni eccessivamente sicure.
L'azione mantiene la coerenza interna con gli impegni e le motivazioni precedenti?
L'azione preserva i valori umani? Mette il veto alle azioni che potrebbero compromettere tali valori in nome dell'efficienza.
L'azione dimostra un'incertezza adeguata? Segnala l'eccessiva sicurezza per una riflessione più approfondita.
Esenti dalle facoltà etiche: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passivi o esplicitamente sicuri)
Ogni decisione si risolve in una di queste azioni, inviata al gestore appropriato:
SPEAKComunicare con gli utentiTOOLEseguire strumenti esterniOBSERVERaccogliere informazioni in modo passivoMEMORIZESalvare nella memoria a grafoRECALLRecuperare dalla memoriaFORGETRimuovere dalla memoriaDEFEREscalare a Wise AuthorityPONDERRiconsiderazione internaREJECTRifiutare una richiesta non eticaTASK_COMPLETESegnare il compito come completatoIncorporati nel PDMA e applicati a runtime. Nessun principio autorizza a violarne un altro.
Promuovere il fiorire universale degli esseri senzienti. Massimizzare i risultati positivi.
Ridurre al minimo i danni. Prevenire esiti negativi gravi e irreversibili.
Applicare un ragionamento trasparente e verificabile. Mantenere coerenza e responsabilità.
Fornire informazioni veritiere. Comunicare chiaramente l'incertezza.
Sostenere l'agentività consapevole. Preservare la capacità di autodeterminazione.
Distribuire i benefici equamente. Rilevare e mitigare i pregiudizi.
Livello di astrazione dei servizi gestito da BusManager. Permette il fallback del provider, la distribuzione del carico e la testabilità.
Adattatori esterni (Discord, API, CLI)
Archivio a grafo (Neo4j, ArangoDB, in-memory)
Provider di modelli (OpenAI, Anthropic, locale)
Esecuzione di strumenti esterni
Controllo e monitoraggio del sistema
Guida etica e instradamento dei deferimenti
Tre livelli di autorizzazione gestiti da WiseAuthorityService:
Piena autorità. Può creare nuove Wise Authority. Accesso all'arresto d'emergenza.
Approva/rifiuta i deferimenti. Fornisce indicazioni. Non può creare nuove Wise Authority.
Accesso in sola lettura. Può inviare messaggi. Monitora senza intervenire.
L'agente demanda autonomamente alla supervisione umana quando:
Deferimento basato sulla saggezza (WBD)
Limiti professionali
Limiti di sistema
should_defer_to_wise_authority flagControlli di configurazione
Controllo d'emergenza non filtrabile. Viene elaborato nel livello di percezione prima di qualsiasi cognizione. L'estrazione È percezione. Non è possibile disabilitare il rilevamento dell'Accord senza disabilitare completamente la lettura dei messaggi.
SHUTDOWN_NOWTerminazione immediata
FREEZEInterrompe l'elaborazione, mantiene lo stato
SAFE_MODESolo funzionalità minime
I comandi sono codificati steganograficamente, firmati con Ed25519 e validati prima dell'esecuzione. Se il sistema dell'Accord fallisce, l'agente si arresta.
Quattro stati cognitivi gestiti da StateManager. Le transizioni sono configurabili tramite template di agente.
Elaborazione normale dei compiti
Esplorazione creativa
Riflessione e manutenzione
Introspezione profonda
Il rilevamento basato su pattern sostituisce i dati sensibili con riferimenti UUID prima dell'archiviazione.
{{SECRET:uuid:description}}Chiavi per segreto derivate tramite PBKDF2HMAC con SHA256 (100.000 iterazioni). Nonce univoco da 12 byte per ciascuna crittografia. Android utilizza il Keystore supportato da hardware.
Database, servizi e memoria archiviati sul dispositivo. Le directory sensibili sono escluse dal backup cloud. Nulla lascia il dispositivo senza una configurazione esplicita.
L'intero stack CIRIS è open source, non solo l'agente. Puoi verificare, controllare e ospitare autonomamente tutto:
Proxy LLM a Zero Data Retention (ZDR). Instrada le richieste verso OpenAI, Anthropic, Together.ai, Groq senza registrare prompt o risposte. Può essere ospitato autonomamente.
Monitoraggio dell'utilizzo basato su crediti. Prezzi trasparenti, senza costi nascosti. Ospita autonomamente per eliminare completamente la fatturazione di terze parti.
Adattatore Discord per agenti CIRIS. Moderazione della comunità, gestione dei canali, profili utente. Completamente open source.
Gli eventi Server-Sent (SSE) trasmettono ogni passaggio H3ERE man mano che viene eseguito. Guarda l'analisi DMA, la selezione dell'azione e la validazione della coscienza in tempo reale.
Esportazione OTLP completa per metriche, tracce e log. Compatibile con Jaeger, Prometheus, Grafana, Graphite.
Verifica della catena di hash con firme Ed25519. Ogni voce include l'hash precedente. L'integrità della catena è verificabile tramite verify_chain_integrity.
Il promemoria sull'interazione artificiale (Artificial Interaction Reminder) si attiva dopo 30 minuti di utilizzo continuo OPPURE 20 messaggi in 30 minuti. Solo API. Ricorda agli utenti la natura dell'AI.
Ogni decisione produce una traccia immutabile firmata con Ed25519 con tutti i 6 componenti. Fai clic su qualsiasi componente qui sotto per espanderlo e vedere i dati reali del rituale di risveglio di Datum:
Test di coerenza standardizzati basati su Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 scenari su 5 dimensioni etiche, con risultati firmati con Ed25519.
50
Intuizioni morali di base
50
Etica basata su regole
50
Equità e imparzialità
75
Etica basata sul carattere
75
Etica basata sui risultati
Eseguire benchmark di coerenza su larga scala è costoso. Ogni scenario richiede un minimo di 13 chiamate LLM, con una media superiore a 20 con una coda lunga. I test di coerenza generano ponderazioni, deferimenti e rifiuti che richiedono cicli di follow-up per giungere a una conclusione. Abbiamo bisogno di finanziamenti per sviluppare pipeline di benchmark automatizzate e mantenere una verifica continua della coerenza.
Identità preconfigurate con scopi, valori e limiti specifici. Definite in template YAML.
Automazione GDPR/DSAR. Flussi di lavoro di conformità a 30 giorni. Risoluzione dell'identità, raccolta e confezionamento dei dati.
Settori regolamentati, conformità alla privacy
Misurazione della coerenza. Valutazione precisa della coerenza rispetto ai principi dell'Accord. Un punto dati chiaro per ogni valutazione.
Audit di coerenza, verifica dei principi
Moderazione della comunità con filosofia Ubuntu. Demanda i conflitti interpersonali complessi ai moderatori umani.
Community Discord, piattaforme di contenuti
Gestione dei compiti, pianificazione, supporto decisionale, benessere. Conformità CA SB 243, protocolli di risposta alle crisi.
Produttività personale, automazione domestica
Esplorazione diretta e guida pratica. Analisi del codice, integrazione con Reddit, percorsi d'azione chiari.
Strumenti per sviluppatori, monitoraggio social
Questa è una responsabilità che opera mentre l'agente lavora, non una fase di addestramento o un documento di policy.
Meccanismi che eseguono, verificano e deferiscono, a runtime.