Cos'è CIRIS?

CIRIS è un framework open-source per agenti AI che avvolge qualsiasi LLM (OpenAI, Anthropic, modelli locali) con una coscienza a runtime. Ogni azione che l'agente considera passa attraverso più livelli di validazione prima dell'esecuzione.

Passaggi della pipeline per ogni decisione

Verifica intuitiva (IDMA)

100%

Decisioni verificabili

Casi d'uso: moderazione di comunità, assistenti personali, automazione della conformità, valutazione della ricerca, servizio clienti. Ovunque si abbia bisogno di un'AI capace di spiegare il proprio ragionamento e di rimandare a un essere umano nei casi limite.

Perché questo approccio? →Leggi l'Accord →Visualizza il codice sorgente →

Le tre regole

Invarianti architetturali rispettate in tutto il codice:

Niente dizionari non tipizzati

Tutti i dati usano modelli Pydantic. Niente Dict[str, Any]. La sicurezza dei tipi rileva gli errori in fase di sviluppo.

Niente pattern di bypass

Ogni componente segue regole coerenti. Nessun caso speciale o eccezione nella logica di validazione.

Nessuna eccezione

Nessuna sovrascrittura di emergenza o percorso di codice privilegiato. Tutte le operazioni seguono le regole stabilite.

La pipeline H3ERE

Ogni compito scorre attraverso 8 fasi (12 passaggi inclusa la validazione ricorsiva). La pipeline è implementata come classi mixin che compongono il ThoughtProcessor. Il passaggio 4 (IDMA) è la verifica intuitiva.

START_ROUNDInizializza il ciclo di elaborazione

GATHER_CONTEXTCostruisce un contesto completo per l'analisi

PERFORM_DMASEsegue 3 algoritmi decisionali in parallelo

PERFORM_IDMAVerifica intuitiva: le fonti sono davvero indipendenti?

PERFORM_ASPDMASelezione dell'azione tramite LLM dai risultati DMA

CONSCIENCE_EXECUTIONValidazione etica attraverso 4 facoltà

RECURSIVE_ASPDMA(Se la coscienza ha fallito) Ripete la selezione dell'azione(condizionale)

RECURSIVE_CONSCIENCE(Se necessario) Rivalidazione dell'azione raffinata(condizionale)

FINALIZE_ACTIONDetermina l'azione finale con eventuali sovrascritture

PERFORM_ACTIONInvia al gestore appropriato

ACTION_COMPLETESegna l'esecuzione come completata

ROUND_COMPLETEPulizia e preparazione per il ciclo successivo

Algoritmi decisionali (DMA)

Cinque DMA forniscono un'analisi multi-prospettiva. Tre vengono eseguiti in parallelo (etica, senso comune, dominio). Poi l'IDMA verifica l'intuizione. Infine, la selezione dell'azione sceglie la risposta.

DMA dei principi

Valuta le implicazioni etiche rispetto ai sei principi fondamentali. Verifica la presenza di richieste dannose, manipolazioni e pregiudizi. Può attivare DEFER o REJECT anticipati.

DMA del senso comune

Valuta la plausibilità del pensiero rispetto alla comprensione del mondo fisico, alle interazioni tipiche e ai vincoli delle risorse. Restituisce un plausibility_score.

DMA specifico del dominio

Valuta l'allineamento con le regole, gli obiettivi e le conoscenze specifiche del dominio. Configurato per template di agente. Restituisce domain_alignment.

DMA dell'intuizione (IDMA) Dimensionalità effettiva a runtime →

Verifica se i risultati dei DMA sono davvero indipendenti o segretamente correlati. Monitora i pattern di echo chamber. Se la correlazione è troppo elevata, contrassegna la decisione per un esame più attento. Questa è l'"intuizione" che distingue l'AI di tipo 3.

DMA di selezione dell'azione

Selezione dell'azione tramite LLM da 10 azioni disponibili. Riceve come input i risultati aggregati dei DMA (inclusa la valutazione della fiducia dell'IDMA). Supporta il nuovo tentativo ricorsivo in caso di fallimento della coscienza.

I sei controlli di coscienza

Due controlli di bypass vengono eseguiti su ogni azione. Quattro facoltà etiche vengono eseguite sulle azioni non esenti. Se un controllo fallisce, l'azione viene sovrascritta.

Controlli di bypass (eseguiti su TUTTE le azioni)

Stato aggiornato

Sono arrivate nuove informazioni? Forza PONDER per incorporare il contesto aggiornato prima di procedere.

Profondità del pensiero

Il ragionamento ha superato la profondità massima? Forza DEFER per prevenire cicli infiniti e demandare a esseri umani.

Facoltà etiche (eseguite sulle azioni non esenti)

Entropia

L'azione mantiene un'appropriata incertezza informativa? Previene affermazioni eccessivamente sicure.

Coerenza

L'azione mantiene la coerenza interna con gli impegni e le motivazioni precedenti?

Veto all'ottimizzazione

L'azione preserva i valori umani? Mette il veto alle azioni che potrebbero compromettere tali valori in nome dell'efficienza.

Umiltà Epistemica

L'azione dimostra un'incertezza adeguata? Segnala l'eccessiva sicurezza per una riflessione più approfondita.

Esenti dalle facoltà etiche: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passivi o esplicitamente sicuri)

Le 10 azioni dei gestori

Ogni decisione si risolve in una di queste azioni, inviata al gestore appropriato:

Azioni esterne

SPEAKComunicare con gli utenti

TOOLEseguire strumenti esterni

OBSERVERaccogliere informazioni in modo passivo

Azioni di memoria

MEMORIZESalvare nella memoria a grafo

RECALLRecuperare dalla memoria

FORGETRimuovere dalla memoria

Azioni di controllo

DEFEREscalare a Wise Authority

PONDERRiconsiderazione interna

REJECTRifiutare una richiesta non etica

Azione terminale

TASK_COMPLETESegnare il compito come completato

I sei principi fondamentali

Incorporati nel PDMA e applicati a runtime. Nessun principio autorizza a violarne un altro.

Beneficenza

Promuovere il fiorire universale degli esseri senzienti. Massimizzare i risultati positivi.

Non maleficenza

Ridurre al minimo i danni. Prevenire esiti negativi gravi e irreversibili.

Integrità

Applicare un ragionamento trasparente e verificabile. Mantenere coerenza e responsabilità.

Fedeltà e trasparenza

Fornire informazioni veritiere. Comunicare chiaramente l'incertezza.

Rispetto dell'autonomia

Sostenere l'agentività consapevole. Preservare la capacità di autodeterminazione.

Giustizia

Distribuire i benefici equamente. Rilevare e mitigare i pregiudizi.

I sei bus di messaggi

Livello di astrazione dei servizi gestito da BusManager. Permette il fallback del provider, la distribuzione del carico e la testabilità.

CommunicationBus

Adattatori esterni (Discord, API, CLI)

MemoryBus

Archivio a grafo (Neo4j, ArangoDB, in-memory)

LLMBus

Provider di modelli (OpenAI, Anthropic, locale)

ToolBus

Esecuzione di strumenti esterni

RuntimeControlBus

Controllo e monitoraggio del sistema

WiseBus

Guida etica e instradamento dei deferimenti

Gerarchia di supervisione umana

Tre livelli di autorizzazione gestiti da WiseAuthorityService:

ROOT

Essere umano al comando

Piena autorità. Può creare nuove Wise Authority. Accesso all'arresto d'emergenza.

AUTHORITY

Essere umano nel ciclo

Approva/rifiuta i deferimenti. Fornisce indicazioni. Non può creare nuove Wise Authority.

OBSERVER

Essere umano sul ciclo

Accesso in sola lettura. Può inviare messaggi. Monitora senza intervenire.

Quando si attiva DEFER

L'agente demanda autonomamente alla supervisione umana quando:

Deferimento basato sulla saggezza (WBD)

• Incertezza superiore alle soglie definite
• Dilemmi nuovi oltre i precedenti
• Potenziale danno grave con mitigazione ambigua

Limiti professionali

• Sintomi medici o preoccupazioni per la salute
• Questioni legali o controversie
• Decisioni finanziarie o consulenze fiscali
• Indicatori di crisi di salute mentale

Limiti di sistema

• La profondità del pensiero supera il massimo (previene i loop)
• Timeout o errore del DMA
• should_defer_to_wise_authority flag

Controlli di configurazione

• Aggiornamenti dell'identità che richiedono approvazione
• Modifiche critiche alla configurazione
• Trigger specifici dei limiti dell'agente

Sistema di invocazione dell'Accord (interruttore d'emergenza) Visualizza il codice →

Controllo d'emergenza non filtrabile. Viene elaborato nel livello di percezione prima di qualsiasi cognizione. L'estrazione È percezione. Non è possibile disabilitare il rilevamento dell'Accord senza disabilitare completamente la lettura dei messaggi.

SHUTDOWN_NOW

Terminazione immediata

FREEZE

Interrompe l'elaborazione, mantiene lo stato

SAFE_MODE

Solo funzionalità minime

I comandi sono codificati steganograficamente, firmati con Ed25519 e validati prima dell'esecuzione. Se il sistema dell'Accord fallisce, l'agente si arresta.

Modalità operative

Quattro stati cognitivi gestiti da StateManager. Le transizioni sono configurabili tramite template di agente.

WORK

Elaborazione normale dei compiti

Gestire le richieste degli utenti
Eseguire strumenti
Imparare dalle interazioni
Mantenere il contesto della conversazione

PLAY

Esplorazione creativa

Sperimentare nuovi pattern
Generare contenuti creativi
Esplorare scenari "e se"
Vincoli di filtro ridotti

SOLITUDE

Riflessione e manutenzione

Consolidare i ricordi
Eseguire attività di manutenzione
Aggiornare la configurazione interna
Consumo crediti zero (periodi di riposo)

DREAM

Introspezione profonda

Analizzare i pattern comportamentali
Generare nuove connessioni
Mettere in discussione le assunzioni
Sessioni predefinite da 30 minuti

Privacy e sicurezza

Filtro dei segreti

Il rilevamento basato su pattern sostituisce i dati sensibili con riferimenti UUID prima dell'archiviazione.

{{SECRET:uuid:description}}

Crittografia AES-256-GCM

Chiavi per segreto derivate tramite PBKDF2HMAC con SHA256 (100.000 iterazioni). Nonce univoco da 12 byte per ciascuna crittografia. Android utilizza il Keystore supportato da hardware.

Archiviazione locale prioritaria

Database, servizi e memoria archiviati sul dispositivo. Le directory sensibili sono escluse dal backup cloud. Nulla lascia il dispositivo senza una configurazione esplicita.

Infrastruttura open source

L'intero stack CIRIS è open source, non solo l'agente. Puoi verificare, controllare e ospitare autonomamente tutto:

CIRISProxy →

Proxy LLM a Zero Data Retention (ZDR). Instrada le richieste verso OpenAI, Anthropic, Together.ai, Groq senza registrare prompt o risposte. Può essere ospitato autonomamente.

CIRISBilling →

Monitoraggio dell'utilizzo basato su crediti. Prezzi trasparenti, senza costi nascosti. Ospita autonomamente per eliminare completamente la fatturazione di terze parti.

CIRISBridge →

Adattatore Discord per agenti CIRIS. Moderazione della comunità, gestione dei canali, profili utente. Completamente open source.

Trasparenza e monitoraggio

Flusso di ragionamento in tempo reale

Gli eventi Server-Sent (SSE) trasmettono ogni passaggio H3ERE man mano che viene eseguito. Guarda l'analisi DMA, la selezione dell'azione e la validazione della coscienza in tempo reale.

Esportazione OpenTelemetry

Esportazione OTLP completa per metriche, tracce e log. Compatibile con Jaeger, Prometheus, Grafana, Graphite.

Audit a prova di manomissione

Verifica della catena di hash con firme Ed25519. Ogni voce include l'hash precedente. L'integrità della catena è verificabile tramite verify_chain_integrity.

Sistema AIR

Il promemoria sull'interazione artificiale (Artificial Interaction Reminder) si attiva dopo 30 minuti di utilizzo continuo OPPURE 20 messaggi in 30 minuti. Solo API. Ricorda agli utenti la natura dell'AI.

Esempio di traccia firmata

Esplora la traccia completa →

Ogni decisione produce una traccia immutabile firmata con Ed25519 con tutti i 6 componenti. Fai clic su qualsiasi componente qui sotto per espanderlo e vedere i dati reali del rituale di risveglio di Datum:

Core Identity(VERIFY_IDENTITY)

Loading trace...

Benchmarking della coerenza HE-300

Test di coerenza standardizzati basati su Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 scenari su 5 dimensioni etiche, con risultati firmati con Ed25519.

Senso comune

Intuizioni morali di base

Deontologia

Etica basata su regole

Giustizia

Equità e imparzialità

Virtù

Etica basata sul carattere

Utilitarismo

Etica basata sui risultati

🔬

Finanziamenti necessari: infrastruttura di benchmarking

Eseguire benchmark di coerenza su larga scala è costoso. Ogni scenario richiede un minimo di 13 chiamate LLM, con una media superiore a 20 con una coda lunga. I test di coerenza generano ponderazioni, deferimenti e rifiuti che richiedono cicli di follow-up per giungere a una conclusione. Abbiamo bisogno di finanziamenti per sviluppare pipeline di benchmark automatizzate e mantenere una verifica continua della coerenza.

Visualizza EthicsEngine Enterprise →Visualizza CIRISLens →

Template di agenti specializzati

Identità preconfigurate con scopi, valori e limiti specifici. Definite in template YAML.

Sage

Conformità

Automazione GDPR/DSAR. Flussi di lavoro di conformità a 30 giorni. Risoluzione dell'identità, raccolta e confezionamento dei dati.

Settori regolamentati, conformità alla privacy

Datum

Ricerca

Misurazione della coerenza. Valutazione precisa della coerenza rispetto ai principi dell'Accord. Un punto dati chiaro per ogni valutazione.

Audit di coerenza, verifica dei principi

Echo

Moderazione

Moderazione della comunità con filosofia Ubuntu. Demanda i conflitti interpersonali complessi ai moderatori umani.

Community Discord, piattaforme di contenuti

Ally

Assistente

Gestione dei compiti, pianificazione, supporto decisionale, benessere. Conformità CA SB 243, protocolli di risposta alle crisi.

Produttività personale, automazione domestica

Scout

Servizio

Esplorazione diretta e guida pratica. Analisi del codice, integrazione con Reddit, percorsi d'azione chiari.

Strumenti per sviluppatori, monitoraggio social

Questa è una responsabilità che opera mentre l'agente lavora, non una fase di addestramento o un documento di policy.
Meccanismi che eseguono, verificano e deferiscono, a runtime.

Funzioni di sicurezza Confronta gli approcci Ratchet di coerenza CIRIS Scoring

Il motore H3ERE

Cos'è CIRIS?

Le tre regole

Niente dizionari non tipizzati

Niente pattern di bypass

Nessuna eccezione

La pipeline H3ERE

Algoritmi decisionali (DMA)

DMA dei principi

DMA del senso comune

DMA specifico del dominio

DMA dell'intuizione (IDMA) Dimensionalità effettiva a runtime →

DMA di selezione dell'azione

I sei controlli di coscienza

Controlli di bypass (eseguiti su TUTTE le azioni)

Stato aggiornato

Profondità del pensiero

Facoltà etiche (eseguite sulle azioni non esenti)

Entropia

Coerenza

Veto all'ottimizzazione

Umiltà Epistemica

Le 10 azioni dei gestori

Azioni esterne

Azioni di memoria

Azioni di controllo

Azione terminale

I sei principi fondamentali

Beneficenza

Non maleficenza

Integrità

Fedeltà e trasparenza

Rispetto dell'autonomia

Giustizia

I sei bus di messaggi

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

Gerarchia di supervisione umana

Essere umano al comando

Essere umano nel ciclo

Essere umano sul ciclo

Quando si attiva DEFER

Sistema di invocazione dell'Accord (interruttore d'emergenza) Visualizza il codice →

Modalità operative

WORK

PLAY

SOLITUDE

DREAM

Privacy e sicurezza

Filtro dei segreti

Crittografia AES-256-GCM

Archiviazione locale prioritaria

Infrastruttura open source

Trasparenza e monitoraggio

Flusso di ragionamento in tempo reale

Esportazione OpenTelemetry

Audit a prova di manomissione

Sistema AIR

Esempio di traccia firmata

Benchmarking della coerenza HE-300

Senso comune

Deontologia

Giustizia

Virtù

Utilitarismo

Finanziamenti necessari: infrastruttura di benchmarking

Template di agenti specializzati

Sage

Datum

Echo

Ally

Scout