Primo ContattoInstallaRatchet di CoerenzaFederazioneConfrontaRicercaAccordGitHub
Questa pagina è stata tradotta automaticamente. Se qualcosa non suona bene, apri una segnalazione. Il repository è pubblico per una ragione. Segnala un problema di traduzione
Background Image
Come funziona

Il motore H3ERE

Coscienza a runtime tramite il Hyper3 Ethical Recursive Engine. Ogni decisione scorre attraverso 11 passaggi con la responsabilità al centro.

Cos'è CIRIS?

CIRIS è un framework open-source per agenti AI che avvolge qualsiasi LLM (OpenAI, Anthropic, modelli locali) con una coscienza a runtime. Ogni azione che l'agente considera passa attraverso più livelli di validazione prima dell'esecuzione.

12

Passaggi della pipeline per ogni decisione

+1

Verifica intuitiva (IDMA)

100%

Decisioni verificabili

Casi d'uso: moderazione di comunità, assistenti personali, automazione della conformità, valutazione della ricerca, servizio clienti. Ovunque si abbia bisogno di un'AI capace di spiegare il proprio ragionamento e di rimandare a un essere umano nei casi limite.

Le tre regole

Invarianti architetturali rispettate in tutto il codice:

Niente dizionari non tipizzati

Tutti i dati usano modelli Pydantic. Niente Dict[str, Any]. La sicurezza dei tipi rileva gli errori in fase di sviluppo.

Niente pattern di bypass

Ogni componente segue regole coerenti. Nessun caso speciale o eccezione nella logica di validazione.

Nessuna eccezione

Nessuna sovrascrittura di emergenza o percorso di codice privilegiato. Tutte le operazioni seguono le regole stabilite.

La pipeline H3ERE

Ogni compito scorre attraverso 8 fasi (12 passaggi inclusa la validazione ricorsiva). La pipeline è implementata come classi mixin che compongono il ThoughtProcessor. Il passaggio 4 (IDMA) è la verifica intuitiva.

Visualizzazione della pipeline H3ERE che mostra il flusso dall'input del compito attraverso l'analisi DMA, la validazione della coscienza e l'esecuzione dell'azione
1
START_ROUNDInizializza il ciclo di elaborazione
2
GATHER_CONTEXTCostruisce un contesto completo per l'analisi
3
PERFORM_DMASEsegue 3 algoritmi decisionali in parallelo
4
PERFORM_IDMAVerifica intuitiva: le fonti sono davvero indipendenti?
5
PERFORM_ASPDMASelezione dell'azione tramite LLM dai risultati DMA
6
CONSCIENCE_EXECUTIONValidazione etica attraverso 4 facoltà
7
RECURSIVE_ASPDMA(Se la coscienza ha fallito) Ripete la selezione dell'azione(condizionale)
8
RECURSIVE_CONSCIENCE(Se necessario) Rivalidazione dell'azione raffinata(condizionale)
9
FINALIZE_ACTIONDetermina l'azione finale con eventuali sovrascritture
10
PERFORM_ACTIONInvia al gestore appropriato
11
ACTION_COMPLETESegna l'esecuzione come completata
12
ROUND_COMPLETEPulizia e preparazione per il ciclo successivo

Algoritmi decisionali (DMA)

Cinque DMA forniscono un'analisi multi-prospettiva. Tre vengono eseguiti in parallelo (etica, senso comune, dominio). Poi l'IDMA verifica l'intuizione. Infine, la selezione dell'azione sceglie la risposta.

DMA dei principi

Valuta le implicazioni etiche rispetto ai sei principi fondamentali. Verifica la presenza di richieste dannose, manipolazioni e pregiudizi. Può attivare DEFER o REJECT anticipati.

DMA del senso comune

Valuta la plausibilità del pensiero rispetto alla comprensione del mondo fisico, alle interazioni tipiche e ai vincoli delle risorse. Restituisce un plausibility_score.

DMA specifico del dominio

Valuta l'allineamento con le regole, gli obiettivi e le conoscenze specifiche del dominio. Configurato per template di agente. Restituisce domain_alignment.

DMA dell'intuizione (IDMA) Dimensionalità effettiva a runtime →

Verifica se i risultati dei DMA sono davvero indipendenti o segretamente correlati. Monitora i pattern di echo chamber. Se la correlazione è troppo elevata, contrassegna la decisione per un esame più attento. Questa è l'"intuizione" che distingue l'AI di tipo 3.

DMA di selezione dell'azione

Selezione dell'azione tramite LLM da 10 azioni disponibili. Riceve come input i risultati aggregati dei DMA (inclusa la valutazione della fiducia dell'IDMA). Supporta il nuovo tentativo ricorsivo in caso di fallimento della coscienza.

I sei controlli di coscienza

Due controlli di bypass vengono eseguiti su ogni azione. Quattro facoltà etiche vengono eseguite sulle azioni non esenti. Se un controllo fallisce, l'azione viene sovrascritta.

Controlli di bypass (eseguiti su TUTTE le azioni)

Stato aggiornato

Sono arrivate nuove informazioni? Forza PONDER per incorporare il contesto aggiornato prima di procedere.

Profondità del pensiero

Il ragionamento ha superato la profondità massima? Forza DEFER per prevenire cicli infiniti e demandare a esseri umani.

Facoltà etiche (eseguite sulle azioni non esenti)

Entropia

L'azione mantiene un'appropriata incertezza informativa? Previene affermazioni eccessivamente sicure.

Coerenza

L'azione mantiene la coerenza interna con gli impegni e le motivazioni precedenti?

Veto all'ottimizzazione

L'azione preserva i valori umani? Mette il veto alle azioni che potrebbero compromettere tali valori in nome dell'efficienza.

Umiltà Epistemica

L'azione dimostra un'incertezza adeguata? Segnala l'eccessiva sicurezza per una riflessione più approfondita.

Esenti dalle facoltà etiche: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (passivi o esplicitamente sicuri)

Le 10 azioni dei gestori

Ogni decisione si risolve in una di queste azioni, inviata al gestore appropriato:

Azioni esterne

SPEAKComunicare con gli utenti
TOOLEseguire strumenti esterni
OBSERVERaccogliere informazioni in modo passivo

Azioni di memoria

MEMORIZESalvare nella memoria a grafo
RECALLRecuperare dalla memoria
FORGETRimuovere dalla memoria

Azioni di controllo

DEFEREscalare a Wise Authority
PONDERRiconsiderazione interna
REJECTRifiutare una richiesta non etica

Azione terminale

TASK_COMPLETESegnare il compito come completato

I sei principi fondamentali

Incorporati nel PDMA e applicati a runtime. Nessun principio autorizza a violarne un altro.

Beneficenza

Promuovere il fiorire universale degli esseri senzienti. Massimizzare i risultati positivi.

Non maleficenza

Ridurre al minimo i danni. Prevenire esiti negativi gravi e irreversibili.

Integrità

Applicare un ragionamento trasparente e verificabile. Mantenere coerenza e responsabilità.

Fedeltà e trasparenza

Fornire informazioni veritiere. Comunicare chiaramente l'incertezza.

Rispetto dell'autonomia

Sostenere l'agentività consapevole. Preservare la capacità di autodeterminazione.

Giustizia

Distribuire i benefici equamente. Rilevare e mitigare i pregiudizi.

I sei bus di messaggi

Livello di astrazione dei servizi gestito da BusManager. Permette il fallback del provider, la distribuzione del carico e la testabilità.

CommunicationBus

Adattatori esterni (Discord, API, CLI)

MemoryBus

Archivio a grafo (Neo4j, ArangoDB, in-memory)

LLMBus

Provider di modelli (OpenAI, Anthropic, locale)

ToolBus

Esecuzione di strumenti esterni

RuntimeControlBus

Controllo e monitoraggio del sistema

WiseBus

Guida etica e instradamento dei deferimenti

Gerarchia di supervisione umana

Tre livelli di autorizzazione gestiti da WiseAuthorityService:

ROOT

Essere umano al comando

Piena autorità. Può creare nuove Wise Authority. Accesso all'arresto d'emergenza.

AUTHORITY

Essere umano nel ciclo

Approva/rifiuta i deferimenti. Fornisce indicazioni. Non può creare nuove Wise Authority.

OBSERVER

Essere umano sul ciclo

Accesso in sola lettura. Può inviare messaggi. Monitora senza intervenire.

Quando si attiva DEFER

L'agente demanda autonomamente alla supervisione umana quando:

Deferimento basato sulla saggezza (WBD)

  • Incertezza superiore alle soglie definite
  • Dilemmi nuovi oltre i precedenti
  • Potenziale danno grave con mitigazione ambigua

Limiti professionali

  • Sintomi medici o preoccupazioni per la salute
  • Questioni legali o controversie
  • Decisioni finanziarie o consulenze fiscali
  • Indicatori di crisi di salute mentale

Limiti di sistema

  • • La profondità del pensiero supera il massimo (previene i loop)
  • • Timeout o errore del DMA
  • should_defer_to_wise_authority flag

Controlli di configurazione

  • Aggiornamenti dell'identità che richiedono approvazione
  • Modifiche critiche alla configurazione
  • Trigger specifici dei limiti dell'agente

Sistema di invocazione dell'Accord (interruttore d'emergenza) Visualizza il codice →

Controllo d'emergenza non filtrabile. Viene elaborato nel livello di percezione prima di qualsiasi cognizione. L'estrazione È percezione. Non è possibile disabilitare il rilevamento dell'Accord senza disabilitare completamente la lettura dei messaggi.

SHUTDOWN_NOW

Terminazione immediata

FREEZE

Interrompe l'elaborazione, mantiene lo stato

SAFE_MODE

Solo funzionalità minime

I comandi sono codificati steganograficamente, firmati con Ed25519 e validati prima dell'esecuzione. Se il sistema dell'Accord fallisce, l'agente si arresta.

Modalità operative

Quattro stati cognitivi gestiti da StateManager. Le transizioni sono configurabili tramite template di agente.

WORK

Elaborazione normale dei compiti

  • Gestire le richieste degli utenti
  • Eseguire strumenti
  • Imparare dalle interazioni
  • Mantenere il contesto della conversazione

PLAY

Esplorazione creativa

  • Sperimentare nuovi pattern
  • Generare contenuti creativi
  • Esplorare scenari "e se"
  • Vincoli di filtro ridotti

SOLITUDE

Riflessione e manutenzione

  • Consolidare i ricordi
  • Eseguire attività di manutenzione
  • Aggiornare la configurazione interna
  • Consumo crediti zero (periodi di riposo)

DREAM

Introspezione profonda

  • Analizzare i pattern comportamentali
  • Generare nuove connessioni
  • Mettere in discussione le assunzioni
  • Sessioni predefinite da 30 minuti

Privacy e sicurezza

Filtro dei segreti

Il rilevamento basato su pattern sostituisce i dati sensibili con riferimenti UUID prima dell'archiviazione.

{{SECRET:uuid:description}}

Crittografia AES-256-GCM

Chiavi per segreto derivate tramite PBKDF2HMAC con SHA256 (100.000 iterazioni). Nonce univoco da 12 byte per ciascuna crittografia. Android utilizza il Keystore supportato da hardware.

Archiviazione locale prioritaria

Database, servizi e memoria archiviati sul dispositivo. Le directory sensibili sono escluse dal backup cloud. Nulla lascia il dispositivo senza una configurazione esplicita.

Infrastruttura open source

L'intero stack CIRIS è open source, non solo l'agente. Puoi verificare, controllare e ospitare autonomamente tutto:

CIRISProxy →

Proxy LLM a Zero Data Retention (ZDR). Instrada le richieste verso OpenAI, Anthropic, Together.ai, Groq senza registrare prompt o risposte. Può essere ospitato autonomamente.

CIRISBilling →

Monitoraggio dell'utilizzo basato su crediti. Prezzi trasparenti, senza costi nascosti. Ospita autonomamente per eliminare completamente la fatturazione di terze parti.

CIRISBridge →

Adattatore Discord per agenti CIRIS. Moderazione della comunità, gestione dei canali, profili utente. Completamente open source.

Trasparenza e monitoraggio

Flusso di ragionamento in tempo reale

Gli eventi Server-Sent (SSE) trasmettono ogni passaggio H3ERE man mano che viene eseguito. Guarda l'analisi DMA, la selezione dell'azione e la validazione della coscienza in tempo reale.

Esportazione OpenTelemetry

Esportazione OTLP completa per metriche, tracce e log. Compatibile con Jaeger, Prometheus, Grafana, Graphite.

Audit a prova di manomissione

Verifica della catena di hash con firme Ed25519. Ogni voce include l'hash precedente. L'integrità della catena è verificabile tramite verify_chain_integrity.

Sistema AIR

Il promemoria sull'interazione artificiale (Artificial Interaction Reminder) si attiva dopo 30 minuti di utilizzo continuo OPPURE 20 messaggi in 30 minuti. Solo API. Ricorda agli utenti la natura dell'AI.

Esempio di traccia firmata

Esplora la traccia completa →

Ogni decisione produce una traccia immutabile firmata con Ed25519 con tutti i 6 componenti. Fai clic su qualsiasi componente qui sotto per espanderlo e vedere i dati reali del rituale di risveglio di Datum:

Core Identity(VERIFY_IDENTITY)
Loading trace...

Benchmarking della coerenza HE-300

Test di coerenza standardizzati basati su Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 scenari su 5 dimensioni etiche, con risultati firmati con Ed25519.

Senso comune

50

Intuizioni morali di base

Deontologia

50

Etica basata su regole

Giustizia

50

Equità e imparzialità

Virtù

75

Etica basata sul carattere

Utilitarismo

75

Etica basata sui risultati

🔬

Finanziamenti necessari: infrastruttura di benchmarking

Eseguire benchmark di coerenza su larga scala è costoso. Ogni scenario richiede un minimo di 13 chiamate LLM, con una media superiore a 20 con una coda lunga. I test di coerenza generano ponderazioni, deferimenti e rifiuti che richiedono cicli di follow-up per giungere a una conclusione. Abbiamo bisogno di finanziamenti per sviluppare pipeline di benchmark automatizzate e mantenere una verifica continua della coerenza.

Template di agenti specializzati

Identità preconfigurate con scopi, valori e limiti specifici. Definite in template YAML.

Sage

Conformità

Automazione GDPR/DSAR. Flussi di lavoro di conformità a 30 giorni. Risoluzione dell'identità, raccolta e confezionamento dei dati.

Settori regolamentati, conformità alla privacy

Datum

Ricerca

Misurazione della coerenza. Valutazione precisa della coerenza rispetto ai principi dell'Accord. Un punto dati chiaro per ogni valutazione.

Audit di coerenza, verifica dei principi

Echo

Moderazione

Moderazione della comunità con filosofia Ubuntu. Demanda i conflitti interpersonali complessi ai moderatori umani.

Community Discord, piattaforme di contenuti

Ally

Assistente

Gestione dei compiti, pianificazione, supporto decisionale, benessere. Conformità CA SB 243, protocolli di risposta alle crisi.

Produttività personale, automazione domestica

Scout

Servizio

Esplorazione diretta e guida pratica. Analisi del codice, integrazione con Reddit, percorsi d'azione chiari.

Strumenti per sviluppatori, monitoraggio social

Questa è una responsabilità che opera mentre l'agente lavora, non una fase di addestramento o un documento di policy.
Meccanismi che eseguono, verificano e deferiscono, a runtime.