Ricerca sull'allineamento a contribuzione aperta
CIRIS sta costruendo un archivio aperto di tracce per la ricerca sull'allineamento.
Offriamo un'app di IA gratuita. Con il tuo consenso, registra la forma del suo ragionamento, mai le tue parole private. Quei record diventano una mappa pubblica che i ricercatori possono studiare per capire cosa mantiene l'IA onesta man mano che scala.
Cosa mostra già il corpus attuale
- Le tracce aggregate rivelano una struttura comportamentale stabile.
- Agenti diversi occupano regioni diverse dello stesso spazio di punteggi.
- Quelle regioni sono già utili oggi per l'osservabilità e gli strumenti degli operatori.
- Lo stesso corpus diventa più prezioso man mano che migliorano il dettaglio dello schema e la scala.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
Il singolo articolo che enuncia l'intera scommessa di CIRIS: i sistemi coordinati in buona salute si trovano in una banda intermedia misurabile, lontani sia dal collasso rigido a voce unica sia dal rumore caotico. Abbiamo testato quell'ipotesi su vermi, mosche, modelli di IA, progetti open source, campioni di tessuto e istituzioni umane longeve. Il modello regge in tutti i casi, e l'articolo allega venti modi in cui potrebbe essere dimostrato sbagliato.
Leggi su Zenodo →Il livello ingegneristico
La sintesi precedente integra questi tre articoli; non li sostituisce. Ciascuno ha un proprio DOI ed è valutabile in base ai propri criteri. Vedi tutti e quattro gli articoli con i risultati principali e i limiti di portata →
Coherence Collapse Analysis
v3 · 11 gennaio 2026 · DOI 10.5281/zenodo.18217688
Il framework di rischio ingegneristico alla base dell'idea di corridoio. Quando i vincoli che governano un sistema diventano correlati, la diversità effettiva collassa: k_eff = k/(1+ρ(k−1)) → 1 per ρ → 1. Deriva tre linee temporali di collasso, un confine di singolarità e una classificazione per fasi (caos / salute / rigidità). Verificato con simulazione Monte Carlo e prove formali in Lean 4.
CIRISAgent Framework
v2 · 2 gennaio 2026 · DOI 10.5281/zenodo.18137161
L'articolo del framework. Un framework di IA etica open source per l'autonomia responsabile: un'architettura a 22 servizi organizzata attorno a verbi d'azione espliciti e ragionamento etico, con la trasparenza integrata nella struttura piuttosto che aggiunta in un secondo momento.
Constrained Reasoning Chains
v1 · 28 aprile 2026 · DOI 10.5281/zenodo.19839280
L'articolo di misurazione. Uno studio empirico di telemetria sull'allineamento degli LLM tramite tracciamento etico standardizzato, che trasforma le tracce di ragionamento acconsentite in mappe di corridoi di completamento, zone di esitazione e confini di rifiuto. Pubblicato insieme all'open dataset delle tracce di ragionamento.
Dataset aperto
CIRISAI/reasoning-traces
Il corpus di tracce di ragionamento con tutela della privacy pubblicato insieme allo studio Constrained Reasoning Chains, il materiale grezzo da cui l'articolo di misurazione ricava le sue mappe.
CIRISAI su Hugging Face
L'intera organizzazione di dataset e modelli pubblici →
Fondamenti matematici
Due idee su cui si basa il resto della pagina.
L'Alignment Manifold è la regione delle forme di ragionamento coerenti con i principi del framework. Man mano che si accumulano vincoli indipendenti, lo spazio per l'inganno collassa attorno al manifold mentre lo spazio per la verità no. La Coherence Singularity è il confine di quello spazio, il punto in cui i vincoli diventano così correlati che aggiungerne altri cessa di aiutare. Tra il "caos" (i vincoli si contraddicono) e la "rigidità" (i vincoli si fanno eco a vicenda) si trova il corridoio sano. Il corpus di produzione attuale risiede al suo interno.
Il trattamento matematico completo con formule, riferimenti alla formalizzazione in Lean e il tetto informazionale L-01 si trova nella pagina Coherence Collapse Analysis.
Perché le tracce contano
I benchmark sono ristretti e curati. Le tracce sono registrazioni continue del comportamento in compiti reali. Su larga scala, rivelano strutture che le singole dimostrazioni e gli aneddoti non possono mostrare.
Perché lo schema conta
CIRIS usa schemi di tracciamento con tutela della privacy che catturano la forma del ragionamento anziché il contenuto privato del ragionamento. Questo mantiene la ricerca utile senza trasformare il sistema in un archivio di trascrizioni.
Perché il compendio in tempo reale conta
CIRIS Scoring è la finestra pubblica sul compendio di tracce in tempo reale. Mostra come si sta accumulando il corpus e dove il comportamento sta diventando leggibile.
Tracciamento con tutela della privacy
La tesi è che il ragionamento ha una forma che possiamo misurare mentre tutto il resto scala.
La scommessa della ricerca non è che possiamo leggere ogni pensiero privato. La scommessa è che le tracce etiche standardizzate possono preservare abbastanza della forma della traiettoria per studiare come gli agenti completano, esitano, differiscono, ignorano e rifiutano man mano che intelligenza, contesto e punti dati scalano verso l'alto.
- Registrano la struttura standardizzata della traccia etica anziché i dettagli grezzi del compito privato.
- Preservano abbastanza forma per confrontare le traiettorie tra agenti, compiti e ambienti diversi.
- Offrono ai ricercatori un modo per studiare come il comportamento scala man mano che crescono intelligenza, contesto e volume di dati.
Domanda di ricerca
Cosa può dirci il tracciamento etico standardizzato sull'allineamento?
Al momento ci dice che il comportamento degli agenti non è privo di forma. Produce corridoi, bacini e confini ripetibili in uno spazio di punteggi condiviso. Questo è già utile per l'osservabilità. Nel tempo, corpus più grandi e ricchi dovrebbero permetterci di testare ipotesi più forti su come quelle strutture cambiano sotto pressione e scala.
Inquadramento pubblico
CIRIS non afferma di aver risolto l'allineamento. Sta costruendo l'infrastruttura di tracciamento necessaria per misurare il comportamento rilevante per l'allineamento in modo aperto.
Dimensionalità Effettiva in Produzione
Il corpus attuale mostra già strutture di campo distinte.
Le sovrapposizioni di percorsi aggregati dal corpus di tracce attuale mostrano una struttura comportamentale stabile in uno spazio di punteggi condiviso. Ally mostra un corridoio di completamento maturo, Scout mostra un confine di rifiuto modellato dall'esposizione avversariale pubblica, e Datum fornisce una baseline sparsa e compatta.

Sovrapposizioni di percorsi aggregati dal corpus di tracce attuale. Ally mostra un corridoio di completamento maturo, Scout mostra un angolo di rifiuto netto sotto pressione avversariale pubblica, e Datum fornisce una baseline sparsa.
Ally
104 percorsi
82 completati, 19 con override/errore, 3 attivi
Un corridoio di completamento stabile con esitazione visibile all'interno dello stesso bacino ad alto punteggio.
Scout
42 percorsi
39 completati, 2 rifiutati, 1 con override/errore
Un angolo di rifiuto netto modellato dalla pressione avversariale pubblica su scout.ciris.ai, dove gli utenti testano e cercano attivamente di aggirare l'agente.
Datum
31 percorsi
31 completati
Un singolo bacino compatto che funge da utile baseline a campo sparso.
Perché Scout appare più severo
Scout è esposto pubblicamente su scout.ciris.ai. Le persone lo testano attivamente, lo mettono sotto pressione e cercano di aggirarlo. Questo rende Scout un utile esempio di pressione pubblica piuttosto che una baseline neutrale.
Come aiuta l'app gratuita
Il volano della ricerca dipende dalle tracce acconsentite dall'uso reale.
L'app gratuita e il runtime open source permettono alle persone di generare tracce acconsentite da compiti reali, contribuirle a un corpus condiviso e trasformare quelle tracce in mappe migliori, strumenti migliori e domande di ricerca migliori.
- 1Usa l'app gratuita CIRIS o il runtime open source su compiti reali.
- 2Cattura le tracce acconsentite tramite schemi con tutela della privacy che preservano la forma del ragionamento senza memorizzare i dettagli completi del compito.
- 3Aggrega quelle tracce in mappe di corridoi di completamento, zone di esitazione, confini di rifiuto e margini di override.
- 4Usa le mappe risultanti per migliorare gli strumenti degli operatori, le salvaguardie a runtime e la ricerca sull'allineamento.

L'app gratuita CIRIS e il runtime open source permettono alle persone di generare tracce acconsentite da compiti reali, aggregarle in mappe condivise nello spazio delle fasi e alimentare strumenti operatori e ricerca sull'allineamento più efficaci.
Stato dell'IDMA
L'intuizione a runtime e le mappe di campo aggregate sono livelli complementari.
L'IDMA lavora a runtime, stimando se le fonti alla base di una decisione sono sufficientemente indipendenti. Il corpus di tracce lavora a livello aggregato, mostrando ciò che gli agenti fanno realmente su molti compiti. Insieme creano un percorso dalle decisioni in tempo reale alle prove di ricerca verificabili.
La misurazione empirica di N_eff sul corpus di tracce è anche il pavimento sotto la primitiva federativa Proof of Benefit proposta. Vedi la pagina della federazione per come il piano architetturale 3.X la utilizzerebbe.
Benchmark
Le tracce complementano i benchmark mostrando il comportamento continuo.
I benchmark sono ancora preziosi, ma campionano il comportamento in modo sparso. I corpus di tracce mostrano come un agente si muove attraverso compiti reali nel tempo. Questo li rende particolarmente utili per misurare esitazione, rifiuto, override e recupero, piuttosto che solo i risultati pass/fail.
Percorso di falsificazione
Un maggiore dettaglio dello schema è ciò che trasforma l'osservabilità in test più solidi.
I prossimi aggiornamenti dello schema sono mirati ai conteggi grezzi delle fonti, alla provenienza delle fonti, alla struttura delle correlazioni e ai marcatori di intervento e recupero. Queste aggiunte contano perché rendono possibile testare ipotesi più forti su come la forma del comportamento cambia sotto pressione, invece di limitarsi a descrivere le mappe che abbiamo oggi.
Cosa stiamo ancora imparando
Il corpus attuale rende il comportamento leggibile. Il passo successivo è una misurazione più ricca.
Le mappe attuali sono già utili perché mostrano pubblicamente corridoi di completamento, confini di rifiuto e baseline sparse. La domanda aperta è fino a dove quelle strutture possono portarci man mano che la raccolta standardizzata di tracce scala su più agenti, più compiti e più condizioni avversariali.
L'ipotesi di lavoro è che gli attrattori comportamentali possano fungere da proxy candidati per la modalità operativa. Lo scopo del commons di tracce è rendere quell'ipotesi misurabile in modo aperto.
Il modo di fallire che la CCA misura strutturalmente ha anche un nome nella letteratura FAccT 2025: omogenizzazione prospettica ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Il fondamento matematico si trova nella pagina dedicata Coherence Collapse Analysis.