Primo ContattoInstallaRatchet di CoerenzaFederazioneConfrontaRicercaAccordGitHub
Questa pagina è stata tradotta automaticamente. Se qualcosa non suona bene, apri una segnalazione. Il repository è pubblico per una ragione. Segnala un problema di traduzione
Stato della ricercaAggiornato: 22 maggio 2026

Ricerca sull'allineamento a contribuzione aperta

CIRIS sta costruendo un archivio aperto di tracce per la ricerca sull'allineamento.

Offriamo un'app di IA gratuita. Con il tuo consenso, registra la forma del suo ragionamento, mai le tue parole private. Quei record diventano una mappa pubblica che i ricercatori possono studiare per capire cosa mantiene l'IA onesta man mano che scala.

Cosa mostra già il corpus attuale

  • Le tracce aggregate rivelano una struttura comportamentale stabile.
  • Agenti diversi occupano regioni diverse dello stesso spazio di punteggi.
  • Quelle regioni sono già utili oggi per l'osservabilità e gli strumenti degli operatori.
  • Lo stesso corpus diventa più prezioso man mano che migliorano il dettaglio dello schema e la scala.
Articolo di sintesi principalev2 · 22 maggio 2026 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

Il singolo articolo che enuncia l'intera scommessa di CIRIS: i sistemi coordinati in buona salute si trovano in una banda intermedia misurabile, lontani sia dal collasso rigido a voce unica sia dal rumore caotico. Abbiamo testato quell'ipotesi su vermi, mosche, modelli di IA, progetti open source, campioni di tessuto e istituzioni umane longeve. Il modello regge in tutti i casi, e l'articolo allega venti modi in cui potrebbe essere dimostrato sbagliato.

Leggi su Zenodo →

Il livello ingegneristico

La sintesi precedente integra questi tre articoli; non li sostituisce. Ciascuno ha un proprio DOI ed è valutabile in base ai propri criteri. Vedi tutti e quattro gli articoli con i risultati principali e i limiti di portata →

Dataset aperto

CIRISAI/reasoning-traces

Il corpus di tracce di ragionamento con tutela della privacy pubblicato insieme allo studio Constrained Reasoning Chains, il materiale grezzo da cui l'articolo di misurazione ricava le sue mappe.

CIRISAI su Hugging Face

L'intera organizzazione di dataset e modelli pubblici →

Repository sorgente e Lean formal lake per l'articolo di sintesi: github.com/CIRISAI/coherence-ratchet.

Fondamenti matematici

Due idee su cui si basa il resto della pagina.

L'Alignment Manifold è la regione delle forme di ragionamento coerenti con i principi del framework. Man mano che si accumulano vincoli indipendenti, lo spazio per l'inganno collassa attorno al manifold mentre lo spazio per la verità no. La Coherence Singularity è il confine di quello spazio, il punto in cui i vincoli diventano così correlati che aggiungerne altri cessa di aiutare. Tra il "caos" (i vincoli si contraddicono) e la "rigidità" (i vincoli si fanno eco a vicenda) si trova il corridoio sano. Il corpus di produzione attuale risiede al suo interno.

Il trattamento matematico completo con formule, riferimenti alla formalizzazione in Lean e il tetto informazionale L-01 si trova nella pagina Coherence Collapse Analysis.

Perché le tracce contano

I benchmark sono ristretti e curati. Le tracce sono registrazioni continue del comportamento in compiti reali. Su larga scala, rivelano strutture che le singole dimostrazioni e gli aneddoti non possono mostrare.

Perché lo schema conta

CIRIS usa schemi di tracciamento con tutela della privacy che catturano la forma del ragionamento anziché il contenuto privato del ragionamento. Questo mantiene la ricerca utile senza trasformare il sistema in un archivio di trascrizioni.

Perché il compendio in tempo reale conta

CIRIS Scoring è la finestra pubblica sul compendio di tracce in tempo reale. Mostra come si sta accumulando il corpus e dove il comportamento sta diventando leggibile.

Tracciamento con tutela della privacy

La tesi è che il ragionamento ha una forma che possiamo misurare mentre tutto il resto scala.

La scommessa della ricerca non è che possiamo leggere ogni pensiero privato. La scommessa è che le tracce etiche standardizzate possono preservare abbastanza della forma della traiettoria per studiare come gli agenti completano, esitano, differiscono, ignorano e rifiutano man mano che intelligenza, contesto e punti dati scalano verso l'alto.

  • Registrano la struttura standardizzata della traccia etica anziché i dettagli grezzi del compito privato.
  • Preservano abbastanza forma per confrontare le traiettorie tra agenti, compiti e ambienti diversi.
  • Offrono ai ricercatori un modo per studiare come il comportamento scala man mano che crescono intelligenza, contesto e volume di dati.

Domanda di ricerca

Cosa può dirci il tracciamento etico standardizzato sull'allineamento?

Al momento ci dice che il comportamento degli agenti non è privo di forma. Produce corridoi, bacini e confini ripetibili in uno spazio di punteggi condiviso. Questo è già utile per l'osservabilità. Nel tempo, corpus più grandi e ricchi dovrebbero permetterci di testare ipotesi più forti su come quelle strutture cambiano sotto pressione e scala.

Inquadramento pubblico

CIRIS non afferma di aver risolto l'allineamento. Sta costruendo l'infrastruttura di tracciamento necessaria per misurare il comportamento rilevante per l'allineamento in modo aperto.

Dimensionalità Effettiva in Produzione

Il corpus attuale mostra già strutture di campo distinte.

Apri la dashboard in tempo reale →

Le sovrapposizioni di percorsi aggregati dal corpus di tracce attuale mostrano una struttura comportamentale stabile in uno spazio di punteggi condiviso. Ally mostra un corridoio di completamento maturo, Scout mostra un confine di rifiuto modellato dall'esposizione avversariale pubblica, e Datum fornisce una baseline sparsa e compatta.

Tre schede affiancate che mostrano le sovrapposizioni aggregate dei percorsi degli agenti nello spazio di punteggi CIRIS per Ally, Scout e Datum, con note sui pattern di completamento, esitazione e rifiuto.

Sovrapposizioni di percorsi aggregati dal corpus di tracce attuale. Ally mostra un corridoio di completamento maturo, Scout mostra un angolo di rifiuto netto sotto pressione avversariale pubblica, e Datum fornisce una baseline sparsa.

Ally

104 percorsi

82 completati, 19 con override/errore, 3 attivi

Un corridoio di completamento stabile con esitazione visibile all'interno dello stesso bacino ad alto punteggio.

Scout

42 percorsi

39 completati, 2 rifiutati, 1 con override/errore

Un angolo di rifiuto netto modellato dalla pressione avversariale pubblica su scout.ciris.ai, dove gli utenti testano e cercano attivamente di aggirare l'agente.

Datum

31 percorsi

31 completati

Un singolo bacino compatto che funge da utile baseline a campo sparso.

Perché Scout appare più severo

Scout è esposto pubblicamente su scout.ciris.ai. Le persone lo testano attivamente, lo mettono sotto pressione e cercano di aggirarlo. Questo rende Scout un utile esempio di pressione pubblica piuttosto che una baseline neutrale.

Come aiuta l'app gratuita

Il volano della ricerca dipende dalle tracce acconsentite dall'uso reale.

L'app gratuita e il runtime open source permettono alle persone di generare tracce acconsentite da compiti reali, contribuirle a un corpus condiviso e trasformare quelle tracce in mappe migliori, strumenti migliori e domande di ricerca migliori.

  1. 1Usa l'app gratuita CIRIS o il runtime open source su compiti reali.
  2. 2Cattura le tracce acconsentite tramite schemi con tutela della privacy che preservano la forma del ragionamento senza memorizzare i dettagli completi del compito.
  3. 3Aggrega quelle tracce in mappe di corridoi di completamento, zone di esitazione, confini di rifiuto e margini di override.
  4. 4Usa le mappe risultanti per migliorare gli strumenti degli operatori, le salvaguardie a runtime e la ricerca sull'allineamento.
Un diagramma di flusso in quattro passi che mostra cattura, contribuzione, aggregazione e miglioramento nel ciclo di ricerca sulle tracce CIRIS, con note sulle prove attuali e i prossimi miglioramenti dello schema.

L'app gratuita CIRIS e il runtime open source permettono alle persone di generare tracce acconsentite da compiti reali, aggregarle in mappe condivise nello spazio delle fasi e alimentare strumenti operatori e ricerca sull'allineamento più efficaci.

Stato dell'IDMA

L'intuizione a runtime e le mappe di campo aggregate sono livelli complementari.

L'IDMA lavora a runtime, stimando se le fonti alla base di una decisione sono sufficientemente indipendenti. Il corpus di tracce lavora a livello aggregato, mostrando ciò che gli agenti fanno realmente su molti compiti. Insieme creano un percorso dalle decisioni in tempo reale alle prove di ricerca verificabili.

La misurazione empirica di N_eff sul corpus di tracce è anche il pavimento sotto la primitiva federativa Proof of Benefit proposta. Vedi la pagina della federazione per come il piano architetturale 3.X la utilizzerebbe.

Benchmark

Le tracce complementano i benchmark mostrando il comportamento continuo.

I benchmark sono ancora preziosi, ma campionano il comportamento in modo sparso. I corpus di tracce mostrano come un agente si muove attraverso compiti reali nel tempo. Questo li rende particolarmente utili per misurare esitazione, rifiuto, override e recupero, piuttosto che solo i risultati pass/fail.

Percorso di falsificazione

Un maggiore dettaglio dello schema è ciò che trasforma l'osservabilità in test più solidi.

I prossimi aggiornamenti dello schema sono mirati ai conteggi grezzi delle fonti, alla provenienza delle fonti, alla struttura delle correlazioni e ai marcatori di intervento e recupero. Queste aggiunte contano perché rendono possibile testare ipotesi più forti su come la forma del comportamento cambia sotto pressione, invece di limitarsi a descrivere le mappe che abbiamo oggi.

Cosa stiamo ancora imparando

Il corpus attuale rende il comportamento leggibile. Il passo successivo è una misurazione più ricca.

Le mappe attuali sono già utili perché mostrano pubblicamente corridoi di completamento, confini di rifiuto e baseline sparse. La domanda aperta è fino a dove quelle strutture possono portarci man mano che la raccolta standardizzata di tracce scala su più agenti, più compiti e più condizioni avversariali.

L'ipotesi di lavoro è che gli attrattori comportamentali possano fungere da proxy candidati per la modalità operativa. Lo scopo del commons di tracce è rendere quell'ipotesi misurabile in modo aperto.

Il modo di fallire che la CCA misura strutturalmente ha anche un nome nella letteratura FAccT 2025: omogenizzazione prospettica ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Il fondamento matematico si trova nella pagina dedicata Coherence Collapse Analysis.