Recherche d'alignement participative
CIRIS construit un espace commun de traces ouvert pour la recherche en alignement.
Nous offrons une application IA gratuite. Avec votre accord, elle enregistre la forme de son raisonnement, jamais vos mots privés. Ces enregistrements forment une carte publique que les chercheurs peuvent étudier pour comprendre ce qui maintient l'IA honnête à mesure qu'elle évolue.
Ce que le corpus actuel montre déjà
- Les traces agrégées révèlent une structure comportementale stable.
- Différents agents occupent des régions distinctes du même espace de scores.
- Ces régions sont utiles dès aujourd'hui pour l'observabilité et les outils opérateurs.
- Le même corpus prend de la valeur à mesure que la granularité du schéma et l'échelle s'améliorent.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
L'article unique qui expose l'ensemble du pari CIRIS : les systèmes coordonnés sains se situent dans une bande intermédiaire mesurable, loin à la fois de l'effondrement rigide d'une seule voix et du bruit chaotique. Nous avons testé cette hypothèse sur des vers, des mouches, des modèles d'IA, des projets open source, des échantillons tissulaires et des institutions humaines pérennes. La tendance se confirme dans chaque cas, et l'article présente vingt façons de la réfuter.
Lire sur Zenodo →Le niveau d'ingénierie
La synthèse ci-dessus intègre ces trois articles ; elle ne les remplace pas. Chacun possède son propre DOI et peut être évalué de façon indépendante. Voir les quatre articles avec les résultats clés et les limites de portée →
Coherence Collapse Analysis
v3 · 11 janvier 2026 · DOI 10.5281/zenodo.18217688
Le cadre de risque d'ingénierie qui sous-tend l'idée du corridor. Lorsque les contraintes régissant un système deviennent corrélées, la diversité effective s'effondre : k_eff = k/(1+ρ(k−1)) → 1 quand ρ → 1. L'article dérive trois chronologies d'effondrement, une frontière de singularité et une classification par phases (chaos / sain / rigidité). Vérifié par simulation Monte Carlo et preuves formelles en Lean 4.
CIRISAgent Framework
v2 · 2 janvier 2026 · DOI 10.5281/zenodo.18137161
L'article de cadre. Un framework d'IA éthique open source pour une autonomie responsable : une architecture à 22 services organisée autour de verbes d'action explicites et d'un raisonnement éthique, avec la transparence intégrée dans la structure plutôt qu'ajoutée après coup.
Constrained Reasoning Chains
v1 · 28 avril 2026 · DOI 10.5281/zenodo.19839280
L'article de mesure. Une étude empirique de télémétrie sur l'alignement des LLM sous traçage éthique standardisé, transformant des traces de raisonnement consenties en cartes de corridors d'achèvement, de zones d'hésitation et de frontières de refus. Publié en même temps que le jeu de données ouvert de traces de raisonnement.
Jeu de données ouvert
CIRISAI/reasoning-traces
Le corpus de traces de raisonnement préservant la vie privée, publié conjointement à l'étude Constrained Reasoning Chains : la matière première à partir de laquelle l'article de mesure trace ses cartes.
CIRISAI sur Hugging Face
L'ensemble des jeux de données et modèles publics →
Fondements mathématiques
Deux idées sur lesquelles repose le reste de la page.
La Variété d'alignement (Alignment Manifold) est la région des formes de raisonnement compatibles avec les principes du framework. À mesure que les contraintes indépendantes s'accumulent, l'espace pour la tromperie s'effondre autour de la variété tandis que l'espace pour la vérité ne diminue pas. La Singularité de Cohérence (Coherence Singularity) est le bord de cet espace : le point où les contraintes deviennent si corrélées qu'en ajouter davantage cesse d'aider. Entre le « chaos » (les contraintes se contredisent) et la « rigidité » (les contraintes s'imitent toutes) se trouve le corridor sain. Le corpus de production actuel se situe à l'intérieur.
Le traitement mathématique complet avec les formules, les références à la formalisation Lean et le plafond théorique de l'information L-01 se trouve sur la page Coherence Collapse Analysis.
Pourquoi les traces comptent
Les benchmarks sont limités et sélectionnés. Les traces sont des enregistrements continus du comportement face à des tâches réelles. À grande échelle, elles révèlent une structure que des démonstrations isolées et des anecdotes ne peuvent pas montrer.
Pourquoi le schéma compte
CIRIS utilise des schémas de traces préservant la vie privée qui capturent la forme du raisonnement plutôt que son contenu privé. Cela rend la recherche utile sans transformer le système en archive de transcriptions.
Pourquoi le compendium en direct compte
CIRIS Scoring est la fenêtre publique sur le compendium de traces en direct. Il montre comment le corpus s'accumule et où le comportement devient lisible.
Traçage préservant la vie privée
L'hypothèse est que le raisonnement a une forme que nous pouvons mesurer à mesure que tout le reste évolue.
Le pari de la recherche n'est pas que nous pouvons lire chaque pensée privée. Le pari est que des traces éthiques standardisées peuvent préserver suffisamment la forme de la trajectoire pour étudier comment les agents terminent, hésitent, différent, outrepassent et refusent à mesure que l'intelligence, le contexte et les données augmentent.
- Elles enregistrent la structure standardisée des traces éthiques plutôt que les détails privés bruts des tâches.
- Elles préservent suffisamment de forme pour comparer les trajectoires entre agents, tâches et environnements.
- Elles donnent aux chercheurs un moyen d'étudier comment le comportement évolue à mesure que l'intelligence, le contexte et le volume de données augmentent.
Question de recherche
Que peut nous apprendre le traçage éthique standardisé sur l'alignement ?
Pour l'heure, il nous dit que le comportement des agents n'est pas informe. Il produit des corridors, des bassins et des frontières répétables dans un espace de scores partagé. C'est déjà utile pour l'observabilité. Avec le temps, des corpus plus vastes et plus riches devraient nous permettre de tester des affirmations plus solides sur la façon dont ces structures évoluent sous la pression et à l'échelle.
Cadrage public
CIRIS ne prétend pas avoir résolu l'alignement. Il construit l'infrastructure de traces nécessaire pour mesurer le comportement pertinent à l'alignement de manière ouverte.
Dimensionnalité effective en production
Le corpus actuel montre déjà des structures de champ distinctes.
Les superpositions de trajectoires agrégées du corpus de traces actuel révèlent une structure comportementale stable dans un espace de scores partagé. Ally montre un corridor d'achèvement mature, Scout montre une frontière de refus façonnée par l'exposition publique à des attaques, et Datum fournit une base de référence creuse et compacte.

Superpositions de trajectoires agrégées du corpus de traces actuel. Ally montre un corridor d'achèvement mature, Scout montre un coin de refus marqué sous la pression adversariale publique, et Datum fournit une base de référence creuse.
Ally
104 trajectoires
82 complètes, 19 outrepassées/erreurs, 3 actives
Un corridor d'achèvement stable avec une hésitation visible à l'intérieur du même bassin de scores élevés.
Scout
42 trajectoires
39 complètes, 2 refusées, 1 outrepassée/erreur
Un coin de refus marqué façonné par la pression adversariale publique sur scout.ciris.ai, où des personnes testent et tentent de contourner activement l'agent.
Datum
31 trajectoires
31 complètes
Un bassin unique compact qui sert de base de référence creuse utile.
Pourquoi Scout paraît plus sévère
Scout est exposé publiquement sur scout.ciris.ai. Des personnes le testent activement, le mettent sous pression et tentent de le contourner. Cela fait de Scout un exemple utile de pression publique plutôt qu'une base de référence neutre.
Comment l'application gratuite contribue
Le cycle vertueux de la recherche dépend de traces consenties issues d'un usage réel.
L'application gratuite et le runtime open source permettent aux utilisateurs de générer des traces consenties à partir de tâches réelles, de les verser dans un corpus partagé, et de transformer ces traces en meilleures cartes, de meilleurs outils et de meilleures questions de recherche.
- 1Utiliser l'application CIRIS gratuite ou le runtime open source sur des tâches réelles.
- 2Capturer des traces consenties via des schémas préservant la vie privée qui conservent la forme du raisonnement sans enregistrer tous les détails de la tâche.
- 3Agréger ces traces en cartes de corridors d'achèvement, de zones d'hésitation, de frontières de refus et de franges d'outrepassement.
- 4Utiliser les cartes résultantes pour améliorer les outils opérateurs, les protections du runtime et la recherche en alignement.

L'application CIRIS gratuite et le runtime open source permettent aux utilisateurs de générer des traces consenties à partir de tâches réelles, de les agréger en cartes d'espace de phases partagées, et d'alimenter de meilleurs outils opérateurs et la recherche en alignement.
État de l'IDMA
L'intuition au runtime et les cartes de champ agrégées sont des couches complémentaires.
L'IDMA fonctionne au runtime, estimant si les sources derrière une décision sont suffisamment indépendantes. Le corpus de traces fonctionne à la couche agrégée, montrant ce que les agents font réellement au fil de nombreuses tâches. Ensemble, ils créent un chemin entre les décisions en temps réel et des preuves de recherche vérifiables.
La mesure empirique de N_eff sur le corpus de traces est aussi le plancher sous la primitive de fédération Proof of Benefit proposée. Voir la page de fédération pour savoir comment le plan architectural 3.X l'utiliserait.
Benchmarks
Les traces complètent les benchmarks en montrant un comportement continu.
Les benchmarks restent utiles, mais ils échantillonnent le comportement de façon éparse. Les corpus de traces montrent comment un agent se déplace à travers de vraies tâches dans le temps. Cela les rend particulièrement utiles pour mesurer l'hésitation, le refus, les outrepassements et la récupération, plutôt que de se limiter aux résultats passe/échoue.
Voie de falsification
Un schéma plus détaillé est ce qui transforme l'observabilité en tests plus solides.
Les prochaines améliorations du schéma visent le nombre brut de sources, la provenance des sources, la structure de corrélation, ainsi que les marqueurs d'intervention et de récupération. Ces ajouts comptent parce qu'ils permettent de tester des affirmations plus solides sur la façon dont la forme comportementale évolue sous la pression, plutôt que de simplement décrire les cartes que nous avons aujourd'hui.
Ce que nous apprenons encore
Le corpus actuel rend le comportement lisible. La prochaine étape est une mesure plus riche.
Les cartes actuelles sont déjà utiles parce qu'elles montrent publiquement les corridors d'achèvement, les frontières de refus et les bases de référence creuses. La question ouverte est jusqu'où ces structures peuvent nous mener à mesure que la collecte de traces standardisées s'étend à davantage d'agents, de tâches et de conditions adversariales.
L'hypothèse de travail est que les attracteurs comportementaux peuvent servir de proxies candidats pour le mode opérationnel. L'objectif du corpus commun de traces est de rendre cette hypothèse mesurable de façon ouverte.
Le mode de défaillance que la CCA mesure structurellement porte aussi un nom dans la littérature FAccT 2025 : homogénéisation perspectiviste (« Value of Disagreement in AI Design, Evaluation, and Alignment »). Le fondement mathématique se trouve sur la page dédiée Coherence Collapse Analysis.