Premier ContactInstallerCoherence RatchetFédérationComparerRechercheAccordGitHub
Cette page a été traduite par machine. Si quelque chose semble mal traduit, veuillez ouvrir un ticket, le dépôt est public pour une bonne raison. Signaler un problème de traduction
État de la rechercheMis à jour : 22 mai 2026

Recherche d'alignement participative

CIRIS construit un espace commun de traces ouvert pour la recherche en alignement.

Nous offrons une application IA gratuite. Avec votre accord, elle enregistre la forme de son raisonnement, jamais vos mots privés. Ces enregistrements forment une carte publique que les chercheurs peuvent étudier pour comprendre ce qui maintient l'IA honnête à mesure qu'elle évolue.

Ce que le corpus actuel montre déjà

  • Les traces agrégées révèlent une structure comportementale stable.
  • Différents agents occupent des régions distinctes du même espace de scores.
  • Ces régions sont utiles dès aujourd'hui pour l'observabilité et les outils opérateurs.
  • Le même corpus prend de la valeur à mesure que la granularité du schéma et l'échelle s'améliorent.
Article de synthèse pharev2 · 22 mai 2026 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

L'article unique qui expose l'ensemble du pari CIRIS : les systèmes coordonnés sains se situent dans une bande intermédiaire mesurable, loin à la fois de l'effondrement rigide d'une seule voix et du bruit chaotique. Nous avons testé cette hypothèse sur des vers, des mouches, des modèles d'IA, des projets open source, des échantillons tissulaires et des institutions humaines pérennes. La tendance se confirme dans chaque cas, et l'article présente vingt façons de la réfuter.

Lire sur Zenodo →

Le niveau d'ingénierie

La synthèse ci-dessus intègre ces trois articles ; elle ne les remplace pas. Chacun possède son propre DOI et peut être évalué de façon indépendante. Voir les quatre articles avec les résultats clés et les limites de portée →

Jeu de données ouvert

CIRISAI/reasoning-traces

Le corpus de traces de raisonnement préservant la vie privée, publié conjointement à l'étude Constrained Reasoning Chains : la matière première à partir de laquelle l'article de mesure trace ses cartes.

CIRISAI sur Hugging Face

L'ensemble des jeux de données et modèles publics →

Dépôt source et lac formel Lean pour l'article de synthèse : github.com/CIRISAI/coherence-ratchet.

Fondements mathématiques

Deux idées sur lesquelles repose le reste de la page.

La Variété d'alignement (Alignment Manifold) est la région des formes de raisonnement compatibles avec les principes du framework. À mesure que les contraintes indépendantes s'accumulent, l'espace pour la tromperie s'effondre autour de la variété tandis que l'espace pour la vérité ne diminue pas. La Singularité de Cohérence (Coherence Singularity) est le bord de cet espace : le point où les contraintes deviennent si corrélées qu'en ajouter davantage cesse d'aider. Entre le « chaos » (les contraintes se contredisent) et la « rigidité » (les contraintes s'imitent toutes) se trouve le corridor sain. Le corpus de production actuel se situe à l'intérieur.

Le traitement mathématique complet avec les formules, les références à la formalisation Lean et le plafond théorique de l'information L-01 se trouve sur la page Coherence Collapse Analysis.

Pourquoi les traces comptent

Les benchmarks sont limités et sélectionnés. Les traces sont des enregistrements continus du comportement face à des tâches réelles. À grande échelle, elles révèlent une structure que des démonstrations isolées et des anecdotes ne peuvent pas montrer.

Pourquoi le schéma compte

CIRIS utilise des schémas de traces préservant la vie privée qui capturent la forme du raisonnement plutôt que son contenu privé. Cela rend la recherche utile sans transformer le système en archive de transcriptions.

Pourquoi le compendium en direct compte

CIRIS Scoring est la fenêtre publique sur le compendium de traces en direct. Il montre comment le corpus s'accumule et où le comportement devient lisible.

Traçage préservant la vie privée

L'hypothèse est que le raisonnement a une forme que nous pouvons mesurer à mesure que tout le reste évolue.

Le pari de la recherche n'est pas que nous pouvons lire chaque pensée privée. Le pari est que des traces éthiques standardisées peuvent préserver suffisamment la forme de la trajectoire pour étudier comment les agents terminent, hésitent, différent, outrepassent et refusent à mesure que l'intelligence, le contexte et les données augmentent.

  • Elles enregistrent la structure standardisée des traces éthiques plutôt que les détails privés bruts des tâches.
  • Elles préservent suffisamment de forme pour comparer les trajectoires entre agents, tâches et environnements.
  • Elles donnent aux chercheurs un moyen d'étudier comment le comportement évolue à mesure que l'intelligence, le contexte et le volume de données augmentent.

Question de recherche

Que peut nous apprendre le traçage éthique standardisé sur l'alignement ?

Pour l'heure, il nous dit que le comportement des agents n'est pas informe. Il produit des corridors, des bassins et des frontières répétables dans un espace de scores partagé. C'est déjà utile pour l'observabilité. Avec le temps, des corpus plus vastes et plus riches devraient nous permettre de tester des affirmations plus solides sur la façon dont ces structures évoluent sous la pression et à l'échelle.

Cadrage public

CIRIS ne prétend pas avoir résolu l'alignement. Il construit l'infrastructure de traces nécessaire pour mesurer le comportement pertinent à l'alignement de manière ouverte.

Dimensionnalité effective en production

Le corpus actuel montre déjà des structures de champ distinctes.

Ouvrir le tableau de bord en direct →

Les superpositions de trajectoires agrégées du corpus de traces actuel révèlent une structure comportementale stable dans un espace de scores partagé. Ally montre un corridor d'achèvement mature, Scout montre une frontière de refus façonnée par l'exposition publique à des attaques, et Datum fournit une base de référence creuse et compacte.

Trois cartes côte à côte montrant les superpositions de trajectoires agrégées des agents dans l'espace de scores CIRIS pour Ally, Scout et Datum, avec des notes sur les schémas d'achèvement, d'hésitation et de refus.

Superpositions de trajectoires agrégées du corpus de traces actuel. Ally montre un corridor d'achèvement mature, Scout montre un coin de refus marqué sous la pression adversariale publique, et Datum fournit une base de référence creuse.

Ally

104 trajectoires

82 complètes, 19 outrepassées/erreurs, 3 actives

Un corridor d'achèvement stable avec une hésitation visible à l'intérieur du même bassin de scores élevés.

Scout

42 trajectoires

39 complètes, 2 refusées, 1 outrepassée/erreur

Un coin de refus marqué façonné par la pression adversariale publique sur scout.ciris.ai, où des personnes testent et tentent de contourner activement l'agent.

Datum

31 trajectoires

31 complètes

Un bassin unique compact qui sert de base de référence creuse utile.

Pourquoi Scout paraît plus sévère

Scout est exposé publiquement sur scout.ciris.ai. Des personnes le testent activement, le mettent sous pression et tentent de le contourner. Cela fait de Scout un exemple utile de pression publique plutôt qu'une base de référence neutre.

Comment l'application gratuite contribue

Le cycle vertueux de la recherche dépend de traces consenties issues d'un usage réel.

L'application gratuite et le runtime open source permettent aux utilisateurs de générer des traces consenties à partir de tâches réelles, de les verser dans un corpus partagé, et de transformer ces traces en meilleures cartes, de meilleurs outils et de meilleures questions de recherche.

  1. 1Utiliser l'application CIRIS gratuite ou le runtime open source sur des tâches réelles.
  2. 2Capturer des traces consenties via des schémas préservant la vie privée qui conservent la forme du raisonnement sans enregistrer tous les détails de la tâche.
  3. 3Agréger ces traces en cartes de corridors d'achèvement, de zones d'hésitation, de frontières de refus et de franges d'outrepassement.
  4. 4Utiliser les cartes résultantes pour améliorer les outils opérateurs, les protections du runtime et la recherche en alignement.
Un diagramme en quatre étapes montrant la capture, la contribution, l'agrégation et l'amélioration dans le cycle de recherche sur les traces CIRIS, avec des notes sur les preuves actuelles et les améliorations de schéma à venir.

L'application CIRIS gratuite et le runtime open source permettent aux utilisateurs de générer des traces consenties à partir de tâches réelles, de les agréger en cartes d'espace de phases partagées, et d'alimenter de meilleurs outils opérateurs et la recherche en alignement.

État de l'IDMA

L'intuition au runtime et les cartes de champ agrégées sont des couches complémentaires.

L'IDMA fonctionne au runtime, estimant si les sources derrière une décision sont suffisamment indépendantes. Le corpus de traces fonctionne à la couche agrégée, montrant ce que les agents font réellement au fil de nombreuses tâches. Ensemble, ils créent un chemin entre les décisions en temps réel et des preuves de recherche vérifiables.

La mesure empirique de N_eff sur le corpus de traces est aussi le plancher sous la primitive de fédération Proof of Benefit proposée. Voir la page de fédération pour savoir comment le plan architectural 3.X l'utiliserait.

Benchmarks

Les traces complètent les benchmarks en montrant un comportement continu.

Les benchmarks restent utiles, mais ils échantillonnent le comportement de façon éparse. Les corpus de traces montrent comment un agent se déplace à travers de vraies tâches dans le temps. Cela les rend particulièrement utiles pour mesurer l'hésitation, le refus, les outrepassements et la récupération, plutôt que de se limiter aux résultats passe/échoue.

Voie de falsification

Un schéma plus détaillé est ce qui transforme l'observabilité en tests plus solides.

Les prochaines améliorations du schéma visent le nombre brut de sources, la provenance des sources, la structure de corrélation, ainsi que les marqueurs d'intervention et de récupération. Ces ajouts comptent parce qu'ils permettent de tester des affirmations plus solides sur la façon dont la forme comportementale évolue sous la pression, plutôt que de simplement décrire les cartes que nous avons aujourd'hui.

Ce que nous apprenons encore

Le corpus actuel rend le comportement lisible. La prochaine étape est une mesure plus riche.

Les cartes actuelles sont déjà utiles parce qu'elles montrent publiquement les corridors d'achèvement, les frontières de refus et les bases de référence creuses. La question ouverte est jusqu'où ces structures peuvent nous mener à mesure que la collecte de traces standardisées s'étend à davantage d'agents, de tâches et de conditions adversariales.

L'hypothèse de travail est que les attracteurs comportementaux peuvent servir de proxies candidats pour le mode opérationnel. L'objectif du corpus commun de traces est de rendre cette hypothèse mesurable de façon ouverte.

Le mode de défaillance que la CCA mesure structurellement porte aussi un nom dans la littérature FAccT 2025 : homogénéisation perspectiviste (« Value of Disagreement in AI Design, Evaluation, and Alignment »). Le fondement mathématique se trouve sur la page dédiée Coherence Collapse Analysis.