Faire confiance aux poids, ou vérifier le comportement

L'axe principal de la sécurité de l'IA cherche à rendre un modèle bon de l'intérieur: entraîner ses valeurs, étudier ses pensées, le faire débattre avec lui-même. Ce travail est important. CIRIS mise sur l'autre voie. Supposer qu'un modèle capable pourrait être mal aligné, et plutôt que de lui faire confiance, rendre ses actions importantes responsables devant des personnes et d'autres systèmes capables de les vérifier.

Dans les termes propres au domaine, CIRIS se situe dans la branche institutionnelle et de contrôle, aux côtés du contrôle de l'IA et de l'IA à sécurité garantie, et non dans l'axe principal de l'internalisation des valeurs que sont RLHF, l'IA constitutionnelle, le débat et l'interprétabilité. Sa réponse à la supervision évolutive, c'est-à-dire comment superviser quelque chose de plus intelligent que soi, est de vérifier l'enveloppe de responsabilité, pas le raisonnement. Une signature, un quorum, un audit enchaîné par hachage restent faciles à vérifier même quand la décision derrière eux est surhumaine. Le système aligne des ensembles de nombreux agents capables dans le temps, pas les valeurs d'un seul esprit.

La ligne que nous tenons

Il ne cherche pas à aligner une IA toute-puissante. C'est voulu.

La responsabilité nécessite plus d'une partie. Quelqu'un à qui répondre. Un moyen de vérification qui ne peut pas être discrètement absorbé. Un équilibre des pouvoirs qu'aucun camp ne peut capturer. Une super-intelligence unique n'a aucun de ces éléments, il n'existe donc pas de moyen honnête de lui demander des comptes. CIRIS est conçu pour l'autre avenir: de nombreux agents capables, des personnes et des organisations dont toutes les décisions importantes sont indépendamment vérifiables.

La position est donc explicite. Un ASI singleton n'est pas un système à aligner mais une condition à prévenir. Concentrer une capacité surhumaine en un seul endroit non responsable, à ce stade du développement institutionnel humain, est illégitime, car aucune institution n'est assez mûre pour lui demander des comptes, ce qui est précisément le danger. Dans les termes propres au cadre, un singleton est l'effondrement en voix unique ρ→1 que le modèle de corridor nomme comme un échec de coordination, et non un succès. Que nos garanties tiennent dans une fédération et s'érodent face à un singleton n'est pas une lacune que nous corrigeons. C'est le régime que nous refusons de légitimer, tenu comme un engagement, pas seulement une prédiction.

Travaux connexes, honnêtement

Chaque voisin proche remplit certaines cases. Une seule ligne les remplit toutes.

CIRIS a de véritables pairs intellectuels, chacun solide dans son domaine. Le but de ce tableau n'est pas que les idées soient inédites. C'est que presque personne n'a construit et livré l'ensemble de la pile comme un seul système responsable. Chaque ligne ci-dessous représente une vraie tradition qui mérite d'être lue. Seule la dernière ligne coche chaque colonne, et cette intégration est la thèse centrale.

Approche	Travaux les plus proches	Mécanisme	Exécution, pas entraînement	Signe la décision	Constitution d'exécution	Vérification fédérée	Conformité exécutable	En production
La thèse institutionnelle	Gillian Hadfield	Infrastructure normative et marchés réglementaires, comme théorie et politique	Théorie	Non	Théorie	Théorie	Non	Non
Graphes de gouvernance	IA institutionnelle (Pierucci et al.)	Graphes publics d'états juridiques et de sanctions, comme prototype de recherche	Recherche	Non	Recherche	Non	Non	Non
Gouvernance constitutionnelle sur chaîne	AgentCity (Ruan, Zhang)	Séparation des pouvoirs sous forme de contrats intelligents, pré-enregistrés sur un réseau de test	Recherche	Partiel	Recherche	Non	Non	Non
Supposer que le modèle est mal aligné	Redwood Research (contrôle de l'IA)	Surveillance et tests offensifs au sein d'un seul déploiement	Oui	Non	Non	Non	Recherche	Recherche
Sûreté prouvable, externalisée	davidad, Bengio, la lignée GS-AI	Preuves formelles sur des modèles du monde	Partiel	Non	Théorie	Théorie	Recherche	Non
Constitution à l'entraînement	IA constitutionnelle Anthropic	Valeurs entraînées dans les poids, une seule organisation	Non	Non	Non	Non	Non	Oui
Provenance cryptographique	C2PA, zkML (EZKL, Giza)	Signer la provenance des médias, prouver qu'une inférence a été exécutée	Oui	Partiel	Non	Partiel	Partiel	Oui
DAG de raisonnement signé	Proof of Insight (Arclio)	Un graphe signé des étapes de dérivation de l'IA, comme brouillon de spécification	Non	Partiel	Non	Théorie	Théorie	Non
Inférence attestée par le matériel	Phala, Marlin, Attestable Audits	Exécute une inférence dans une enclave sécurisée qui signe la sortie	Oui	Partiel	Non	Partiel	Non	Partiel
Identité décentralisée et fédération	atproto, Bittensor	Fédération sociale ou de calcul, sans couche de conscience	Partiel	Non	Non	Partiel	Partiel	Oui
Protocoles d'agents	MCP, A2A	Interopérabilité des outils et des agents, sans gouvernance	Oui	Non	Non	Non	Partiel	Oui
Suites d'évaluation de sécurité et de conformité	MLCommons, METR, HarmBench	Benchmarks exécutables qui évaluent le comportement du modèle, pas les décisions	Non	Non	Non	Non	Partiel	Oui
Audit tiers et fédéré	Réseau AISI, GovAI	Des instituts indépendants testent conjointement les systèmes déployés	Partiel	Non	Non	Oui	Non	Partiel
CIRIS	Ce système	Pipeline de conscience vers des artefacts signés, constitution d'exécution, fédération post-quantique	Oui	Oui	Oui	Oui	Oui	Oui

Cartographié à partir de travaux publics à partir de juin 2026, chaque ligne citée ci-dessous. Si nous avons mal représenté un voisin proche, dites-le nous et nous corrigerons la ligne.

Sources

02IA grand public

Comment CIRIS se compare à l'IA que vous utilisez vraiment

Les assistants du quotidien sont puissants et faciles à utiliser. Ils fonctionnent aussi dans le cloud de quelqu'un d'autre, ne gardent aucune trace que vous pouvez vérifier, et ne répondent à personne que vous pouvez nommer. Voici le même test de responsabilité, appliqué à l'IA que la plupart des gens ouvrent chaque jour.

Assistant	Principes publiés	Preuve de ce qu'il a fait	Demande à un humain en cas de doute	Code source ouvert	Contrôle anti-chambre d'écho
ChatGPT	Oui	Non	Non	Non	Non
Gemini	Oui	Non	Non	Non	Non
Claude	Oui	Non	Non	Non	Non
CIRIS	Oui	Oui	Oui	Oui	Oui

Comparé sur le comportement public des produits en juin 2026. Chaque lien vers les principes renvoie à la spécification publiée par l'entreprise elle-même.

La plupart du domaine aligne le modèle. CIRIS construit les institutions autour de lui.

Faire confiance aux poids, ou vérifier le comportement

Il ne cherche pas à aligner une IA toute-puissante. C'est voulu.

Comment CIRIS se compare à l'IA que vous utilisez vraiment

Essayez par vous-même

Observez-la raisonner

Vérifiez son identité

Démarrer