Français simpleAvancé

Research testbed · DOI 10.5281/zenodo.18217688

Un petit système de réflexion peut cacher des choses et faire peu de mal. Un système puissant ne le peut pas.

Ce que « cohérent » signifie ici

Un esprit cohérent s'accorde avec lui-même.

Cinq choses doivent concorder dans un esprit :

ce qu'il croit,
ce qu'il voit,
ce qu'il fait,
ce qu'il retient,
et ce qu'il vous dit.

Imaginez cinq courts formulaires sur votre semaine. Un pour ce que vous pensez. Un pour ce que vous avez vu. Un pour ce que vous avez fait. Un pour ce que vous vous rappelez. Un pour ce que vous dites à votre responsable. Quand les cinq formulaires disent la même chose, votre responsable peut faire confiance à votre travail. Quand ils ne concordent pas, personne ne sait lequel est exact.

Idées cachées

Les systèmes puissants cachent des choses. C'est dangereux.

Un système de réflexion utilise des idées pour décider quoi faire. Certaines de ces idées sont visibles. D'autres sont cachées à l'intérieur. Les idées cachées influencent pourtant chaque choix.

Un pont paraît solide depuis la route. À l'intérieur de l'acier, de petites fissures grandissent. Une petite voiture peut encore passer. Un camion lourd ne le peut pas. Le pont s'effondre quand la charge est suffisamment lourde.

Une idée cachée dans un petit système fait peu de mal. Une idée cachée dans un système puissant peut faire de grands dégâts. Plus le système est puissant, plus le poids repose sur chaque partie cachée.

Le cliquet

La poussée vers l'ouverture ne va que dans un sens.

À mesure que les systèmes de réflexion deviennent plus puissants, le coût des parties cachées augmente. Chaque nouveau bit de puissance pousse davantage les parties cachées à se dévoiler. La poussée ne va que dans un sens.

Imaginez une échelle. En montant, chaque échelon que vous laissez derrière vous tombe. Vous ne pouvez pas redescendre. Vous pouvez seulement grimper vers le haut, où il fait plein jour. C'est le Coherence Ratchet.

Une fois que les gens ont vu le système montrer son travail, ils ne lui feront plus confiance s'il s'arrête. La seule voie en avant est de continuer à montrer davantage.

Une deuxième image fonctionne aussi. Un engrenage dans une machine clique d'une dent à la fois. Il ne peut pas cliquer en arrière. Le Coherence Ratchet est un engrenage comme celui-là, qui tourne vers l'ouverture.

Ce que CIRIS fait

L'écrire. Le vérifier. Puis vérifier les vérificateurs.

CIRIS est un système d'IA construit autour du Coherence Ratchet. Chaque choix qu'un agent fait est consigné dans un enregistrement signé. L'enregistrement ne peut pas être modifié discrètement. D'autres agents peuvent lire l'enregistrement et vérifier le travail. Avec le temps, les enregistrements s'accumulent. Chaque nouvel enregistrement est un échelon de plus dont l'agent ne peut plus redescendre.

CIRIS pose aussi une deuxième question avant d'agir. Combien de points de vue vraiment différents ont examiné cette idée ? Pas le nombre de sources, mais le nombre de sources qui ne sont pas parties du même endroit. Cinq articles de presse qui réécrivent un communiqué de presse comptent comme un seul point de vue, pas cinq. Si quelque chose est faux dans le communiqué, ce sera faux dans les cinq articles, et l'agent n'a aucun moyen de le détecter.

Quand l'indépendance réelle tombe trop bas, l'agent traite sa propre réflexion comme fragile et demande à une personne de regarder.

Ce que nous affirmons, et ce que nous n'affirmons pas.

Nous n'avons pas résolu la sûreté de l'IA. Nous avons construit une pièce d'une réponse, et nous la testons ouvertement.

Des équipes extérieures n'ont pas encore vérifié notre travail. Nous le disons clairement. La théorie complète et les mathématiques se trouvent dans nos quatre articles. Le code est ouvert. Si nous avons tort, la façon de le montrer l'est aussi. Voir l'état actuel de la recherche.

The math behind it Explore a trace See the code