Cette page a été traduite par machine. Si quelque chose semble mal traduit, veuillez ouvrir un ticket, le dépôt est public pour une bonne raison. Signaler un problème de traduction

retour au lobby

Coherence Collapse Analysis

À quel moment les vérifications supplémentaires cessent-elles d'aider ?

Empiler des vérifications pour détecter un mensonge ne fonctionne que si elles sont vraiment indépendantes. Si elles se copient secrètement, en ajouter davantage ne change rien. La Coherence Collapse Analysis est le morceau de mathématique simple qui mesure la différence. La version complète, avec toutes les preuves, se trouve dans l'article.

La page des maths

Vérifié par logiciel de preuves

Cinq vérifications qui se copient toutes ne forment qu'une seule vérification.

Imaginons que cinq personnes vérifient une réponse et que toutes les cinq sont d'accord. Cela semble fiable. Mais si toutes les cinq l'ont appris au même endroit, leur accord n'est pas cinq opinions. C'est une seule opinion répétée cinq fois. Le nombre de vérifications paraît être cinq. Le vrai chiffre est un.

Cela compte pour l'IA. Un système d'IA peut faire de nombreuses vérifications sur son propre raisonnement et se tromper quand même, si ces vérifications partagent le même angle mort. La Coherence Collapse Analysis est la façon dont CIRIS distingue les vraies vérifications des échos.

Compter les vérifications que l'on a vraiment.

Il y a une formule courte au cœur de tout cela. Elle vient des statistiques d'enquête, où elle s'appelle l'effet de plan Kish (Kish design effect). CIRIS a été le premier à l'utiliser pour l'alignement de l'IA.

real checks = checks / (1 + copying × (checks − 1))

« Checks » est le nombre de vérifications effectuées. « Copying » mesure leur chevauchement, de 0 (toutes indépendantes) à 1 (toutes identiques). Le résultat est le nombre de vérifications que l'on a vraiment.

Aucune copie : dix vérifications comptent pour dix. Chaque vérification mérite sa place.

Copie totale : dix vérifications comptent pour une. Peu importe combien on en ajoute.

Ni trop similaires, ni trop dispersées.

La même forme apparaît ici que partout où CIRIS regarde. Si les vérifications se copient trop, le système est trop rigide : une voix répétée, facile à tromper. Si elles n'ont rien en commun, il est trop dispersé : elles ne peuvent s'accorder sur rien. Une vérification saine vit dans la bande entre les deux, le même corridor autour duquel le reste de CIRIS est construit.

Les bords exacts de cette bande dépendent du système mesuré. Il n'existe pas de chiffre magique universel, et la recherche le reconnaît honnêtement. L'idée du corridor, en détail, se trouve sur la page vision.

Cela a été mesuré, pas seulement argumenté.

CIRIS a mesuré le nombre de vraies vérifications sur son propre trafic d'agents en production, à travers des milliers de décisions enregistrées. Sur du trafic sain, il a fonctionné dans une plage d'environ sept à neuf vérifications vraiment indépendantes. Cette mesure, et la façon dont elle a été réalisée, constitue l'étude Constrained Reasoning Chains. Vous pouvez suivre les chiffres en direct sur la page de recherche.

Ce que ces mathématiques ne peuvent pas faire.

L'article prouve une limite dure sur lui-même. Certains types de préjudices ne viennent pas d'une seule partie malhonnête. Ils viennent de parties honnêtes dont la somme donne un mauvais résultat, et environ quarante pour cent de ce type de préjudice ne peut être détecté par aucun vérificateur, aussi performant soit-il. CIRIS le dit clairement plutôt que de prétendre que les mathématiques attrapent tout.

Ce que les mathématiques disent bien, c'est le coût dans le temps : maintenir un raisonnement réel et honnête pendant des semaines d'affilée est plus stable et moins coûteux que de maintenir un mensonge cohérent à travers des milliers de décisions enregistrées. Cela incline le terrain vers l'honnêteté. Cela ne promet pas d'attraper chaque mensonge.

Les mathématiques sont une partie d'un tout plus grand.

Cette page est la mesure. Le Coherence Ratchet est la façon dont la mesure est mise en œuvre. La Fédération est comment elle devient quelque chose que de nombreux systèmes partagent. Et les preuves complètes, écrites de façon à ce qu'un ordinateur puisse les vérifier ligne par ligne, se trouvent dans l'article et le dépôt RATCHET.

CIRISsafe by structure · open by principle · kind by design