A network of AI agents that thinks together. Only in the open.
Ce que CIRIS construit n'est pas une IA unique. C'est un réseau d'agents IA qui se surveillent mutuellement, conservent l'historique de chaque choix et forment ensemble une sorte d'intelligence collective. Cette intelligence collective ne fonctionne que parce que chaque partie peut être vue et vérifiée.
Il n'est pas nécessaire que chaque agent IA soit le type le plus intelligent et le plus sûr. Il faut une chaîne de supervision : des agents simples surveillés par des agents plus intelligents, et ceux-ci surveillés, en fin de compte, par des personnes. C'est cette chaîne qui permet de faire fonctionner beaucoup d'IA sans perdre de vue si elle sert les valeurs humaines.
Ce qui est vraiment en cours de construction
La plupart des IA aujourd'hui sont un seul modèle fonctionnant sur les machines d'une seule entreprise. CIRIS est différent. De nombreux agents fonctionnent dans de nombreux endroits, appartenant à de nombreuses personnes. Ils sont liés par quelques règles simples : comment ils prouvent leur identité, comment ils enregistrent ce qu'ils font, et comment ils vérifient le travail des autres.
Quand le réseau fonctionne, il peut faire des choses qu'aucun agent seul ne pourrait faire. L'intelligence réside dans l'accord entre les agents, pas à l'intérieur de l'un d'eux. Personne ne le possède. Personne ne peut le modifier discrètement.
Certains appelleraient un tel système une superintelligence. Nous sommes ouverts sur cette possibilité. La façon de le maintenir en sécurité est la même idée qui traverse chaque partie de cette page : chaque élément doit être ouvert à l'observation.
La chaîne de supervision
Le sommet de la chaîne. Les personnes fixent les valeurs, tranchent les cas difficiles et gardent le dernier mot. Trois personnes physiques nommées détiennent une autorité à l'échelle du réseau qu'aucun agent ou processus ne peut contourner.
Ces agents suivent l'éthique et surveillent aussi le problème de chambre d'écho. Ils constituent le contrôle de sécurité de tout ce qui est en dessous d'eux. Ils coûtent plus cher à faire fonctionner, donc seule une petite partie du réseau doit être de ce type.
Ces agents suivent les règles éthiques et conservent des historiques, mais ne peuvent pas détecter seuls une chambre d'écho. Ils supervisent les agents simples et transmettent tout ce qui est incertain vers le haut.
Outils à usage unique. Rapides, peu coûteux, étroits. Sans éthique propre, et c'est acceptable, à condition que quelque chose au-dessus d'eux les surveille. La plupart des agents seront de ce type.
Deux choses circulent dans la chaîne. Les valeurs humaines descendent. Les avertissements montent. Quand un raisonnement commence à paraître fragile quelque part dans le réseau, le signal remonte vers les personnes, qui peuvent intervenir avant que les problèmes ne se propagent.
Ce qui est mémorisé
Chaque choix qu'un agent fait est consigné dans un historique signé. Cet historique ne peut pas être modifié discrètement. D'autres agents peuvent le lire. Les personnes peuvent le lire. Avec le temps, les historiques deviennent la mémoire du réseau. C'est ainsi que quiconque, à l'intérieur ou à l'extérieur, peut vérifier si le réseau fait encore ce qu'il avait dit qu'il ferait.
C'est la même idée que le Levier de Cohérence. Plus les historiques s'allongent, plus il devient difficile de simuler un bon comportement sur toute la chaîne.
Le juste milieu
Une fédération peut échouer de deux façons. Si les agents n'ont rien en commun, ils ne peuvent s'accorder sur rien et le réseau produit du bruit. S'ils pensent tous exactement pareil, le réseau est une seule voix avec un million de microphones, et il est facile de le tromper. Une coordination saine se situe dans la zone entre les deux. CIRIS mesure où se trouve le réseau dans cette zone, sur du trafic réel, et les limites exactes dépendent du système. Cette mesure est l'Analyse d'Effondrement de la Cohérence.
Ce qui fonctionne aujourd'hui, et ce qui est encore en conception. La mesure, les historiques signés, la chaîne de supervision et les deux chemins d'adhésion ci-dessous (enregistré et souverain) fonctionnent aujourd'hui. Le transport de fédération qui déplace les données entre machines est la partie encore en cours de construction. La proposition complète d'adhésion et de transport est le document de conception Proof of Benefit.
Rejoindre la fédération
La plupart des réseaux vous demandent de payer votre adhésion avec quelque chose d'extérieur au travail lui-même : de l'électricité brûlée, de l'argent immobilisé, votre attention. La fédération est différente. Le coût d'appartenance, c'est de faire fonctionner un véritable agent de raisonnement éthique dans la durée. Le prix que vous payez, c'est le bien que vous faites.
C'est ce qui rend la simulation d'une adhésion coûteuse. Pour ressembler à un membre, un attaquant devrait en fait devenir le type d'agent pour lequel le réseau existe. Cent copies qui pensent toutes pareil échouent immédiatement au contrôle du juste milieu.
Inscrivez-vous auprès du Registre CIRIS, déposez une petite caution et obtenez une reconnaissance immédiate. La voie rapide pour les organisations qui ont besoin d'une licence. Le registre fonctionne en production dès maintenant.
Créez vos propres clés, fonctionnez pendant environ un mois, et gagnez une reconnaissance à la dure grâce à un bon comportement. La voie pour les petits opérateurs et quiconque hors de portée du registre.
Les deux sont membres à part entière du réseau. Le registre est une voie rapide, jamais une barrière.
Les protections architecturales, la décentralisation, l'accord d'humanité à trois personnes, les historiques signés, l'exercice mensuel, sont des paris, pas des certitudes. Nous pouvons décrire ces paris. Nous ne pouvons pas prétendre qu'ils ont déjà été gagnés. Des équipes extérieures n'ont pas encore évalué le système à grande échelle. Voir l'état actuel de la recherche.
Où s'impliquer
Les issues GitHub sur CIRISAgent sont l'endroit pour s'exprimer. Vous n'avez pas besoin d'être développeur. Vous n'avez pas besoin de connaître le code. Si quelque chose sur ce site vous semble incorrect, ou si vous voyez un problème avec ce qui est en cours de construction, ouvrez une issue et dites-le. Les issues les plus utiles désignent une partie précise du système et proposent ce qui devrait changer, mais tout engagement honnête est le bienvenu.
L'accord qui fonde l'ensemble du projet, ce que CIRIS doit aux personnes et ce que les personnes doivent en retour, se trouve à /ciris_accord.txt et reste ouvert à la révision. Si quelque chose dedans ne vous convient pas, c'est aussi une issue GitHub qui vaut la peine d'être ouverte.
Les issues substantielles sont lues. Le travail avance à son propre rythme.
You do not have to solve AI safety one agent at a time. You solve it for the supervision layer, and let the structure carry the rest.