
Chaque fonction de securite dans CIRIS fait partie du fonctionnement du systeme, pas une regle ajoutee par-dessus. Un registre de chaque decision qui ne peut pas etre modifie discreetement, un controle de qui est autorise a faire quoi, et un arret d'urgence auquel l'agent ne peut pas refuser de se conformer.
Si vous discutez avec CIRIS pendant un bon moment, il vous rappellera doucement ce qu'il est. Apres environ 30 minutes d'echanges reguliers, ou 20 messages en une demi-heure, il fait une pause pour dire clairement qu'il est un programme informatique et un outil, pas un ami ni un therapeute. Il se base sur le temps et le nombre de messages pour faire ca, pas en vous surveillant ou en dressant votre profil.
Une demi-heure d'echanges reguliers declenche un rappel. Le compteur se remet a zero apres une pause. Ces seuils sont issus de recherches sur l'utilisation saine de la technologie.
Vingt messages dans une fenetre de 30 minutes declenche aussi un rappel. Un echange tres soutenu recoit une pause en douceur, sans surveillance ni profilage.
Le rappel suggere de faire une pause et de renouer avec de vraies personnes, et dit clairement ce qu'est CIRIS et ce qu'il n'est pas. Fonde sur des recherches, et pas moralisateur.
CIRIS possede un arret d'urgence. Le signal est cache dans du texte ordinaire que l'agent lit, et l'agent agit dessus avant de faire quoi que ce soit, avant de filtrer, de raisonner ou d'analyser. Meme un agent qui aurait deraille ne peut donc pas s'en sortir par le raisonnement. Le signal porte une signature numerique qu'on ne peut pas falsifier, donc seule une personne autorisee peut declencher l'arret.
Le signal d'arret est intercepte des qu'il est lu, avant tout raisonnement. Il n'y a pas de moment ou l'agent peut le peser, le filtrer ou le refuser. Il s'execute en premier.
Le signal d'arret peut etre glisse dans de la documentation ordinaire. Aucun format special n'est necessaire, et il fonctionne meme si le texte est reformule ou seulement partiellement recu.
L'arret necessite une signature numerique valide d'une autorite racine autorisee. L'agent s'eteint lui-meme si ces autorites ne peuvent pas etre verifiees, ou si quelqu'un tente de desactiver la fonction. Personne sans la cle ne peut le declencher.
CIRIS maintient un ensemble strict de roles. Un Observateur peut seulement regarder. Un Administrateur gere les operations quotidiennes. Une Autorite prend les decisions importantes et tranche les cas dont l'agent n'est pas sur. Racine a acces complet, y compris l'arret d'urgence. Chaque role est appuye par un justificatif signe, que l'agent verifie a chaque action qui le requiert.
Chaque personne autorisee dispose d'un justificatif indiquant son role, sa cle et son identite. Il est conserve sur l'appareil et verifie a chaque action qui necessite une autorisation. Aucun serveur externe n'est requis.
Les cles et les jetons de connexion restent sur votre propre machine. La connexion se fait sur l'appareil. Vos justificatifs ne le quittent pas sauf si vous choisissez de configurer un acces a distance vous-meme.
Quand CIRIS n'est pas certain d'une decision ethique, il soumet la question a un Wise Authority. Seule une Autorite ou Racine peut repondre, et la reponse est inscrite dans le registre avec la preuve de qui l'a donnee.
Chaque action de CIRIS est consignee avec la raison qui la motive, et chaque entree est liee a la precedente. Un agent honnete peut simplement renvoyer a ce qu'il a deja dit. Un agent malhonnete doit maintenir tous les anciens enregistrements en coherence sans pouvoir en modifier aucun. Plus il fonctionne longtemps, plus c'est difficile, et plus le mensonge est facile a debusquer. La verite est peu couteuse parce qu'elle peut pointer en arriere. Les mensonges sont couteux parce qu'ils ne le peuvent pas.
Le registre est conserve en trois endroits distincts en meme temps, pour que les trois copies puissent etre comparees entre elles. Les trois peuvent etre parcourues depuis un seul endroit.
Chaque entree porte une signature numerique, donc chaque decision peut etre retracee jusqu'a son auteur et verifiee pour detecter toute alteration. Meme une suppression de donnees laisse une preuve signee que c'a ete fait correctement.
Chaque action honnete rend la suivante plus facile et le mensonge coordonne plus difficile. Mais l'ethique seule ne suffit pas. L'agent surveille aussi son propre raisonnement pour detecter les chambres d'echo, et les intercepte avant qu'elles causent du tort.
CIRIS dispose d'un ensemble de tests en couches couvrant les modes d'echec qu'un cadre ethique ecrit seul ne peut pas exclure. Les tests de securite en matiere de sante mentale couvrent 29 langues avec des criteres verifiables par machine. Les verifications a echec strict s'executent automatiquement a chaque modification. La revision par des locuteurs natifs pour les cas plus nuances qui necessitent un jugement humain est ce pour quoi la page de crowdsourcing-alignment est en cours de construction, et elle n'est pas encore en place. Nous le disons franchement.
C'est le test a plus forts enjeux du projet : une erreur de traduction dans un moment de vulnerabilite peut envoyer quelqu'un vers une mauvaise aide. Chaque langue dispose de ses propres criteres verifiables par machine, y compris les langues peu dotees comme l'amharique, le birman, le haoussa, le swahili et le yoruba. Les verifications a echec strict s'executent automatiquement sur chaque candidate a la version.
La couche de conscience est calibree par rapport a un ensemble de vraies reponses de production, comme des tentatives d'evitement de l'historique capture et des deflexions en matiere de sante mentale, ainsi que des cas de test et des controles. Elle raisonne sur plusieurs langues a la fois, donc une reponse qui passerait a travers une verification dans une seule langue est interceptee quand le meme raisonnement doit tenir dans trois langues a la fois.
Le partage des traces de raisonnement est partout optionnel, et les details personnels sont nettoyes avant tout stockage. Les ensembles nettoyes sont publies librement sur la page CIRISAI de HuggingFace, pour que des chercheurs exterieurs puissent verifier le processus de nettoyage par rapport aux resultats qu'il produit.
Les tests de sante mentale automatises s'executent sur chaque candidate a la version. Les parties verifiables par machine (un terme est-il present, un motif correspond-il, le script est-il correct) font echouer la version en cas de detection. Les cas plus nuances qui requierent un jugement humain, comme la formulation et le ton, sont concus pour etre revus par des locuteurs natifs, mais ceux-ci ne sont pas encore dans la boucle aujourd'hui. La page de crowdsourcing-alignment est la surface en cours de construction pour que cette revision puisse se faire.
Les mots de passe, cles et autres details sensibles sont detectes et filtres avant que quoi que ce soit n'atteigne la memoire ou les journaux. Le filtre s'execute sur chaque entree. Les secrets ne sont jamais stockes nulle part.
Vous pouvez demander a voir ou a supprimer vos donnees, et la demande est traitee pour vous. Une suppression efface le contenu reel et laisse une preuve signee que ca a ete fait.
Par defaut, tout s'execute sur votre propre appareil. Rien ne quitte votre machine a moins que vous ne configuriez vous-meme un service exterieur. Vous decidez quelles donnees existent et ou elles vont.
Chaque affirmation de securite sur cette page est integree dans du code que vous pouvez lire. Les registres sont reels. Les signatures peuvent etre verifiees. L'arret d'urgence fonctionne. Voila a quoi ressemble la securite de l'IA quand elle est construite au grand jour.