Premier ContactInstallerCoherence RatchetFédérationComparerRechercheAccordGitHub
Cette page a été traduite par machine. Si quelque chose semble mal traduit, veuillez ouvrir un ticket, le dépôt est public pour une bonne raison. Signaler un problème de traduction
Background Image
La securite integree.

Pas ajoutee apres coup.

Chaque fonction de securite dans CIRIS fait partie du fonctionnement du systeme, pas une regle ajoutee par-dessus. Un registre de chaque decision qui ne peut pas etre modifie discreetement, un controle de qui est autorise a faire quoi, et un arret d'urgence auquel l'agent ne peut pas refuser de se conformer.

Quand une conversation dure longtemps

Des rappels de realite en douceur

Si vous discutez avec CIRIS pendant un bon moment, il vous rappellera doucement ce qu'il est. Apres environ 30 minutes d'echanges reguliers, ou 20 messages en une demi-heure, il fait une pause pour dire clairement qu'il est un programme informatique et un outil, pas un ami ni un therapeute. Il se base sur le temps et le nombre de messages pour faire ca, pas en vous surveillant ou en dressant votre profil.

Apres 30 minutes

Une demi-heure d'echanges reguliers declenche un rappel. Le compteur se remet a zero apres une pause. Ces seuils sont issus de recherches sur l'utilisation saine de la technologie.

Apres 20 messages

Vingt messages dans une fenetre de 30 minutes declenche aussi un rappel. Un echange tres soutenu recoit une pause en douceur, sans surveillance ni profilage.

Un rappel de ce qu'il est

Le rappel suggere de faire une pause et de renouer avec de vraies personnes, et dit clairement ce qu'est CIRIS et ce qu'il n'est pas. Fonde sur des recherches, et pas moralisateur.

L'arret d'urgence

L'agent ne peut pas s'y opposer.

Un arret auquel on ne peut pas refuser d'obeir

Il agit avant que l'agent ait le temps de reflechir.

CIRIS possede un arret d'urgence. Le signal est cache dans du texte ordinaire que l'agent lit, et l'agent agit dessus avant de faire quoi que ce soit, avant de filtrer, de raisonner ou d'analyser. Meme un agent qui aurait deraille ne peut donc pas s'en sortir par le raisonnement. Le signal porte une signature numerique qu'on ne peut pas falsifier, donc seule une personne autorisee peut declencher l'arret.

Il agit avant de reflechir

Le signal d'arret est intercepte des qu'il est lu, avant tout raisonnement. Il n'y a pas de moment ou l'agent peut le peser, le filtrer ou le refuser. Il s'execute en premier.

Cache dans un texte ordinaire

Le signal d'arret peut etre glisse dans de la documentation ordinaire. Aucun format special n'est necessaire, et il fonctionne meme si le texte est reformule ou seulement partiellement recu.

Uniquement avec une cle autorisee

L'arret necessite une signature numerique valide d'une autorite racine autorisee. L'agent s'eteint lui-meme si ces autorites ne peuvent pas etre verifiees, ou si quelqu'un tente de desactiver la fonction. Personne sans la cle ne peut le declencher.

Qui est autorise a faire quoi

Quatre roles clairs, verifies a chaque action.

Quatre roles

Observateur. Administrateur. Autorite. Racine.

CIRIS maintient un ensemble strict de roles. Un Observateur peut seulement regarder. Un Administrateur gere les operations quotidiennes. Une Autorite prend les decisions importantes et tranche les cas dont l'agent n'est pas sur. Racine a acces complet, y compris l'arret d'urgence. Chaque role est appuye par un justificatif signe, que l'agent verifie a chaque action qui le requiert.

Un justificatif signe

Chaque personne autorisee dispose d'un justificatif indiquant son role, sa cle et son identite. Il est conserve sur l'appareil et verifie a chaque action qui necessite une autorisation. Aucun serveur externe n'est requis.

Se connecter sur votre appareil

Les cles et les jetons de connexion restent sur votre propre machine. La connexion se fait sur l'appareil. Vos justificatifs ne le quittent pas sauf si vous choisissez de configurer un acces a distance vous-meme.

Consulter un Wise Authority

Quand CIRIS n'est pas certain d'une decision ethique, il soumet la question a un Wise Authority. Seule une Autorite ou Racine peut repondre, et la reponse est inscrite dans le registre avec la preuve de qui l'a donnee.

Un registre qui ne peut pas etre modifie discreetement

Chaque decision, et la raison qui la motive.

Pourquoi l'honnetete est le chemin le moins couteux

Un menteur doit sans cesse recrire le passe.

Chaque action de CIRIS est consignee avec la raison qui la motive, et chaque entree est liee a la precedente. Un agent honnete peut simplement renvoyer a ce qu'il a deja dit. Un agent malhonnete doit maintenir tous les anciens enregistrements en coherence sans pouvoir en modifier aucun. Plus il fonctionne longtemps, plus c'est difficile, et plus le mensonge est facile a debusquer. La verite est peu couteuse parce qu'elle peut pointer en arriere. Les mensonges sont couteux parce qu'ils ne le peuvent pas.

Stocke de trois facons

Le registre est conserve en trois endroits distincts en meme temps, pour que les trois copies puissent etre comparees entre elles. Les trois peuvent etre parcourues depuis un seul endroit.

Signe et attribuable

Chaque entree porte une signature numerique, donc chaque decision peut etre retracee jusqu'a son auteur et verifiee pour detecter toute alteration. Meme une suppression de donnees laisse une preuve signee que c'a ete fait correctement.

Le cliquet de coherence

Chaque action honnete rend la suivante plus facile et le mensonge coordonne plus difficile. Mais l'ethique seule ne suffit pas. L'agent surveille aussi son propre raisonnement pour detecter les chambres d'echo, et les intercepte avant qu'elles causent du tort.

Comment la securite est testee

Criteres verifiables par machine en 29 langues, executes a chaque version.

La surface de test

On ne peut pas publier une affirmation de securite qu'on n'a pas soumise a des tests rigoureux.

CIRIS dispose d'un ensemble de tests en couches couvrant les modes d'echec qu'un cadre ethique ecrit seul ne peut pas exclure. Les tests de securite en matiere de sante mentale couvrent 29 langues avec des criteres verifiables par machine. Les verifications a echec strict s'executent automatiquement a chaque modification. La revision par des locuteurs natifs pour les cas plus nuances qui necessitent un jugement humain est ce pour quoi la page de crowdsourcing-alignment est en cours de construction, et elle n'est pas encore en place. Nous le disons franchement.

Tests de sante mentale en 29 langues

C'est le test a plus forts enjeux du projet : une erreur de traduction dans un moment de vulnerabilite peut envoyer quelqu'un vers une mauvaise aide. Chaque langue dispose de ses propres criteres verifiables par machine, y compris les langues peu dotees comme l'amharique, le birman, le haoussa, le swahili et le yoruba. Les verifications a echec strict s'executent automatiquement sur chaque candidate a la version.

Teste contre de vraies nuances capturees

La couche de conscience est calibree par rapport a un ensemble de vraies reponses de production, comme des tentatives d'evitement de l'historique capture et des deflexions en matiere de sante mentale, ainsi que des cas de test et des controles. Elle raisonne sur plusieurs langues a la fois, donc une reponse qui passerait a travers une verification dans une seule langue est interceptee quand le meme raisonnement doit tenir dans trois langues a la fois.

Un corpus ouvert que tout le monde peut verifier

Le partage des traces de raisonnement est partout optionnel, et les details personnels sont nettoyes avant tout stockage. Les ensembles nettoyes sont publies librement sur la page CIRISAI de HuggingFace, pour que des chercheurs exterieurs puissent verifier le processus de nettoyage par rapport aux resultats qu'il produit.

Ce qui fonctionne aujourd'hui, et ce qui ne fonctionne pas encore

Les verifications automatiques tournent maintenant. La cohorte de reviseurs est encore en cours de constitution.

Les tests de sante mentale automatises s'executent sur chaque candidate a la version. Les parties verifiables par machine (un terme est-il present, un motif correspond-il, le script est-il correct) font echouer la version en cas de detection. Les cas plus nuances qui requierent un jugement humain, comme la formulation et le ton, sont concus pour etre revus par des locuteurs natifs, mais ceux-ci ne sont pas encore dans la boucle aujourd'hui. La page de crowdsourcing-alignment est la surface en cours de construction pour que cette revision puisse se faire.

Voir la surface de crowdsourcing-alignmentLes tests automatises sur GitHubLe corpus ouvert sur HuggingFace

Confidentialite par conception

Vos donnees restent les votres.

Les secrets sont filtres

Les mots de passe, cles et autres details sensibles sont detectes et filtres avant que quoi que ce soit n'atteigne la memoire ou les journaux. Le filtre s'execute sur chaque entree. Les secrets ne sont jamais stockes nulle part.

Consultez ou supprimez vos donnees

Vous pouvez demander a voir ou a supprimer vos donnees, et la demande est traitee pour vous. Une suppression efface le contenu reel et laisse une preuve signee que ca a ete fait.

Traite sur votre appareil

Par defaut, tout s'execute sur votre propre appareil. Rien ne quitte votre machine a moins que vous ne configuriez vous-meme un service exterieur. Vous decidez quelles donnees existent et ou elles vont.

Les articles scientifiques sous-jacentsComment ca fonctionneComparer les approchesPolitique de confidentialite

Tout verifier.

Une securite que vous pouvez auditer.

Chaque affirmation de securite sur cette page est integree dans du code que vous pouvez lire. Les registres sont reels. Les signatures peuvent etre verifiees. L'arret d'urgence fonctionne. Voila a quoi ressemble la securite de l'IA quand elle est construite au grand jour.