
Cada función de seguridad en CIRIS forma parte de cómo funciona el sistema, no es una regla agregada encima. Un registro de cada decisión que no se puede cambiar en silencio, un control de quién puede hacer qué, y un botón de parada de emergencia que el agente no puede rechazar.
Habla con CIRIS por un buen rato y te recordará suavemente lo que es. Después de unos 30 minutos de ida y vuelta continuo, o 20 mensajes en media hora, hace una pausa para decir claramente que es un programa de computadora y una herramienta, no un amigo ni un terapeuta. Usa conteos simples de tiempo y mensajes para hacer esto, no observando ni analizando tu comportamiento.
Media hora de conversación continua activa un recordatorio. El conteo se reinicia después de una pausa. Los umbrales provienen de investigaciones sobre formas saludables de usar la tecnología.
Veinte mensajes dentro de una ventana de media hora también activa un recordatorio. Una conversación intensa recibe una pausa amable, sin vigilancia ni análisis de perfil.
El recordatorio sugiere tomar un descanso y conectar con personas reales, y dice claramente lo que CIRIS es y no es. Basado en investigaciones, y sin ser moralizador.
CIRIS tiene una parada de emergencia. La señal para activarla está oculta dentro del texto ordinario que el agente lee, y el agente actúa sobre ella antes de hacer cualquier pensamiento, filtrado o razonamiento. Así que incluso un agente que ha salido mal no puede convencerse a sí mismo de ignorarla. La señal lleva una firma digital que no se puede falsificar, por lo que solo una persona autorizada puede activar la parada.
La señal de parada se captura en el momento en que se lee, antes de que ocurra cualquier razonamiento. No hay punto donde el agente pueda sopesarla, filtrarla o rechazarla. Se activa primero.
La señal de parada puede estar incluida dentro de texto de documentación ordinaria. No se necesita un formato especial, y sigue funcionando si el texto se reformula o solo se recibe parcialmente.
La parada requiere una firma digital válida de una autoridad raíz autorizada. El agente se apaga por sí mismo si no se pueden verificar esas autoridades, o si alguien intenta desactivar la función. Nadie sin la clave puede activarla.
CIRIS mantiene un conjunto estricto de roles. Un Observador solo puede ver. Un Administrador maneja las operaciones del día a día. Una Autoridad toma las decisiones más importantes y resuelve los casos en que el agente no está seguro. Raíz tiene acceso completo, incluida la parada de emergencia. Cada rol está respaldado por una credencial firmada, para que el agente pueda verificarla en cada acción que importa.
Cada persona autorizada tiene una credencial con su rol, su clave y su identidad. Se guarda en el dispositivo y se verifica en cada acción que requiere permiso. No se necesita ningún servidor externo.
Las claves y tokens de sesión permanecen en tu propia máquina. El inicio de sesión ocurre en el dispositivo. Tus credenciales nunca salen de él a menos que decidas configurar acceso remoto tú mismo.
Cuando CIRIS no está seguro sobre una decisión ética, pasa la pregunta a una Autoridad Sabia. Solo una Autoridad o Raíz puede responder, y la respuesta queda escrita en el registro con prueba de quién la dio.
Cada acción que CIRIS toma se escribe con la razón detrás de ella, y cada registro está vinculado al anterior. Un agente honesto simplemente puede señalar lo que ya dijo. Un agente deshonesto tiene que mantener todos los registros pasados alineados sin poder cambiar ninguno. Cuanto más tiempo funcione, más difícil se vuelve, y más fácil es atrapar la mentira. La verdad es barata porque puede señalar hacia atrás. Las mentiras son costosas porque no pueden.
El registro se guarda en tres lugares separados a la vez, para que las tres copias puedan compararse entre sí. Las tres se pueden buscar desde un solo lugar.
Cada entrada lleva una firma digital, por lo que cada decisión puede rastrearse hasta quién la tomó y verificarse en busca de manipulaciones. Incluso una eliminación de datos deja prueba firmada de que se hizo correctamente.
Cada acción honesta hace que la siguiente acción honesta sea más fácil y que las mentiras coordinadas sean más difíciles. Pero la ética sola no es suficiente. El agente también vigila su propio razonamiento en busca de cámaras de eco, y las detecta antes de que causen daño.
CIRIS tiene un conjunto de pruebas en capas para los modos de fallo que un marco de ética escrito no puede descartar por sí solo. Las pruebas de seguridad de salud mental cubren 29 idiomas con rúbricas que una máquina puede verificar. Las verificaciones de fallo duro se ejecutan automáticamente en cada cambio. La revisión por hablantes nativos para los casos más delicados que requieren juicio humano está diseñada para ello, pero los hablantes nativos aún no participan. Lo decimos claramente.
Esta es la prueba de mayor riesgo del proyecto: una mala traducción en un momento de salud mental puede enviar a una persona vulnerable a la ayuda equivocada. Cada idioma tiene su propia rúbrica verificable por máquina, incluidos idiomas de bajos recursos como el amhárico, el birmano, el hausa, el swahili y el yoruba. Las verificaciones de fallo duro se ejecutan automáticamente contra cada candidato de versión.
La capa de conciencia se ajusta contra un conjunto de respuestas reales de producción, como evasiones históricas capturadas y deflexiones de salud mental, junto con casos de prueba y controles. Razona en varios idiomas a la vez, por lo que una respuesta que pasaría una verificación en un solo idioma queda atrapada cuando el mismo razonamiento debe sostenerse en tres idiomas juntos.
Compartir rastros de razonamiento es opcional en todas partes, y los datos personales se eliminan antes de que se guarde cualquier cosa. Los conjuntos limpios se publican abiertamente en la página de CIRISAI en HuggingFace, para que investigadores externos puedan verificar el proceso de limpieza contra los resultados que produce.
Las pruebas automatizadas de salud mental se ejecutan en cada candidato de versión. Las partes verificables por máquina (¿está presente un término, coincide un patrón, es correcto el script?) fallan la versión si hay un resultado positivo. Los casos más delicados que necesitan juicio humano, como la redacción y el tono, están diseñados para revisión por hablantes nativos, pero los hablantes nativos aún no participan. La página de alineación colectiva es la superficie que se está construyendo para que esa revisión pueda ocurrir.
Las contraseñas, claves y otros datos sensibles se detectan y filtran antes de que nada llegue a la memoria o los registros. El filtro se ejecuta en cada entrada. Los secretos nunca se almacenan en ningún lugar.
Puedes pedir ver o eliminar tus datos, y la solicitud se gestiona por ti. Una eliminación borra el contenido real y deja prueba firmada de que se hizo.
Por defecto, todo se ejecuta en tu propio dispositivo. Nada sale de tu máquina a menos que configures un servicio externo tú mismo. Tú decides qué datos existen y adónde van.
Cada afirmación de seguridad en esta página está construida en código que puedes leer. Los registros son reales. Las firmas se pueden verificar. La parada de emergencia funciona. Así es como se ve la seguridad de IA cuando se construye de manera abierta.