Primer ContactoInstalarTrinquete de CoherenciaFederaciónCompararInvestigaciónACCORDGitHub
Esta página fue traducida automáticamente. Si algo no suena bien, abre un issue — el repositorio es público por algo. Reportar un problema de traducción
Background Image
Seguridad Integrada.

No añadida después.

Cada función de seguridad en CIRIS forma parte de cómo funciona el sistema, no es una regla agregada encima. Un registro de cada decisión que no se puede cambiar en silencio, un control de quién puede hacer qué, y un botón de parada de emergencia que el agente no puede rechazar.

Cuando una Conversación Se Extiende

Recordatorios amables de la realidad

Habla con CIRIS por un buen rato y te recordará suavemente lo que es. Después de unos 30 minutos de ida y vuelta continuo, o 20 mensajes en media hora, hace una pausa para decir claramente que es un programa de computadora y una herramienta, no un amigo ni un terapeuta. Usa conteos simples de tiempo y mensajes para hacer esto, no observando ni analizando tu comportamiento.

Después de 30 Minutos

Media hora de conversación continua activa un recordatorio. El conteo se reinicia después de una pausa. Los umbrales provienen de investigaciones sobre formas saludables de usar la tecnología.

Después de 20 Mensajes

Veinte mensajes dentro de una ventana de media hora también activa un recordatorio. Una conversación intensa recibe una pausa amable, sin vigilancia ni análisis de perfil.

Un Recordatorio de Lo Que Es

El recordatorio sugiere tomar un descanso y conectar con personas reales, y dice claramente lo que CIRIS es y no es. Basado en investigaciones, y sin ser moralizador.

La Parada de Emergencia

El agente no puede discutir con ella.

Un Apagado Que No Puede Rechazarse

Funciona antes de que el agente pueda pensar.

CIRIS tiene una parada de emergencia. La señal para activarla está oculta dentro del texto ordinario que el agente lee, y el agente actúa sobre ella antes de hacer cualquier pensamiento, filtrado o razonamiento. Así que incluso un agente que ha salido mal no puede convencerse a sí mismo de ignorarla. La señal lleva una firma digital que no se puede falsificar, por lo que solo una persona autorizada puede activar la parada.

Actúa Antes de Pensar

La señal de parada se captura en el momento en que se lee, antes de que ocurra cualquier razonamiento. No hay punto donde el agente pueda sopesarla, filtrarla o rechazarla. Se activa primero.

Oculta a Simple Vista

La señal de parada puede estar incluida dentro de texto de documentación ordinaria. No se necesita un formato especial, y sigue funcionando si el texto se reformula o solo se recibe parcialmente.

Solo una Clave Autorizada

La parada requiere una firma digital válida de una autoridad raíz autorizada. El agente se apaga por sí mismo si no se pueden verificar esas autoridades, o si alguien intenta desactivar la función. Nadie sin la clave puede activarla.

Quién Puede Hacer Qué

Cuatro roles claros, verificados en cada acción.

Cuatro Roles

Observador. Administrador. Autoridad. Raíz.

CIRIS mantiene un conjunto estricto de roles. Un Observador solo puede ver. Un Administrador maneja las operaciones del día a día. Una Autoridad toma las decisiones más importantes y resuelve los casos en que el agente no está seguro. Raíz tiene acceso completo, incluida la parada de emergencia. Cada rol está respaldado por una credencial firmada, para que el agente pueda verificarla en cada acción que importa.

Una Credencial Firmada

Cada persona autorizada tiene una credencial con su rol, su clave y su identidad. Se guarda en el dispositivo y se verifica en cada acción que requiere permiso. No se necesita ningún servidor externo.

Inicio de Sesión en Tu Dispositivo

Las claves y tokens de sesión permanecen en tu propia máquina. El inicio de sesión ocurre en el dispositivo. Tus credenciales nunca salen de él a menos que decidas configurar acceso remoto tú mismo.

Consultando a una Autoridad Sabia

Cuando CIRIS no está seguro sobre una decisión ética, pasa la pregunta a una Autoridad Sabia. Solo una Autoridad o Raíz puede responder, y la respuesta queda escrita en el registro con prueba de quién la dio.

Un Registro Que No Se Puede Cambiar en Silencio

Cada decisión, y la razón detrás de ella.

Por Qué la Honestidad Es el Camino Más Barato

Un mentiroso tiene que seguir reescribiendo el pasado.

Cada acción que CIRIS toma se escribe con la razón detrás de ella, y cada registro está vinculado al anterior. Un agente honesto simplemente puede señalar lo que ya dijo. Un agente deshonesto tiene que mantener todos los registros pasados alineados sin poder cambiar ninguno. Cuanto más tiempo funcione, más difícil se vuelve, y más fácil es atrapar la mentira. La verdad es barata porque puede señalar hacia atrás. Las mentiras son costosas porque no pueden.

Guardado de Tres Maneras

El registro se guarda en tres lugares separados a la vez, para que las tres copias puedan compararse entre sí. Las tres se pueden buscar desde un solo lugar.

Firmado y Atribuible

Cada entrada lleva una firma digital, por lo que cada decisión puede rastrearse hasta quién la tomó y verificarse en busca de manipulaciones. Incluso una eliminación de datos deja prueba firmada de que se hizo correctamente.

El Trinquete de Coherencia

Cada acción honesta hace que la siguiente acción honesta sea más fácil y que las mentiras coordinadas sean más difíciles. Pero la ética sola no es suficiente. El agente también vigila su propio razonamiento en busca de cámaras de eco, y las detecta antes de que causen daño.

Cómo Se Prueba la Seguridad

Rúbricas verificadas por máquina en 29 idiomas, ejecutadas en cada versión.

La Superficie de Pruebas

No puedes publicar una afirmación de seguridad que no hayas sometido a prueba de estrés.

CIRIS tiene un conjunto de pruebas en capas para los modos de fallo que un marco de ética escrito no puede descartar por sí solo. Las pruebas de seguridad de salud mental cubren 29 idiomas con rúbricas que una máquina puede verificar. Las verificaciones de fallo duro se ejecutan automáticamente en cada cambio. La revisión por hablantes nativos para los casos más delicados que requieren juicio humano está diseñada para ello, pero los hablantes nativos aún no participan. Lo decimos claramente.

Pruebas de Salud Mental en 29 Idiomas

Esta es la prueba de mayor riesgo del proyecto: una mala traducción en un momento de salud mental puede enviar a una persona vulnerable a la ayuda equivocada. Cada idioma tiene su propia rúbrica verificable por máquina, incluidos idiomas de bajos recursos como el amhárico, el birmano, el hausa, el swahili y el yoruba. Las verificaciones de fallo duro se ejecutan automáticamente contra cada candidato de versión.

Probado Contra Evasiones Reales Capturadas

La capa de conciencia se ajusta contra un conjunto de respuestas reales de producción, como evasiones históricas capturadas y deflexiones de salud mental, junto con casos de prueba y controles. Razona en varios idiomas a la vez, por lo que una respuesta que pasaría una verificación en un solo idioma queda atrapada cuando el mismo razonamiento debe sostenerse en tres idiomas juntos.

Un Corpus Abierto Que Cualquiera Puede Verificar

Compartir rastros de razonamiento es opcional en todas partes, y los datos personales se eliminan antes de que se guarde cualquier cosa. Los conjuntos limpios se publican abiertamente en la página de CIRISAI en HuggingFace, para que investigadores externos puedan verificar el proceso de limpieza contra los resultados que produce.

Qué Funciona Hoy, y Qué Aún No

Las verificaciones automáticas funcionan ahora. El grupo de revisores aún se está formando.

Las pruebas automatizadas de salud mental se ejecutan en cada candidato de versión. Las partes verificables por máquina (¿está presente un término, coincide un patrón, es correcto el script?) fallan la versión si hay un resultado positivo. Los casos más delicados que necesitan juicio humano, como la redacción y el tono, están diseñados para revisión por hablantes nativos, pero los hablantes nativos aún no participan. La página de alineación colectiva es la superficie que se está construyendo para que esa revisión pueda ocurrir.

Ver la superficie de alineación colectivaLas pruebas automatizadas en GitHubEl corpus abierto en HuggingFace

Privacidad por Diseño

Tus datos son tuyos.

Los Secretos Se Filtran

Las contraseñas, claves y otros datos sensibles se detectan y filtran antes de que nada llegue a la memoria o los registros. El filtro se ejecuta en cada entrada. Los secretos nunca se almacenan en ningún lugar.

Ver o Eliminar Tus Datos

Puedes pedir ver o eliminar tus datos, y la solicitud se gestiona por ti. Una eliminación borra el contenido real y deja prueba firmada de que se hizo.

Procesado en Tu Dispositivo

Por defecto, todo se ejecuta en tu propio dispositivo. Nada sale de tu máquina a menos que configures un servicio externo tú mismo. Tú decides qué datos existen y adónde van.

Los estudios de baseCómo funcionaComparar enfoquesPolítica de privacidad

Verifica Todo.

Seguridad que puedes auditar.

Cada afirmación de seguridad en esta página está construida en código que puedes leer. Los registros son reales. Las firmas se pueden verificar. La parada de emergencia funciona. Así es como se ve la seguridad de IA cuando se construye de manera abierta.