Primer ContactoInstalarTrinquete de CoherenciaFederaciónCompararInvestigaciónACCORDGitHub
Esta página fue traducida automáticamente. Si algo no suena bien, abre un issue — el repositorio es público por algo. Reportar un problema de traducción
Background Image
La IA más segura y ética en producción hoy

Sin rendición de cuentas, la IA tiende a extraer más de lo que da.

Si no puedes verificar la rendición de cuentas, es solo marketing. Aquí tienes qué buscar y cómo se comparan los enfoques actuales.

Tres tipos de IA

La conciencia es necesaria. No es suficiente.

Algunas IA no tienen ninguna regla. Otras siguen reglas, pero no pueden detectar cuándo sus fuentes solo se repiten entre sí. Solo un tipo verifica si su información realmente proviene de fuentes distintas.

1

Sin reglas

Sin principios publicados. Sin historial de auditoría. Código cerrado. No puedes verificar qué hizo ni por qué.

La mayoría de los asistentes de IA de consumo (ChatGPT, Gemini) están aquí desde el punto de vista de la rendición de cuentas pública. Pueden existir buenas prácticas internas, pero no puedes verificarlas.

Requiere regulación externa. No puede gobernarse a sí mismo.

2

Reglas sin conciencia

Sigue reglas éticas. Pero no puede detectar cuándo todas sus fuentes se están copiando entre sí, por lo que puede estar confiadamente equivocado.

Seguro cuando está supervisado. No puede detectar cámaras de eco por sí solo.

3

Reglas + conciencia

Sigue reglas éticas Y verifica si su información proviene de fuentes genuinamente distintas. Cuando el acuerdo parece sospechoso, lo señala antes de actuar.

Esto es lo que CIRIS construye.

Una IA puede seguir cada regla, pasar cada auditoría y aun así fallar si toda su información proviene del mismo lugar. Ese punto ciego es lo que CIRIS fue construido para corregir.

Siete cosas que revisar

Seis para la ética. Una para los puntos ciegos.

Estas son las cosas que hacen que la IA sea auditable y responsable. Las primeras seis tratan de hacer lo correcto. La séptima trata de detectar las situaciones en que "hacer lo correcto" se basa en información incorrecta.

1. Principios publicados

El agente debe seguir un marco ético público. No reglas ocultas: un documento que cualquiera puede leer y exigirle cuentas.

2. Verificación de conciencia en cada decisión

Cada acción pasa por una verificación de conciencia antes de que el agente la ejecute. No después. Antes.

3. Consulta a personas cuando no está seguro

Cuando hay incertidumbre o un posible daño, el agente consulta a una persona en lugar de adivinar. Integrado en el flujo de trabajo, no es opcional.

4. Prueba de lo que hizo

Cada decisión se registra y se firma para que puedas verificar exactamente qué ocurrió y por qué. Un recibo por cada acción.

5. Consentimiento mutuo

El consentimiento va en ambas direcciones. Puedes decirle que no al agente. El agente puede decirte que no. Ninguna de las partes se ve obligada a ceder.

6. Código abierto

No puedes auditar lo que no puedes ver. CIRIS es completamente de código abierto bajo AGPL-3.0. Cualquiera puede leer, verificar y mejorar el código.

7

Detección de cámaras de eco

Lo que las reglas solas no pueden detectar.

Antes de actuar, el agente se pregunta: «¿Mis fuentes realmente discrepan entre sí, o todas obtienen su información del mismo lugar?» Diez fuentes que todas copiaron del mismo original son en realidad una sola fuente. Cuando el acuerdo parece demasiado uniforme, el agente lo señala para que una persona lo revise.

Demasiado ruido

Las fuentes se contradicen tanto que no se puede llegar a ninguna conclusión útil.

Saludable

Las fuentes difieren de verdad. El acuerdo real significa algo.

Cámara de eco

Parece acuerdo, pero las fuentes solo se repiten entre sí.

Esto es lo que diferencia a CIRIS de otros marcos de rendición de cuentas de IA.

¿Quieres las matemáticas? Lee la tesis completa →

El panorama actual

Proyectos distintos, objetivos distintos.

Basado en documentación públicamente disponible a febrero de 2026. Si nos hemos perdido algo o hemos cometido un error, avísanos.

ProyectoVerifica cada decisiónReglas publicadasConciencia integradaPrueba de lo que hizoCódigo abiertoDetección de cámaras de eco
CIRISAGPL-3.0
Constitutional AISolo en entrenamientoImplícitasNoNoNoNo
LlamaFirewall / NeMo GuardrailsNoNoRegistroNo
HatCatParcialDirecciónParcialCC0No
Comités de ética / marcos de gobernanzaNoNoManualVaríaNo

Los filtros de salida y los marcos de gobernanza resuelven problemas importantes pero distintos. Los filtros bloquean resultados dañinos. La conciencia razona sobre valores. CIRIS busca hacer ambas cosas y detectar los puntos ciegos que ninguno aborda por sí solo.

Tres capas de protección

Cada una resuelve un problema diferente.

Filtros de salida

Bloquean resultados peligrosos: inyección de instrucciones, contenido dañino, ataques adversariales. Como un filtro que atrapa cosas malas a la salida.

Conciencia ética

Razona sobre si una acción es correcta, no solo si es segura. Como un juez que sopesa la situación antes de tomar una decisión.

Detección de cámaras de eco

Verifica si el acuerdo es real o solo repetición. Como un verificador de datos que pregunta: «¿Todos leyeron el mismo artículo?»

Muchos agentes coherentes

Gobernanza distribuida, no poder concentrado.

Sin punto único de fallo

Agentes más pequeños, cada uno con rendición de cuentas.

Muchos agentes más pequeños, cada uno vinculado a principios publicados, cada uno auditable, cada uno que se remite a la autoridad humana. Ninguna empresa o entidad controla toda la pila. Cuanto más independientes son los agentes, más difícil es que cualquier fallo se propague.

Estado de la investigación

Esta es investigación activa. Somos transparentes sobre lo que está establecido y lo que aún se está probando.

Bien establecido

  • - Las fuentes copiadas reducen la diversidad real
  • - Los modelos de IA comparten solapamiento de datos de entrenamiento
  • - Las cámaras de eco crean falsa confianza
  • - La verificación independiente detecta más errores

Aún en prueba

  • - Medir con precisión cuánto se copian las fuentes de IA
  • - Los mejores umbrales para señalar cámaras de eco
  • - Qué tan bien las intervenciones reducen la copia
  • - Cómo varía esto según el campo

Pruébalo tú mismo

Verifícalo tú mismo.

Código abierto. Abierto al escrutinio.

Cada afirmación en esta página está respaldada por código que puedes leer, rastros que puedes verificar e investigación que puedes comprobar. Ese es el punto.