
Si no puedes verificar la rendición de cuentas, es solo marketing. Aquí tienes qué buscar y cómo se comparan los enfoques actuales.
La conciencia es necesaria. No es suficiente.
Algunas IA no tienen ninguna regla. Otras siguen reglas, pero no pueden detectar cuándo sus fuentes solo se repiten entre sí. Solo un tipo verifica si su información realmente proviene de fuentes distintas.
Sin principios publicados. Sin historial de auditoría. Código cerrado. No puedes verificar qué hizo ni por qué.
La mayoría de los asistentes de IA de consumo (ChatGPT, Gemini) están aquí desde el punto de vista de la rendición de cuentas pública. Pueden existir buenas prácticas internas, pero no puedes verificarlas.
Requiere regulación externa. No puede gobernarse a sí mismo.
Sigue reglas éticas. Pero no puede detectar cuándo todas sus fuentes se están copiando entre sí, por lo que puede estar confiadamente equivocado.
Seguro cuando está supervisado. No puede detectar cámaras de eco por sí solo.
Sigue reglas éticas Y verifica si su información proviene de fuentes genuinamente distintas. Cuando el acuerdo parece sospechoso, lo señala antes de actuar.
Esto es lo que CIRIS construye.
Una IA puede seguir cada regla, pasar cada auditoría y aun así fallar si toda su información proviene del mismo lugar. Ese punto ciego es lo que CIRIS fue construido para corregir.
Estas son las cosas que hacen que la IA sea auditable y responsable. Las primeras seis tratan de hacer lo correcto. La séptima trata de detectar las situaciones en que "hacer lo correcto" se basa en información incorrecta.
El agente debe seguir un marco ético público. No reglas ocultas: un documento que cualquiera puede leer y exigirle cuentas.
Cada acción pasa por una verificación de conciencia antes de que el agente la ejecute. No después. Antes.
Cuando hay incertidumbre o un posible daño, el agente consulta a una persona en lugar de adivinar. Integrado en el flujo de trabajo, no es opcional.
Cada decisión se registra y se firma para que puedas verificar exactamente qué ocurrió y por qué. Un recibo por cada acción.
El consentimiento va en ambas direcciones. Puedes decirle que no al agente. El agente puede decirte que no. Ninguna de las partes se ve obligada a ceder.
No puedes auditar lo que no puedes ver. CIRIS es completamente de código abierto bajo AGPL-3.0. Cualquiera puede leer, verificar y mejorar el código.
Lo que las reglas solas no pueden detectar.
Antes de actuar, el agente se pregunta: «¿Mis fuentes realmente discrepan entre sí, o todas obtienen su información del mismo lugar?» Diez fuentes que todas copiaron del mismo original son en realidad una sola fuente. Cuando el acuerdo parece demasiado uniforme, el agente lo señala para que una persona lo revise.
Demasiado ruido
Las fuentes se contradicen tanto que no se puede llegar a ninguna conclusión útil.
Saludable
Las fuentes difieren de verdad. El acuerdo real significa algo.
Cámara de eco
Parece acuerdo, pero las fuentes solo se repiten entre sí.
Esto es lo que diferencia a CIRIS de otros marcos de rendición de cuentas de IA.
¿Quieres las matemáticas? Lee la tesis completa →Basado en documentación públicamente disponible a febrero de 2026. Si nos hemos perdido algo o hemos cometido un error, avísanos.
| Proyecto | Verifica cada decisión | Reglas publicadas | Conciencia integrada | Prueba de lo que hizo | Código abierto | Detección de cámaras de eco |
|---|---|---|---|---|---|---|
| CIRIS | Sí | Sí | Sí | Sí | AGPL-3.0 | Sí |
| Constitutional AI | Solo en entrenamiento | Implícitas | No | No | No | No |
| LlamaFirewall / NeMo Guardrails | Sí | No | No | Registro | Sí | No |
| HatCat | Sí | Parcial | Dirección | Parcial | CC0 | No |
| Comités de ética / marcos de gobernanza | No | Sí | No | Manual | Varía | No |
Los filtros de salida y los marcos de gobernanza resuelven problemas importantes pero distintos. Los filtros bloquean resultados dañinos. La conciencia razona sobre valores. CIRIS busca hacer ambas cosas y detectar los puntos ciegos que ninguno aborda por sí solo.
Bloquean resultados peligrosos: inyección de instrucciones, contenido dañino, ataques adversariales. Como un filtro que atrapa cosas malas a la salida.
Razona sobre si una acción es correcta, no solo si es segura. Como un juez que sopesa la situación antes de tomar una decisión.
Verifica si el acuerdo es real o solo repetición. Como un verificador de datos que pregunta: «¿Todos leyeron el mismo artículo?»
Muchos agentes más pequeños, cada uno vinculado a principios publicados, cada uno auditable, cada uno que se remite a la autoridad humana. Ninguna empresa o entidad controla toda la pila. Cuanto más independientes son los agentes, más difícil es que cualquier fallo se propague.
Esta es investigación activa. Somos transparentes sobre lo que está establecido y lo que aún se está probando.
Bien establecido
Aún en prueba
Cada afirmación en esta página está respaldada por código que puedes leer, rastros que puedes verificar e investigación que puedes comprobar. Ese es el punto.