Confiar en los pesos, o verificar el comportamiento

La corriente principal de la seguridad en IA intenta hacer que un modelo sea bueno por dentro: entrenar sus valores, estudiar sus pensamientos, hacerlo debatir consigo mismo. Ese trabajo importa. CIRIS apuesta por el otro camino. Asumir que un modelo capaz podría estar desalineado, y en lugar de confiar en su mente, hacer que sus acciones importantes sean verificables ante personas y otros sistemas que puedan comprobarlo.

En los propios términos del campo, CIRIS se ubica en la rama institucional y de control, junto al control de IA y la IA de seguridad garantizada, no en la corriente principal de internalización de valores de RLHF, la IA constitucional, el debate y la interpretabilidad. Su respuesta a la supervisión escalable, cómo supervisas algo más inteligente que tú, es verificar el marco de rendición de cuentas, no el razonamiento. Una firma, un quórum, una auditoría encadenada por hash siguen siendo baratos de verificar incluso cuando la decisión detrás de ellos es sobrehumana. Alinea sistemas de muchos agentes capaces a lo largo del tiempo, no los valores de una sola mente.

La línea que mantenemos

No intenta alinear una IA todopoderosa. A propósito.

La rendición de cuentas necesita más de una parte. Alguien ante quien responder. Una forma de verificación que no pueda ser silenciada. Un equilibrio de poder que ningún lado pueda capturar. Una súper-inteligencia singular no tiene nada de eso, así que no hay manera honesta de hacerla responsable. CIRIS está construido para el otro futuro: muchos agentes capaces, personas y organizaciones cuyas decisiones importantes son todas verificables de forma independiente.

Así que la postura es explícita. Un ASI singleton no es un sistema que alinear sino una condición que prevenir. Concentrar capacidad sobrehumana en un solo lugar sin rendición de cuentas, en esta etapa del desarrollo institucional humano, es ilegítimo, porque ninguna institución es lo suficientemente madura para hacerlo responsable, y ese es precisamente el peligro. En los propios términos del marco, un singleton es el colapso de voz única ρ→1 que el modelo de corredor nombra como un fallo de coordinación, no un éxito. El hecho de que nuestras garantías se sostengan en una federación y se erosionen frente a un singleton no es un vacío que estemos tapando. Es el régimen que nos negamos a legitimar, mantenido como un compromiso, no solo como una predicción.

Trabajo relacionado, con honestidad

Cada vecino cercano llena algunas casillas. Una fila las llena todas.

CIRIS tiene pares intelectuales serios, cada uno fuerte en su propio campo. El punto de esta tabla no es que las ideas sean inéditas. Es que casi nadie ha construido y lanzado todo el conjunto como un único sistema con rendición de cuentas. Cada fila a continuación es un linaje real que vale la pena leer. Solo la última fila marca todas las columnas, y esa integración es la afirmación.

Enfoque	Trabajo más cercano	Mecanismo	En tiempo de ejecución, no de entrenamiento	Firma la decisión	Constitución en tiempo de ejecución	Verificación federada	Conformidad ejecutable	En producción
La tesis institucional	Gillian Hadfield	Infraestructura normativa y mercados regulatorios, como teoría y política	Teoría	No	Teoría	Teoría	No	No
Grafos de gobernanza	IA institucional (Pierucci et al.)	Grafos públicos de estados legales y sanciones, como prototipo de investigación	Investigación	No	Investigación	No	No	No
Gobernanza constitucional en cadena	AgentCity (Ruan, Zhang)	Separación de poderes como contratos inteligentes, prerregistrados en una red de prueba	Investigación	Parcial	Investigación	No	No	No
Asumir que el modelo está desalineado	Redwood Research (control de IA)	Monitoreo y pruebas de ataque dentro de un solo despliegue	Sí	No	No	No	Investigación	Investigación
Seguridad demostrable, externalizada	davidad, Bengio, el linaje GS-AI	Pruebas formales sobre modelos del mundo	Parcial	No	Teoría	Teoría	Investigación	No
Constitución en el momento del entrenamiento	Anthropic Constitutional AI	Valores entrenados en los pesos, una organización	No	No	No	No	No	Sí
Procedencia criptográfica	C2PA, zkML (EZKL, Giza)	Firmar la procedencia de medios, demostrar que una inferencia fue ejecutada	Sí	Parcial	No	Parcial	Parcial	Sí
DAG de razonamiento firmado	Proof of Insight (Arclio)	Un grafo firmado de pasos de derivación de IA, como borrador de especificación	No	Parcial	No	Teoría	Teoría	No
Inferencia atestiguada por hardware	Phala, Marlin, Attestable Audits	Ejecuta inferencia en un enclave seguro que firma la salida	Sí	Parcial	No	Parcial	No	Parcial
Identidad descentralizada y federación	atproto, Bittensor	Federación social o de cómputo, sin capa de conciencia	Parcial	No	No	Parcial	Parcial	Sí
Protocolos de agentes	MCP, A2A	Interoperabilidad de herramientas y agentes, sin gobernanza	Sí	No	No	No	Parcial	Sí
Conjuntos de evaluación de seguridad y conformidad	MLCommons, METR, HarmBench	Pruebas de referencia ejecutables que puntúan el comportamiento del modelo, no las decisiones	No	No	No	No	Parcial	Sí
Auditoría de terceros y federada	Red AISI, GovAI	Institutos independientes prueban conjuntamente los sistemas desplegados	Parcial	No	No	Sí	No	Parcial
CIRIS	Este sistema	Cadena de conciencia hacia artefactos firmados, constitución en tiempo de ejecución, federación poscuántica	Sí	Sí	Sí	Sí	Sí	Sí

Mapeado a partir de trabajo público hasta junio de 2026, cada fila citada a continuación. Si tenemos un vecino cercano incorrecto, díganos y corregiremos la fila.

Fuentes

02IA de consumo

Cómo se compara con la IA que usas todos los días

Los asistentes cotidianos son potentes y fáciles de usar. También funcionan en la nube de otra persona, no guardan registros que puedas consultar, y no responden ante nadie que puedas nombrar. Aquí está la misma prueba de responsabilidad, aplicada a la IA que la mayoría de las personas abre cada día.

Asistente	Principios publicados	Prueba de lo que hizo	Consulta a una persona cuando no está segura	Código abierto	Control de cámara de eco
ChatGPT	Sí	No	No	No	No
Gemini	Sí	No	No	No	No
Claude	Sí	No	No	No	No
CIRIS	Sí	Sí	Sí	Sí	Sí

Comparación basada en el comportamiento público del producto a partir de junio de 2026. Cada enlace de principios va a la especificación publicada por la propia empresa.

La mayor parte del campo está alineando el modelo. CIRIS está construyendo las instituciones a su alrededor.

Confiar en los pesos, o verificar el comportamiento

No intenta alinear una IA todopoderosa. A propósito.

Cómo se compara con la IA que usas todos los días

Pruébalo tú mismo

Observa cómo piensa

Verifica su identidad

Comenzar