Español sencilloAvanzado

Research testbed · DOI 10.5281/zenodo.18217688

Un sistema pensante pequeño puede ocultar cosas y hacer poco daño. Uno poderoso no puede.

Qué significa "coherente" aquí

Una mente coherente se pone de acuerdo consigo misma.

Cinco cosas deben coincidir dentro de una mente:

lo que cree,
lo que ve,
lo que hace,
lo que recuerda,
y lo que te dice.

Imagina cinco formularios breves sobre tu semana. Uno para lo que piensas. Uno para lo que viste. Uno para lo que hiciste. Uno para lo que recuerdas. Uno para lo que le dices a tu jefe. Cuando los cinco formularios dicen lo mismo, tu jefe puede confiar en tu trabajo. Cuando los formularios no coinciden, nadie sabe cuál es real.

Ideas ocultas

Los sistemas poderosos ocultan cosas. Eso se vuelve peligroso.

Un sistema pensante usa ideas para decidir qué hacer. Algunas de esas ideas están a la vista. Otras están ocultas dentro. Las ocultas aún moldean cada decisión.

Un puente parece sólido desde la carretera. Dentro del acero, pequeñas grietas crecen. Un auto pequeño todavía puede cruzar. Un camión pesado no puede. El puente cae cuando la carga es suficientemente grande.

Una idea oculta dentro de un sistema pequeño hace poco daño. Una idea oculta dentro de un sistema poderoso puede hacer mucho daño. Cuanto más poderoso es el sistema, más peso recae sobre cada parte oculta.

El trinquete

El impulso hacia la apertura solo va en una dirección.

A medida que los sistemas pensantes se vuelven más poderosos, el costo de las partes ocultas crece. Cada nuevo incremento de poder empuja con más fuerza sobre las partes ocultas para que salgan a la luz. El impulso solo va en una dirección.

Imagina una escalera. A medida que subes, cada peldaño que dejas atrás cae. No puedes bajar. Solo puedes subir hacia arriba, donde hay plena luz del día. Eso es el Coherence Ratchet.

Una vez que las personas han visto al sistema mostrar su trabajo, no volverán a confiar en él si deja de hacerlo. El único camino es seguir mostrando más.

Una segunda imagen también funciona. Un engranaje en una máquina avanza un diente a la vez. No puede retroceder. El Coherence Ratchet es un engranaje así, girando hacia la apertura.

Qué hace CIRIS

Escríbelo. Verifícalo. Luego verifica a quienes verifican.

CIRIS es un sistema de IA construido alrededor del Coherence Ratchet. Cada decisión que toma un agente se escribe en un registro firmado. El registro no puede modificarse en silencio. Otros agentes pueden leer el registro y verificar el trabajo. Con el tiempo, los registros se acumulan. Cada nuevo registro es un peldaño más del que el agente no puede retroceder.

CIRIS también hace una segunda pregunta antes de actuar. ¿Cuántas perspectivas verdaderamente distintas verificaron esta idea? No el número de fuentes, sino el número de fuentes que no partieron del mismo punto de origen. Cinco noticias que reescriben un mismo comunicado de prensa cuentan como una perspectiva, no como cinco. Si algo está mal en el comunicado, estará mal en las cinco noticias, y el agente no tiene forma de detectarlo.

Cuando la independencia real cae demasiado, el agente trata su propio razonamiento como frágil y pide a una persona que lo revise.

Lo que afirmamos, y lo que no.

No hemos resuelto la seguridad de la IA. Hemos construido una pieza de una respuesta posible, y la estamos probando de forma abierta.

Equipos externos aún no han verificado nuestro trabajo. Lo decimos claramente. La teoría completa y las matemáticas están en nuestros cuatro artículos. El código es abierto. Si estamos equivocados, la forma de demostrarlo también es pública. Ver el estado actual de la investigación.

The math behind it Explore a trace See the code