La página de matemáticas
Verificado por software de pruebas formales
La idea
Cinco controles que se copian entre sí son en realidad uno solo.
Supongamos que cinco personas verifican una respuesta y las cinco están de acuerdo. Eso parece seguro. Pero si las cinco aprendieron lo mismo del mismo lugar, su acuerdo no son cinco opiniones. Es una opinión repetida cinco veces. El número de controles parece cinco. El número real es uno.
Esto importa para la IA. Un sistema de IA puede ejecutar muchos controles sobre su propio razonamiento y aun así ser engañado, si esos controles comparten el mismo punto ciego. Coherence Collapse Analysis es como CIRIS distingue entre controles reales y ecos.
La fórmula única
Contar los controles que realmente tienes.
Hay una fórmula corta y única en el centro de todo. Proviene de la estadística de encuestas, donde se llama el efecto de diseño de Kish. CIRIS fue el primero en usarla para la alineación de IA.
real checks = checks / (1 + copying × (checks − 1))
"Checks" es cuántos controles se ejecutaron. "Copying" es cuánto se solapan, de 0 (todos independientes) a 1 (todos iguales). El resultado es cuántos controles tienes realmente.
Sin solapamiento: diez controles cuentan como diez. Cada control gana su lugar.
Solapamiento total: diez controles cuentan como uno. No importa cuántos se añadan.
La banda saludable
Ni demasiado uniforme, ni demasiado disperso.
La misma forma que aparece aquí surge en todos los ámbitos que estudia CIRIS. Si los controles se copian demasiado entre sí, el sistema es demasiado rígido: una sola voz repetida, fácil de engañar. Si no tienen nada en común, es demasiado disperso: no pueden ponerse de acuerdo en nada. La verificación saludable vive en la banda intermedia, el mismo corredor alrededor del cual está construido el resto de CIRIS.
Los límites exactos de esa banda dependen del sistema que se mide. No hay un número mágico único que funcione en todas partes, y la investigación es honesta al respecto. La idea del corredor, en su totalidad, está en la página de visión.
En tráfico real
Esto se midió, no solo se argumentó.
CIRIS midió el recuento de controles reales en su propio tráfico de agentes en vivo, a través de miles de decisiones registradas. En tráfico saludable ha funcionado en el rango de aproximadamente siete a nueve controles genuinamente independientes. Esa medición, y cómo se realizó, es el estudio Constrained Reasoning Chains. Puedes ver los números en vivo en la página de investigación.
El límite honesto
Lo que estas matemáticas no pueden hacer.
El artículo demuestra un límite estricto sobre sí mismo. Algunas formas de daño no provienen de una parte deshonesta. Provienen de partes honestas que se suman a un resultado malo, y aproximadamente el cuarenta por ciento de ese tipo de daño no puede ser detectado por ningún verificador, sin importar cuán bueno sea. CIRIS lo dice claramente en lugar de pretender que las matemáticas lo capturan todo.
Lo que sí dicen las matemáticas es sobre el costo a lo largo del tiempo: ejecutar un razonamiento real y honesto durante semanas seguidas es más estable y barato que mantener una mentira coherente a través de miles de decisiones registradas. Inclina el terreno hacia la honestidad. No promete detectar cada mentira.
Cómo encaja todo
Las matemáticas son una parte de un conjunto mayor.
Esta página es la medición. El Coherence Ratchet es cómo se pone en práctica la medición. La Federación es cómo se convierte en algo que muchos sistemas comparten. Y las pruebas completas, escritas para que un ordenador pueda verificarlas línea por línea, están en el artículo y en el repositorio RATCHET.