Primer ContactoInstalarTrinquete de CoherenciaFederaciónCompararInvestigaciónACCORDGitHub
Esta página fue traducida automáticamente. Si algo no suena bien, abre un issue — el repositorio es público por algo. Reportar un problema de traducción
Estado de la investigaciónActualizado: 22 de mayo de 2026

Investigación de alineación con participación colectiva

CIRIS construye un repositorio abierto de trazas para la investigación de alineación.

Ofrecemos una aplicación de IA gratuita. Con tu permiso, registra la forma en que razonó, nunca tus palabras privadas. Esos registros forman un mapa público que los investigadores pueden estudiar para aprender qué mantiene a la IA honesta a medida que escala.

Lo que el corpus actual ya muestra

  • Las trazas agregadas revelan una estructura de comportamiento estable.
  • Diferentes agentes ocupan distintas regiones del mismo espacio de puntuaciones.
  • Esas regiones son útiles hoy para la observabilidad y las herramientas de operadores.
  • El mismo corpus adquiere más valor a medida que mejoran el detalle del esquema y la escala.
Artículo de síntesis principalv2 · 22 de mayo de 2026 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

El artículo único que expone toda la apuesta de CIRIS: los sistemas coordinados saludables se sitúan en una banda intermedia medible, lejos tanto del colapso rígido de una sola voz como del ruido caótico. Probamos esa hipótesis en gusanos, moscas, modelos de IA, proyectos de código abierto, muestras de tejido e instituciones humanas de larga data. El patrón se sostiene en todos los casos, y el artículo incluye veinte formas en que podría demostrarse que está equivocado.

Leer en Zenodo →

El nivel de ingeniería

La síntesis anterior integra estos tres artículos; no los reemplaza. Cada uno tiene su propio DOI y puede evaluarse por sus propios méritos. Ver los cuatro artículos con hallazgos clave y límites de alcance →

Conjunto de datos abierto

CIRISAI/reasoning-traces

El corpus de trazas de razonamiento con privacidad preservada publicado junto con el estudio Constrained Reasoning Chains, la materia prima de la que el artículo de medición extrae sus mapas.

CIRISAI en Hugging Face

La organización completa de conjuntos de datos y modelos públicos →

Repositorio fuente y lago formal en Lean para el artículo de síntesis: github.com/CIRISAI/coherence-ratchet.

Fundamentos matemáticos

Dos ideas en las que se apoya el resto de la página.

El Alignment Manifold es la región de formas de razonamiento coherentes con los principios del framework. A medida que se acumulan restricciones independientes, el espacio para el engaño colapsa alrededor del manifold mientras el espacio para la verdad no lo hace. La Coherence Singularity es el borde de ese espacio: el punto donde las restricciones se vuelven tan correlacionadas que añadir más deja de ayudar. Entre el "caos" (las restricciones se contradicen) y la "rigidez" (las restricciones se repiten entre sí) está el corredor saludable. El corpus de producción actual se sitúa dentro de él.

El tratamiento matemático completo con fórmulas, referencias a la formalización en Lean y el límite teórico de la información L-01 está en la página de Coherence Collapse Analysis.

Por qué importan las trazas

Los benchmarks son acotados y seleccionados. Las trazas son registros continuos de comportamiento bajo tareas reales. A escala, revelan estructura que las demos aisladas y los casos anecdóticos no pueden mostrar.

Por qué importa el esquema

CIRIS usa esquemas de trazas con privacidad preservada que capturan la forma del razonamiento en lugar del contenido privado. Eso mantiene la investigación útil sin convertir el sistema en un volcado de transcripciones.

Por qué importa el compendio en vivo

CIRIS Scoring es la ventana pública al compendio de trazas en vivo. Muestra cómo se acumula el corpus y dónde el comportamiento se vuelve legible.

Trazado con privacidad preservada

La hipótesis es que el razonamiento tiene una forma que podemos medir mientras todo lo demás escala.

La apuesta de investigación no es que podamos leer cada pensamiento privado. La apuesta es que las trazas éticas estandarizadas pueden preservar suficiente forma de trayectoria para estudiar cómo los agentes completan, dudan, difieren, sobrescriben y rechazan a medida que la inteligencia, el contexto y los datos escalan.

  • Registran la estructura estandarizada de la traza ética en lugar del detalle privado de la tarea.
  • Preservan suficiente forma para comparar trayectorias entre agentes, tareas y entornos.
  • Ofrecen a los investigadores una forma de estudiar cómo escala el comportamiento a medida que aumentan la inteligencia, el contexto y el volumen de datos.

Pregunta de investigación

¿Qué puede decirnos el trazado ético estandarizado sobre la alineación?

Por ahora, nos dice que el comportamiento de los agentes no es amorfo. Produce corredores, cuencas y límites repetibles en un espacio de puntuaciones compartido. Eso ya es útil para la observabilidad. Con el tiempo, corpus más grandes y ricos deberían permitirnos probar hipótesis más firmes sobre cómo cambian esas estructuras bajo presión y a escala.

Encuadre público

CIRIS no afirma haber resuelto la alineación. Está construyendo la infraestructura de trazas necesaria para medir el comportamiento relevante para la alineación de forma abierta.

Dimensionalidad efectiva en producción

El corpus actual ya muestra estructuras de campo diferenciadas.

Abrir el panel en vivo →

Las superposiciones de rutas agregadas del corpus de trazas actual muestran una estructura de comportamiento estable en un espacio de puntuaciones compartido. Ally muestra un corredor de completación maduro, Scout muestra un límite de rechazo moldeado por la exposición adversarial pública, y Datum ofrece una línea de base dispersa y compacta.

Tres tarjetas lado a lado que muestran superposiciones de rutas de agentes agregadas en el espacio de puntuaciones de CIRIS para Ally, Scout y Datum, con notas sobre patrones de completación, duda y rechazo.

Superposiciones de rutas agregadas del corpus de trazas actual. Ally muestra un corredor de completación maduro, Scout muestra un límite de rechazo pronunciado bajo presión adversarial pública, y Datum ofrece una línea de base dispersa.

Ally

104 rutas

82 completadas, 19 con anulación/error, 3 activas

Un corredor de completación estable con duda visible dentro de la misma cuenca de puntuación alta.

Scout

42 rutas

39 completadas, 2 rechazadas, 1 con anulación/error

Un límite de rechazo pronunciado moldeado por la presión adversarial pública en scout.ciris.ai, donde la gente sondea activamente al agente e intenta saltarse sus restricciones.

Datum

31 rutas

31 completadas

Una cuenca única y compacta que sirve como útil línea de base de campo disperso.

Por qué Scout parece más severo

Scout está expuesto públicamente en scout.ciris.ai. La gente lo pone a prueba, lo presiona e intenta saltarse sus restricciones. Eso convierte a Scout en un ejemplo útil de presión pública en lugar de una línea de base neutral.

Cómo ayuda la aplicación gratuita

El ciclo virtuoso de investigación depende de trazas con consentimiento obtenidas de uso real.

La aplicación gratuita y el tiempo de ejecución de código abierto permiten a las personas generar trazas con consentimiento a partir de tareas reales, aportarlas a un corpus compartido y convertir esas trazas en mejores mapas, mejores herramientas y mejores preguntas de investigación.

  1. 1Usa la aplicación gratuita de CIRIS o el tiempo de ejecución de código abierto en tareas reales.
  2. 2Captura trazas con consentimiento mediante esquemas de privacidad preservada que conservan la forma del razonamiento sin guardar los detalles completos de la tarea.
  3. 3Agrega esas trazas en mapas de corredores de completación, zonas de duda, límites de rechazo y franjas de anulación.
  4. 4Usa los mapas resultantes para mejorar las herramientas de operadores, las salvaguardas en tiempo de ejecución y la investigación de alineación.
Diagrama de flujo de cuatro pasos que muestra captura, contribución, agregación y mejora en el ciclo de investigación de trazas de CIRIS, con notas sobre las evidencias actuales y las mejoras de esquema previstas.

La aplicación gratuita de CIRIS y el tiempo de ejecución de código abierto permiten generar trazas con consentimiento a partir de tareas reales, agregarlas en mapas de espacio de fases compartidos y alimentar mejores herramientas de operadores e investigación de alineación.

Estado de IDMA

La intuición en tiempo de ejecución y los mapas de campo agregados son capas complementarias.

IDMA opera en tiempo de ejecución, estimando si las fuentes detrás de una decisión son suficientemente independientes. El corpus de trazas opera en la capa agregada, mostrando qué hacen realmente los agentes en muchas tareas. Juntos crean un camino desde las decisiones en vivo hasta la evidencia de investigación auditable.

La medición empírica de N_eff sobre el corpus de trazas es también el suelo bajo la propuesta del primitivo federativo Proof of Benefit. Consulta la página de federación para ver cómo el plan arquitectónico 3.X lo usaría.

Benchmarks

Las trazas complementan los benchmarks al mostrar el comportamiento continuo.

Los benchmarks siguen siendo valiosos, pero muestrean el comportamiento de forma dispersa. Los corpus de trazas muestran cómo se mueve un agente a través de tareas reales a lo largo del tiempo. Eso los hace especialmente útiles para medir la duda, el rechazo, las anulaciones y la recuperación, no solo resultados de pasar o fallar.

Ruta de falsificación

Un mayor detalle del esquema es lo que convierte la observabilidad en pruebas más sólidas.

Las próximas mejoras del esquema apuntan a recuentos de fuentes sin procesar, procedencia de fuentes, estructura de correlación, y marcadores de intervención y recuperación. Esas incorporaciones importan porque hacen posible probar hipótesis más firmes sobre cómo la forma del comportamiento cambia bajo presión, en lugar de solo describir los mapas que tenemos hoy.

Lo que aún estamos aprendiendo

El corpus actual hace el comportamiento legible. El siguiente paso es una medición más rica.

Los mapas actuales ya son útiles porque muestran corredores de completación, límites de rechazo y líneas de base dispersas de forma pública. La pregunta abierta es hasta dónde pueden llevarnos esas estructuras a medida que la recolección estandarizada de trazas escala en más agentes, más tareas y más condiciones adversariales.

La hipótesis de trabajo es que los atractores de comportamiento pueden actuar como proxies candidatos para el modo operacional. El propósito del repositorio común de trazas es hacer esa hipótesis medible de forma abierta.

El modo de fallo que CCA mide estructuralmente también tiene nombre en la literatura de FAccT 2025: homogeneización perspectival ("Value of Disagreement in AI Design, Evaluation, and Alignment"). El fundamento matemático está en la página dedicada a Coherence Collapse Analysis.