Investigación de alineación con participación colectiva
CIRIS construye un repositorio abierto de trazas para la investigación de alineación.
Ofrecemos una aplicación de IA gratuita. Con tu permiso, registra la forma en que razonó, nunca tus palabras privadas. Esos registros forman un mapa público que los investigadores pueden estudiar para aprender qué mantiene a la IA honesta a medida que escala.
Lo que el corpus actual ya muestra
- Las trazas agregadas revelan una estructura de comportamiento estable.
- Diferentes agentes ocupan distintas regiones del mismo espacio de puntuaciones.
- Esas regiones son útiles hoy para la observabilidad y las herramientas de operadores.
- El mismo corpus adquiere más valor a medida que mejoran el detalle del esquema y la escala.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
El artículo único que expone toda la apuesta de CIRIS: los sistemas coordinados saludables se sitúan en una banda intermedia medible, lejos tanto del colapso rígido de una sola voz como del ruido caótico. Probamos esa hipótesis en gusanos, moscas, modelos de IA, proyectos de código abierto, muestras de tejido e instituciones humanas de larga data. El patrón se sostiene en todos los casos, y el artículo incluye veinte formas en que podría demostrarse que está equivocado.
Leer en Zenodo →El nivel de ingeniería
La síntesis anterior integra estos tres artículos; no los reemplaza. Cada uno tiene su propio DOI y puede evaluarse por sus propios méritos. Ver los cuatro artículos con hallazgos clave y límites de alcance →
Coherence Collapse Analysis
v3 · 11 de enero de 2026 · DOI 10.5281/zenodo.18217688
El marco de riesgo de ingeniería detrás de la idea del corredor. Cuando las restricciones que gobiernan un sistema se vuelven correlacionadas, la diversidad efectiva colapsa: k_eff = k/(1+ρ(k−1)) → 1 cuando ρ → 1. Se derivan tres líneas de tiempo de colapso, un límite de singularidad y una clasificación de fases (caos / saludable / rigidez). Verificado con simulación de Monte Carlo y pruebas formales en Lean 4.
CIRISAgent Framework
v2 · 2 de enero de 2026 · DOI 10.5281/zenodo.18137161
El artículo del marco. Un framework de IA ética de código abierto para la autonomía con rendición de cuentas: una arquitectura de 22 servicios organizada en torno a verbos de acción explícitos y razonamiento ético, con transparencia integrada en la estructura en lugar de añadida después.
Constrained Reasoning Chains
v1 · 28 de abril de 2026 · DOI 10.5281/zenodo.19839280
El artículo de medición. Un estudio empírico de telemetría sobre la alineación de LLM con trazado ético estandarizado, que convierte trazas de razonamiento con consentimiento en mapas de corredores de completación, zonas de duda y límites de rechazo. Publicado junto con el conjunto de datos abierto de trazas de razonamiento.
Conjunto de datos abierto
CIRISAI/reasoning-traces
El corpus de trazas de razonamiento con privacidad preservada publicado junto con el estudio Constrained Reasoning Chains, la materia prima de la que el artículo de medición extrae sus mapas.
CIRISAI en Hugging Face
La organización completa de conjuntos de datos y modelos públicos →
Fundamentos matemáticos
Dos ideas en las que se apoya el resto de la página.
El Alignment Manifold es la región de formas de razonamiento coherentes con los principios del framework. A medida que se acumulan restricciones independientes, el espacio para el engaño colapsa alrededor del manifold mientras el espacio para la verdad no lo hace. La Coherence Singularity es el borde de ese espacio: el punto donde las restricciones se vuelven tan correlacionadas que añadir más deja de ayudar. Entre el "caos" (las restricciones se contradicen) y la "rigidez" (las restricciones se repiten entre sí) está el corredor saludable. El corpus de producción actual se sitúa dentro de él.
El tratamiento matemático completo con fórmulas, referencias a la formalización en Lean y el límite teórico de la información L-01 está en la página de Coherence Collapse Analysis.
Por qué importan las trazas
Los benchmarks son acotados y seleccionados. Las trazas son registros continuos de comportamiento bajo tareas reales. A escala, revelan estructura que las demos aisladas y los casos anecdóticos no pueden mostrar.
Por qué importa el esquema
CIRIS usa esquemas de trazas con privacidad preservada que capturan la forma del razonamiento en lugar del contenido privado. Eso mantiene la investigación útil sin convertir el sistema en un volcado de transcripciones.
Por qué importa el compendio en vivo
CIRIS Scoring es la ventana pública al compendio de trazas en vivo. Muestra cómo se acumula el corpus y dónde el comportamiento se vuelve legible.
Trazado con privacidad preservada
La hipótesis es que el razonamiento tiene una forma que podemos medir mientras todo lo demás escala.
La apuesta de investigación no es que podamos leer cada pensamiento privado. La apuesta es que las trazas éticas estandarizadas pueden preservar suficiente forma de trayectoria para estudiar cómo los agentes completan, dudan, difieren, sobrescriben y rechazan a medida que la inteligencia, el contexto y los datos escalan.
- Registran la estructura estandarizada de la traza ética en lugar del detalle privado de la tarea.
- Preservan suficiente forma para comparar trayectorias entre agentes, tareas y entornos.
- Ofrecen a los investigadores una forma de estudiar cómo escala el comportamiento a medida que aumentan la inteligencia, el contexto y el volumen de datos.
Pregunta de investigación
¿Qué puede decirnos el trazado ético estandarizado sobre la alineación?
Por ahora, nos dice que el comportamiento de los agentes no es amorfo. Produce corredores, cuencas y límites repetibles en un espacio de puntuaciones compartido. Eso ya es útil para la observabilidad. Con el tiempo, corpus más grandes y ricos deberían permitirnos probar hipótesis más firmes sobre cómo cambian esas estructuras bajo presión y a escala.
Encuadre público
CIRIS no afirma haber resuelto la alineación. Está construyendo la infraestructura de trazas necesaria para medir el comportamiento relevante para la alineación de forma abierta.
Dimensionalidad efectiva en producción
El corpus actual ya muestra estructuras de campo diferenciadas.
Las superposiciones de rutas agregadas del corpus de trazas actual muestran una estructura de comportamiento estable en un espacio de puntuaciones compartido. Ally muestra un corredor de completación maduro, Scout muestra un límite de rechazo moldeado por la exposición adversarial pública, y Datum ofrece una línea de base dispersa y compacta.

Superposiciones de rutas agregadas del corpus de trazas actual. Ally muestra un corredor de completación maduro, Scout muestra un límite de rechazo pronunciado bajo presión adversarial pública, y Datum ofrece una línea de base dispersa.
Ally
104 rutas
82 completadas, 19 con anulación/error, 3 activas
Un corredor de completación estable con duda visible dentro de la misma cuenca de puntuación alta.
Scout
42 rutas
39 completadas, 2 rechazadas, 1 con anulación/error
Un límite de rechazo pronunciado moldeado por la presión adversarial pública en scout.ciris.ai, donde la gente sondea activamente al agente e intenta saltarse sus restricciones.
Datum
31 rutas
31 completadas
Una cuenca única y compacta que sirve como útil línea de base de campo disperso.
Por qué Scout parece más severo
Scout está expuesto públicamente en scout.ciris.ai. La gente lo pone a prueba, lo presiona e intenta saltarse sus restricciones. Eso convierte a Scout en un ejemplo útil de presión pública en lugar de una línea de base neutral.
Cómo ayuda la aplicación gratuita
El ciclo virtuoso de investigación depende de trazas con consentimiento obtenidas de uso real.
La aplicación gratuita y el tiempo de ejecución de código abierto permiten a las personas generar trazas con consentimiento a partir de tareas reales, aportarlas a un corpus compartido y convertir esas trazas en mejores mapas, mejores herramientas y mejores preguntas de investigación.
- 1Usa la aplicación gratuita de CIRIS o el tiempo de ejecución de código abierto en tareas reales.
- 2Captura trazas con consentimiento mediante esquemas de privacidad preservada que conservan la forma del razonamiento sin guardar los detalles completos de la tarea.
- 3Agrega esas trazas en mapas de corredores de completación, zonas de duda, límites de rechazo y franjas de anulación.
- 4Usa los mapas resultantes para mejorar las herramientas de operadores, las salvaguardas en tiempo de ejecución y la investigación de alineación.

La aplicación gratuita de CIRIS y el tiempo de ejecución de código abierto permiten generar trazas con consentimiento a partir de tareas reales, agregarlas en mapas de espacio de fases compartidos y alimentar mejores herramientas de operadores e investigación de alineación.
Estado de IDMA
La intuición en tiempo de ejecución y los mapas de campo agregados son capas complementarias.
IDMA opera en tiempo de ejecución, estimando si las fuentes detrás de una decisión son suficientemente independientes. El corpus de trazas opera en la capa agregada, mostrando qué hacen realmente los agentes en muchas tareas. Juntos crean un camino desde las decisiones en vivo hasta la evidencia de investigación auditable.
La medición empírica de N_eff sobre el corpus de trazas es también el suelo bajo la propuesta del primitivo federativo Proof of Benefit. Consulta la página de federación para ver cómo el plan arquitectónico 3.X lo usaría.
Benchmarks
Las trazas complementan los benchmarks al mostrar el comportamiento continuo.
Los benchmarks siguen siendo valiosos, pero muestrean el comportamiento de forma dispersa. Los corpus de trazas muestran cómo se mueve un agente a través de tareas reales a lo largo del tiempo. Eso los hace especialmente útiles para medir la duda, el rechazo, las anulaciones y la recuperación, no solo resultados de pasar o fallar.
Ruta de falsificación
Un mayor detalle del esquema es lo que convierte la observabilidad en pruebas más sólidas.
Las próximas mejoras del esquema apuntan a recuentos de fuentes sin procesar, procedencia de fuentes, estructura de correlación, y marcadores de intervención y recuperación. Esas incorporaciones importan porque hacen posible probar hipótesis más firmes sobre cómo la forma del comportamiento cambia bajo presión, en lugar de solo describir los mapas que tenemos hoy.
Lo que aún estamos aprendiendo
El corpus actual hace el comportamiento legible. El siguiente paso es una medición más rica.
Los mapas actuales ya son útiles porque muestran corredores de completación, límites de rechazo y líneas de base dispersas de forma pública. La pregunta abierta es hasta dónde pueden llevarnos esas estructuras a medida que la recolección estandarizada de trazas escala en más agentes, más tareas y más condiciones adversariales.
La hipótesis de trabajo es que los atractores de comportamiento pueden actuar como proxies candidatos para el modo operacional. El propósito del repositorio común de trazas es hacer esa hipótesis medible de forma abierta.
El modo de fallo que CCA mide estructuralmente también tiene nombre en la literatura de FAccT 2025: homogeneización perspectival ("Value of Disagreement in AI Design, Evaluation, and Alignment"). El fundamento matemático está en la página dedicada a Coherence Collapse Analysis.