Краудсорсинг исследований по выравниванию
CIRIS создаёт открытый архив трассировок для исследований по выравниванию.
Мы раздаём бесплатное AI-приложение. С вашего согласия оно записывает форму процесса рассуждения, но никогда — ваши личные слова. Эти записи становятся публичной картой, которую исследователи могут изучать, чтобы понять, что помогает AI оставаться честным по мере роста его возможностей.
Что уже показывает текущий корпус
- Совокупные трассировки обнаруживают устойчивую поведенческую структуру.
- Разные агенты занимают разные области одного и того же пространства оценок.
- Эти области уже сегодня полезны для наблюдаемости и инструментов операторов.
- Тот же корпус становится ценнее по мере улучшения детализации схемы и масштаба.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
Единственная статья, в которой изложена вся ставка CIRIS: здоровые скоординированные системы находятся в измеримой срединной полосе, вдали от жёсткого коллапса в единственный голос и от хаотичного шума. Мы проверили это утверждение на червях, мухах, AI-моделях, проектах с открытым кодом, образцах тканей и долгоживущих человеческих институтах. Закономерность подтвердилась в каждом случае, и статья содержит двадцать способов её опровергнуть.
Читать на Zenodo →Инженерный уровень
Приведённая выше сводная статья объединяет три статьи ниже, но не заменяет их. Каждая имеет собственный DOI и может оцениваться самостоятельно. Смотреть все четыре статьи с ключевыми выводами и пределами применимости →
Coherence Collapse Analysis
v3 · 11 янв. 2026 г. · DOI 10.5281/zenodo.18217688
Инженерная система управления рисками в рамках концепции коридора. Когда ограничения, управляющие системой, становятся коррелированными, эффективное разнообразие коллапсирует: k_eff = k/(1+ρ(k−1)) → 1 при ρ → 1. Выводятся три временны́е шкалы коллапса, граница сингулярности и фазовая классификация (хаос / норма / жёсткость). Верифицировано методом Монте-Карло и доказательствами Lean 4.
CIRISAgent Framework
v2 · 2 янв. 2026 г. · DOI 10.5281/zenodo.18137161
Фреймворк-статья. Открытая этическая AI-среда для подотчётной автономии: архитектура из 22 сервисов, организованная вокруг явных глаголов действия и этического рассуждения, где прозрачность встроена в структуру, а не прикреплена позднее.
Constrained Reasoning Chains
v1 · 28 апр. 2026 г. · DOI 10.5281/zenodo.19839280
Измерительная статья. Эмпирическое телеметрическое исследование выравнивания LLM при стандартизированной этической трассировке: согласованные трассировки рассуждений преобразуются в карты коридоров завершения, зон колебаний и границ отказов. Опубликовано вместе с открытым набором данных трассировок рассуждений.
Открытый набор данных
CIRISAI/reasoning-traces
Корпус трассировок рассуждений с защитой приватности, опубликованный вместе с исследованием Constrained Reasoning Chains, — исходный материал, на котором строятся карты измерительной статьи.
CIRISAI на Hugging Face
Полная организация с публичными наборами данных и моделями →
Математические основания
Две идеи, на которых строится весь остальной материал страницы.
Многообразие выравнивания — область форм рассуждений, совместимых с принципами фреймворка. По мере накопления независимых ограничений пространство для обмана сужается вокруг этого многообразия, тогда как пространство для истины не уменьшается. Когерентная сингулярность — граница этого пространства, точка, в которой ограничения становятся настолько коррелированными, что добавление новых уже не помогает. Между «хаосом» (ограничения противоречат друг другу) и «жёсткостью» (ограничения все повторяют одно и то же) находится здоровый коридор. Нынешний производственный корпус находится внутри него.
Полная математическая обработка с формулами, ссылками на формализацию в Lean и информационно-теоретическим потолком L-01 находится на странице Coherence Collapse Analysis.
Почему трассировки важны
Бенчмарки узки и подобраны специально. Трассировки — это непрерывные записи поведения при реальных задачах. В масштабе они выявляют структуру, которую невозможно увидеть по изолированным демонстрациям и отдельным наблюдениям.
Почему схема важна
CIRIS использует схемы трассировок с защитой приватности, которые фиксируют форму рассуждения, а не его личное содержание. Это позволяет исследованиям оставаться полезными, не превращая систему в хранилище расшифровок.
Почему живой архив важен
CIRIS Scoring — публичное окно в живой архив трассировок. Он показывает, как накапливается корпус и где поведение становится читаемым.
Трассировка с защитой приватности
Гипотеза состоит в том, что рассуждение имеет форму, которую можно измерить по мере роста всего остального.
Исследовательская ставка — не в том, чтобы читать каждую личную мысль. Ставка в том, что стандартизированные этические трассировки способны сохранить достаточно формы траектории, чтобы изучить, как агенты завершают, колеблются, откладывают, отменяют и отказывают по мере роста интеллекта, контекста и объёма данных.
- Они фиксируют стандартизированную структуру этической трассировки, а не необработанные личные детали задачи.
- Они сохраняют достаточно формы, чтобы сравнивать траектории между агентами, задачами и окружениями.
- Они дают исследователям возможность изучать, как поведение масштабируется по мере роста интеллекта, контекста и объёма данных.
Исследовательский вопрос
Что стандартизированная этическая трассировка может сказать нам о выравнивании?
Прямо сейчас она говорит нам, что поведение агентов не бесформенно. Оно образует повторяемые коридоры, бассейны и границы в общем пространстве оценок. Это уже полезно для наблюдаемости. Со временем более крупные и детальные корпусы должны позволить нам проверять более сильные утверждения о том, как эти структуры меняются под давлением и при масштабировании.
Публичная позиция
CIRIS не утверждает, что решил проблему выравнивания. Он строит инфраструктуру трассировок, необходимую для измерения поведения, релевантного выравниванию, в открытом доступе.
Эффективная размерность в производстве
Текущий корпус уже обнаруживает отчётливые полевые структуры.
Совокупные наложения путей из текущего корпуса трассировок показывают устойчивую поведенческую структуру в общем пространстве оценок. Ally демонстрирует зрелый коридор завершения, Scout — границу отказов, сформированную открытым состязательным воздействием, а Datum предоставляет компактный разреженный базовый уровень.

Совокупные наложения путей из текущего корпуса трассировок. Ally показывает зрелый коридор завершения, Scout — резкий угол отказов под открытым состязательным давлением, а Datum обеспечивает разреженный базовый уровень.
Ally
104 путей
82 завершено, 19 отменено/ошибка, 3 активны
Устойчивый коридор завершения с видимыми колебаниями внутри того же бассейна с высоким баллом.
Scout
42 путей
39 завершено, 2 отклонено, 1 отменено/ошибка
Резкий угол отказов, сформированный открытым состязательным давлением на scout.ciris.ai, где люди активно зондируют и пытаются взломать агента.
Datum
31 путей
31 завершено
Компактный единственный бассейн, полезный как разреженный базовый уровень.
Почему Scout выглядит строже
Scout открыто доступен по адресу scout.ciris.ai. Люди активно его тестируют, давят на него и пытаются взломать. Это делает Scout полезным примером под публичным давлением, а не нейтральным базовым уровнем.
Как помогает бесплатное приложение
Исследовательский маховик зависит от согласованных трассировок реального использования.
Бесплатное приложение и среда с открытым кодом позволяют людям генерировать согласованные трассировки из реальных задач, вносить их в общий корпус и превращать эти трассировки в лучшие карты, лучшие инструменты и лучшие исследовательские вопросы.
- 1Запустите бесплатное приложение CIRIS или среду с открытым кодом на реальных задачах.
- 2Захватите согласованные трассировки через схемы с защитой приватности, которые сохраняют форму рассуждения, не записывая все детали задачи.
- 3Сведите эти трассировки в карты коридоров завершения, зон колебаний, границ отказов и окраин отмен.
- 4Используйте полученные карты для улучшения инструментов операторов, защиты среды выполнения и исследований по выравниванию.

Бесплатное приложение CIRIS и среда с открытым кодом позволяют людям генерировать согласованные трассировки из реальных задач, агрегировать их в общие карты фазового пространства и поддерживать лучшие инструменты операторов и исследования по выравниванию.
Статус IDMA
Интуиция во время выполнения и агрегированные полевые карты — взаимодополняющие уровни.
IDMA работает во время выполнения, оценивая, достаточно ли независимы источники, лежащие в основе решения. Корпус трассировок работает на агрегированном уровне, показывая, что агенты реально делают на протяжении многих задач. Вместе они создают путь от живых решений к проверяемым исследовательским свидетельствам.
Эмпирическое измерение N_eff на корпусе трассировок также является основой предлагаемого примитива федерации Proof of Benefit. Смотрите страницу федерации, чтобы узнать, как архитектурный план 3.X будет его использовать.
Бенчмарки
Трассировки дополняют бенчмарки, показывая непрерывное поведение.
Бенчмарки по-прежнему ценны, но они выборочно охватывают поведение. Корпусы трассировок показывают, как агент движется через реальные задачи со временем. Это делает их особенно полезными для измерения колебания, отказов, отмен и восстановления, а не только бинарных результатов.
Путь фальсификации
Более детальная схема — вот что превращает наблюдаемость в более строгие проверки.
Следующие обновления схемы направлены на сырые счётчики источников, происхождение источников, структуру корреляции, а также маркеры вмешательства и восстановления. Эти добавления важны, потому что они позволяют проверять более сильные утверждения о том, как форма поведения меняется под давлением, вместо того чтобы только описывать имеющиеся карты.
Что мы ещё изучаем
Нынешний корпус делает поведение читаемым. Следующий шаг — более богатые измерения.
Нынешние карты уже полезны, потому что они публично показывают коридоры завершения, границы отказов и разреженные базовые уровни. Открытый вопрос — насколько далеко эти структуры смогут нас продвинуть по мере того, как стандартизированный сбор трассировок масштабируется на большее число агентов, задач и состязательных условий.
Рабочая гипотеза состоит в том, что поведенческие аттракторы могут служить кандидатами-прокси для операционного режима. Цель архива трассировок — сделать эту гипотезу измеримой в открытом доступе.
Режим отказа, который CCA измеряет структурно, имеет название в литературе FAccT 2025: perspectival homogenization («Value of Disagreement in AI Design, Evaluation, and Alignment»). Математическое основание находится на специальной странице Coherence Collapse Analysis.