Краудсорсинг у дослідженнях вирівнювання
CIRIS будує відкритий публічний архів трасувань для досліджень вирівнювання.
Ми безкоштовно роздаємо AI-додаток. За вашої згоди він записує форму того, як він міркував, але ніколи — ваших особистих слів. Ці записи стають публічною картою, яку дослідники можуть вивчати, щоб дізнатись, що дозволяє AI залишатись чесним у міру масштабування.
Що вже показує поточний корпус
- Агреговані трасування виявляють стабільну поведінкову структуру.
- Різні агенти займають різні ділянки одного й того самого просторового виміру оцінок.
- Ці ділянки вже сьогодні корисні для спостережуваності й інструментів операторів.
- Той самий корпус стає ціннішим у міру покращення деталізації схеми та масштабу.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
Єдина стаття, що викладає всю ставку CIRIS: здорові скоординовані системи знаходяться в середній вимірюваній смузі, далеко як від жорсткого колапсу єдиного голосу, так і від хаотичного шуму. Ми перевірили це твердження на черв'яках, мушках, моделях AI, проектах з відкритим кодом, зразках тканин і довготривалих людських установах. Закономірність підтверджується в кожному випадку, і стаття наводить двадцять способів її спростувати.
Читати на Zenodo →Інженерний рівень
Наведений вище синтез інтегрує ці три статті, але не замінює їх. Кожна має власний DOI і може оцінюватись самостійно. Переглянути всі чотири статті з ключовими висновками й обмеженнями →
Coherence Collapse Analysis
v3 · 11 січня 2026 р. · DOI 10.5281/zenodo.18217688
Інженерна система оцінки ризиків у межах ідеї коридору. Коли обмеження, що керують системою, стають корельованими, ефективна різноманітність колапсує: k_eff = k/(1+ρ(k−1)) → 1 при ρ → 1. Виводяться три часові шкали колапсу, межа сингулярності та фазова класифікація (хаос / здорова зона / жорсткість). Перевірено методом Монте-Карло та доведено за допомогою Lean 4.
CIRISAgent Framework
v2 · 2 січня 2026 р. · DOI 10.5281/zenodo.18137161
Фреймворкова стаття. Відкрита етична AI-система для підзвітної автономії: архітектура з 22 сервісів, організована навколо явних дієслів дій та етичного міркування, де прозорість вбудована в саму структуру, а не додана пізніше.
Constrained Reasoning Chains
v1 · 28 квітня 2026 р. · DOI 10.5281/zenodo.19839280
Вимірювальна стаття. Емпіричне телеметричне дослідження вирівнювання LLM на основі стандартизованого етичного трасування, що перетворює трасування міркувань зі згодою користувачів на карти коридорів завершення, зон коливання та меж відмов. Опубліковано разом із відкритим датасетом трасувань міркувань.
Відкритий датасет
CIRISAI/reasoning-traces
Корпус трасувань міркувань із збереженням приватності, опублікований разом із дослідженням Constrained Reasoning Chains, — вихідний матеріал, з якого вимірювальна стаття будує свої карти.
CIRISAI на Hugging Face
Повна організація публічних датасетів і моделей →
Математичні основи
Дві ідеї, на яких тримається решта цієї сторінки.
Маніфолд вирівнювання — це область форм міркувань, узгоджених з принципами фреймворку. Коли незалежні обмеження накопичуються, простір для обману стискається навколо маніфолду, тоді як простір для правди — ні. Сингулярність узгодженості — це край цього простору, точка, де обмеження стають настільки корельованими, що додавання нових перестає допомагати. Між «хаосом» (обмеження суперечать одне одному) і «жорсткістю» (обмеження повторюють одне одного) знаходиться здоровий коридор. Поточний виробничий корпус знаходиться всередині нього.
Повний математичний апарат із формулами, посиланнями на формалізацію в Lean та інформаційно-теоретична стеля L-01 є на сторінці Coherence Collapse Analysis.
Чому трасування мають значення
Бенчмарки вузькі та підібрані вручну. Трасування — це безперервні записи поведінки під час реальних завдань. У масштабі вони виявляють структуру, яку не можна побачити в ізольованих демонстраціях і поодиноких прикладах.
Чому схема має значення
CIRIS використовує схеми трасувань із збереженням приватності, що фіксують форму міркувань, а не їхній особистий зміст. Це зберігає дослідницьку корисність, не перетворюючи систему на сховище транскриптів.
Чому живий архів має значення
CIRIS Scoring — публічне вікно у живий архів трасувань. Він показує, як накопичується корпус і де поведінка стає зрозумілою.
Трасування зі збереженням приватності
Теза полягає в тому, що міркування мають форму, яку ми можемо вимірювати у міру масштабування всього іншого.
Дослідницька ставка — не в тому, щоб читати кожну особисту думку. Ставка полягає в тому, що стандартизовані етичні трасування можуть зберегти достатньо форми траєкторії, щоб вивчати, як агенти завершують, вагаються, передають, перевизначають і відмовляють у міру зростання інтелекту, контексту та кількості точок даних.
- Вони записують стандартизовану структуру етичного трасування, а не сирі деталі приватних завдань.
- Вони зберігають достатньо форми, щоб порівнювати траєкторії між агентами, завданнями та середовищами.
- Вони дають дослідникам спосіб вивчати, як поведінка змінюється зі зростанням інтелекту, контексту та обсягу даних.
Дослідницьке питання
Що стандартизоване етичне трасування може розповісти нам про вирівнювання?
Зараз воно говорить нам, що поведінка агента не є безформною. Вона породжує відтворювані коридори, басейни та межі в спільному просторі оцінок. Це вже корисно для спостережуваності. Згодом більші та багатші корпуси мають дозволити нам перевіряти сильніші твердження про те, як ці структури змінюються під тиском і при масштабуванні.
Публічне позиціонування
CIRIS не стверджує, що вирішила проблему вирівнювання. Вона будує трасувальну інфраструктуру, необхідну для відкритого вимірювання поведінки, релевантної вирівнюванню.
Ефективна розмірність у виробничому середовищі
Поточний корпус вже демонструє виразні польові структури.
Агреговані накладення шляхів з поточного корпусу трасувань показують стабільну поведінкову структуру в спільному просторі оцінок. Ally демонструє зрілий коридор завершення, Scout — межу відмов, сформовану публічним протидіяльним впливом, а Datum забезпечує компактний розріджений базовий рівень.

Агреговані накладення шляхів з поточного корпусу трасувань. Ally показує зрілий коридор завершення, Scout — гострий кут відмов під публічним протидіяльним тиском, а Datum забезпечує розріджений базовий рівень.
Ally
104 шляхів
82 завершено, 19 перевизначень/помилок, 3 активних
Стабільний коридор завершення з видимим коливанням всередині того самого басейну з високими оцінками.
Scout
42 шляхів
39 завершено, 2 відмовлено, 1 перевизначення/помилка
Гострий кут відмов, сформований публічним протидіяльним тиском на scout.ciris.ai, де люди активно зондують і намагаються зламати агента.
Datum
31 шляхів
31 завершено
Компактний єдиний басейн, що слугує корисним розрідженим базовим рівнем.
Чому Scout виглядає суворіше
Scout публічно доступний за адресою scout.ciris.ai. Люди активно його тестують, тиснуть на нього і намагаються зламати. Це робить Scout корисним прикладом публічного тиску, а не нейтральним базовим рівнем.
Як безкоштовний додаток допомагає
Дослідницький маховик залежить від трасувань зі згодою з реального використання.
Безкоштовний додаток і рантайм з відкритим кодом дозволяють людям створювати трасування зі згодою з реальних завдань, додавати їх у спільний корпус і перетворювати ці трасування на кращі карти, кращі інструменти та кращі дослідницькі питання.
- 1Запускайте безкоштовний додаток CIRIS або рантайм з відкритим кодом для реальних завдань.
- 2Захоплюйте трасування зі згодою через схеми зі збереженням приватності, що зберігають форму міркувань, не записуючи всіх деталей завдання.
- 3Агрегуйте ці трасування в карти коридорів завершення, зон коливання, меж відмов та периферії перевизначень.
- 4Використовуйте отримані карти для покращення інструментів операторів, засобів захисту рантайму та дослідження вирівнювання.

Безкоштовний додаток CIRIS і рантайм з відкритим кодом дозволяють людям створювати трасування зі згодою з реальних завдань, агрегувати їх у спільні карти фазового простору та підживлювати кращі оператори і дослідження вирівнювання.
Стан IDMA
Інтуїція рантайму і агреговані польові карти — це взаємодоповнювальні рівні.
IDMA працює в рантаймі, оцінюючи, чи є джерела за рішенням достатньо незалежними. Корпус трасувань працює на агрегованому рівні, показуючи, що агенти реально роблять у багатьох завданнях. Разом вони створюють шлях від живих рішень до перевірених дослідницьких свідчень.
Емпіричне вимірювання N_eff на корпусі трасувань також є підлогою під запропонованим федеративним примітивом Proof of Benefit. Дивіться сторінку федерації, щоб дізнатись, як архітектурний план 3.X використовуватиме його.
Бенчмарки
Трасування доповнюють бенчмарки, показуючи безперервну поведінку.
Бенчмарки все ще цінні, але вони вибірково відображають поведінку. Корпуси трасувань показують, як агент рухається через реальні завдання з часом. Це робить їх особливо корисними для вимірювання коливання, відмов, перевизначень і відновлення, а не лише результатів типу «пройшов/не пройшов».
Шлях до фальсифікації
Детальніша схема — ось що перетворює спостережуваність на сильніші тести.
Наступні оновлення схеми спрямовані на підрахунок джерел, простеження їх походження, кореляційну структуру та маркери втручання й відновлення. Ці доповнення важливі, оскільки вони дозволяють перевіряти сильніші твердження про те, як поведінкова форма змінюється під тиском, а не лише описувати карти, що є сьогодні.
Що ми ще вивчаємо
Сьогоднішній корпус робить поведінку зрозумілою. Наступний крок — багатше вимірювання.
Поточні карти вже корисні, оскільки публічно демонструють коридори завершення, межі відмов і розріджені базові рівні. Відкрите питання — наскільки ці структури можуть просунути нас уперед у міру масштабування стандартизованого збору трасувань на більшій кількості агентів, завдань і протидіяльних умов.
Робоча гіпотеза полягає в тому, що поведінкові атрактори можуть слугувати кандидатними проксі для операційного режиму. Мета архіву трасувань — зробити цю гіпотезу відкрито вимірюваною.
Режим відмов, який CCA структурно вимірює, має ім'я і в літературі FAccT 2025: перспективна гомогенізація («Value of Disagreement in AI Design, Evaluation, and Alignment»). Математичне підґрунтя є на відповідній сторінці Coherence Collapse Analysis.