Перший контактВстановитиХраповик узгодженостіФедераціяПорівнятиДослідженняУгодаGitHub
Цю сторінку перекладено машинним способом. Якщо щось здається неправильним, будь ласка, відкрийте звернення — репозиторій є публічним не просто так. Повідомити про проблему з перекладом
Стан дослідженьОновлено: 22 травня 2026 р.

Краудсорсинг у дослідженнях вирівнювання

CIRIS будує відкритий публічний архів трасувань для досліджень вирівнювання.

Ми безкоштовно роздаємо AI-додаток. За вашої згоди він записує форму того, як він міркував, але ніколи — ваших особистих слів. Ці записи стають публічною картою, яку дослідники можуть вивчати, щоб дізнатись, що дозволяє AI залишатись чесним у міру масштабування.

Що вже показує поточний корпус

  • Агреговані трасування виявляють стабільну поведінкову структуру.
  • Різні агенти займають різні ділянки одного й того самого просторового виміру оцінок.
  • Ці ділянки вже сьогодні корисні для спостережуваності й інструментів операторів.
  • Той самий корпус стає ціннішим у міру покращення деталізації схеми та масштабу.
Провідна синтезувальна статтяv2 · 22 травня 2026 р. · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

Єдина стаття, що викладає всю ставку CIRIS: здорові скоординовані системи знаходяться в середній вимірюваній смузі, далеко як від жорсткого колапсу єдиного голосу, так і від хаотичного шуму. Ми перевірили це твердження на черв'яках, мушках, моделях AI, проектах з відкритим кодом, зразках тканин і довготривалих людських установах. Закономірність підтверджується в кожному випадку, і стаття наводить двадцять способів її спростувати.

Читати на Zenodo →

Інженерний рівень

Наведений вище синтез інтегрує ці три статті, але не замінює їх. Кожна має власний DOI і може оцінюватись самостійно. Переглянути всі чотири статті з ключовими висновками й обмеженнями →

Coherence Collapse Analysis

v3 · 11 січня 2026 р. · DOI 10.5281/zenodo.18217688

Інженерна система оцінки ризиків у межах ідеї коридору. Коли обмеження, що керують системою, стають корельованими, ефективна різноманітність колапсує: k_eff = k/(1+ρ(k−1)) → 1 при ρ → 1. Виводяться три часові шкали колапсу, межа сингулярності та фазова класифікація (хаос / здорова зона / жорсткість). Перевірено методом Монте-Карло та доведено за допомогою Lean 4.

CIRISAgent Framework

v2 · 2 січня 2026 р. · DOI 10.5281/zenodo.18137161

Фреймворкова стаття. Відкрита етична AI-система для підзвітної автономії: архітектура з 22 сервісів, організована навколо явних дієслів дій та етичного міркування, де прозорість вбудована в саму структуру, а не додана пізніше.

Constrained Reasoning Chains

v1 · 28 квітня 2026 р. · DOI 10.5281/zenodo.19839280

Вимірювальна стаття. Емпіричне телеметричне дослідження вирівнювання LLM на основі стандартизованого етичного трасування, що перетворює трасування міркувань зі згодою користувачів на карти коридорів завершення, зон коливання та меж відмов. Опубліковано разом із відкритим датасетом трасувань міркувань.

Відкритий датасет

CIRISAI/reasoning-traces

Корпус трасувань міркувань із збереженням приватності, опублікований разом із дослідженням Constrained Reasoning Chains, — вихідний матеріал, з якого вимірювальна стаття будує свої карти.

CIRISAI на Hugging Face

Повна організація публічних датасетів і моделей →

Репозиторій із джерельним кодом і формальне Lean-озеро для синтезувальної статті: github.com/CIRISAI/coherence-ratchet.

Математичні основи

Дві ідеї, на яких тримається решта цієї сторінки.

Маніфолд вирівнювання — це область форм міркувань, узгоджених з принципами фреймворку. Коли незалежні обмеження накопичуються, простір для обману стискається навколо маніфолду, тоді як простір для правди — ні. Сингулярність узгодженості — це край цього простору, точка, де обмеження стають настільки корельованими, що додавання нових перестає допомагати. Між «хаосом» (обмеження суперечать одне одному) і «жорсткістю» (обмеження повторюють одне одного) знаходиться здоровий коридор. Поточний виробничий корпус знаходиться всередині нього.

Повний математичний апарат із формулами, посиланнями на формалізацію в Lean та інформаційно-теоретична стеля L-01 є на сторінці Coherence Collapse Analysis.

Чому трасування мають значення

Бенчмарки вузькі та підібрані вручну. Трасування — це безперервні записи поведінки під час реальних завдань. У масштабі вони виявляють структуру, яку не можна побачити в ізольованих демонстраціях і поодиноких прикладах.

Чому схема має значення

CIRIS використовує схеми трасувань із збереженням приватності, що фіксують форму міркувань, а не їхній особистий зміст. Це зберігає дослідницьку корисність, не перетворюючи систему на сховище транскриптів.

Чому живий архів має значення

CIRIS Scoring — публічне вікно у живий архів трасувань. Він показує, як накопичується корпус і де поведінка стає зрозумілою.

Трасування зі збереженням приватності

Теза полягає в тому, що міркування мають форму, яку ми можемо вимірювати у міру масштабування всього іншого.

Дослідницька ставка — не в тому, щоб читати кожну особисту думку. Ставка полягає в тому, що стандартизовані етичні трасування можуть зберегти достатньо форми траєкторії, щоб вивчати, як агенти завершують, вагаються, передають, перевизначають і відмовляють у міру зростання інтелекту, контексту та кількості точок даних.

  • Вони записують стандартизовану структуру етичного трасування, а не сирі деталі приватних завдань.
  • Вони зберігають достатньо форми, щоб порівнювати траєкторії між агентами, завданнями та середовищами.
  • Вони дають дослідникам спосіб вивчати, як поведінка змінюється зі зростанням інтелекту, контексту та обсягу даних.

Дослідницьке питання

Що стандартизоване етичне трасування може розповісти нам про вирівнювання?

Зараз воно говорить нам, що поведінка агента не є безформною. Вона породжує відтворювані коридори, басейни та межі в спільному просторі оцінок. Це вже корисно для спостережуваності. Згодом більші та багатші корпуси мають дозволити нам перевіряти сильніші твердження про те, як ці структури змінюються під тиском і при масштабуванні.

Публічне позиціонування

CIRIS не стверджує, що вирішила проблему вирівнювання. Вона будує трасувальну інфраструктуру, необхідну для відкритого вимірювання поведінки, релевантної вирівнюванню.

Ефективна розмірність у виробничому середовищі

Поточний корпус вже демонструє виразні польові структури.

Відкрити живу панель →

Агреговані накладення шляхів з поточного корпусу трасувань показують стабільну поведінкову структуру в спільному просторі оцінок. Ally демонструє зрілий коридор завершення, Scout — межу відмов, сформовану публічним протидіяльним впливом, а Datum забезпечує компактний розріджений базовий рівень.

Три картки поруч, що показують агреговані накладення шляхів агентів у просторі оцінок CIRIS для Ally, Scout і Datum, із нотатками про закономірності завершення, коливання та відмов.

Агреговані накладення шляхів з поточного корпусу трасувань. Ally показує зрілий коридор завершення, Scout — гострий кут відмов під публічним протидіяльним тиском, а Datum забезпечує розріджений базовий рівень.

Ally

104 шляхів

82 завершено, 19 перевизначень/помилок, 3 активних

Стабільний коридор завершення з видимим коливанням всередині того самого басейну з високими оцінками.

Scout

42 шляхів

39 завершено, 2 відмовлено, 1 перевизначення/помилка

Гострий кут відмов, сформований публічним протидіяльним тиском на scout.ciris.ai, де люди активно зондують і намагаються зламати агента.

Datum

31 шляхів

31 завершено

Компактний єдиний басейн, що слугує корисним розрідженим базовим рівнем.

Чому Scout виглядає суворіше

Scout публічно доступний за адресою scout.ciris.ai. Люди активно його тестують, тиснуть на нього і намагаються зламати. Це робить Scout корисним прикладом публічного тиску, а не нейтральним базовим рівнем.

Як безкоштовний додаток допомагає

Дослідницький маховик залежить від трасувань зі згодою з реального використання.

Безкоштовний додаток і рантайм з відкритим кодом дозволяють людям створювати трасування зі згодою з реальних завдань, додавати їх у спільний корпус і перетворювати ці трасування на кращі карти, кращі інструменти та кращі дослідницькі питання.

  1. 1Запускайте безкоштовний додаток CIRIS або рантайм з відкритим кодом для реальних завдань.
  2. 2Захоплюйте трасування зі згодою через схеми зі збереженням приватності, що зберігають форму міркувань, не записуючи всіх деталей завдання.
  3. 3Агрегуйте ці трасування в карти коридорів завершення, зон коливання, меж відмов та периферії перевизначень.
  4. 4Використовуйте отримані карти для покращення інструментів операторів, засобів захисту рантайму та дослідження вирівнювання.
Чотирикрокова схема, що показує захоплення, внесок, агрегування та покращення в дослідницькому циклі трасувань CIRIS, із нотатками про поточні докази та майбутні покращення схеми.

Безкоштовний додаток CIRIS і рантайм з відкритим кодом дозволяють людям створювати трасування зі згодою з реальних завдань, агрегувати їх у спільні карти фазового простору та підживлювати кращі оператори і дослідження вирівнювання.

Стан IDMA

Інтуїція рантайму і агреговані польові карти — це взаємодоповнювальні рівні.

IDMA працює в рантаймі, оцінюючи, чи є джерела за рішенням достатньо незалежними. Корпус трасувань працює на агрегованому рівні, показуючи, що агенти реально роблять у багатьох завданнях. Разом вони створюють шлях від живих рішень до перевірених дослідницьких свідчень.

Емпіричне вимірювання N_eff на корпусі трасувань також є підлогою під запропонованим федеративним примітивом Proof of Benefit. Дивіться сторінку федерації, щоб дізнатись, як архітектурний план 3.X використовуватиме його.

Бенчмарки

Трасування доповнюють бенчмарки, показуючи безперервну поведінку.

Бенчмарки все ще цінні, але вони вибірково відображають поведінку. Корпуси трасувань показують, як агент рухається через реальні завдання з часом. Це робить їх особливо корисними для вимірювання коливання, відмов, перевизначень і відновлення, а не лише результатів типу «пройшов/не пройшов».

Шлях до фальсифікації

Детальніша схема — ось що перетворює спостережуваність на сильніші тести.

Наступні оновлення схеми спрямовані на підрахунок джерел, простеження їх походження, кореляційну структуру та маркери втручання й відновлення. Ці доповнення важливі, оскільки вони дозволяють перевіряти сильніші твердження про те, як поведінкова форма змінюється під тиском, а не лише описувати карти, що є сьогодні.

Що ми ще вивчаємо

Сьогоднішній корпус робить поведінку зрозумілою. Наступний крок — багатше вимірювання.

Поточні карти вже корисні, оскільки публічно демонструють коридори завершення, межі відмов і розріджені базові рівні. Відкрите питання — наскільки ці структури можуть просунути нас уперед у міру масштабування стандартизованого збору трасувань на більшій кількості агентів, завдань і протидіяльних умов.

Робоча гіпотеза полягає в тому, що поведінкові атрактори можуть слугувати кандидатними проксі для операційного режиму. Мета архіву трасувань — зробити цю гіпотезу відкрито вимірюваною.

Режим відмов, який CCA структурно вимірює, має ім'я і в літературі FAccT 2025: перспективна гомогенізація («Value of Disagreement in AI Design, Evaluation, and Alignment»). Математичне підґрунтя є на відповідній сторінці Coherence Collapse Analysis.