Довіряти вагам або перевіряти поведінку

Головний напрям безпеки ШІ намагається зробити модель хорошою зсередини: тренувати її цінності, вивчати її думки, змушувати її сперечатися з собою. Ця робота важлива. CIRIS робить ставку на інший шлях. Припускаємо, що здатна модель може бути неузгодженою, і замість того, щоб довіряти її розуму, робимо її значущі дії підзвітними перед людьми та іншими системами, які можуть їх перевірити.

У власних термінах галузі CIRIS знаходиться в інституційній гілці та гілці контролю, поруч із контролем ШІ та гарантовано безпечним ШІ, а не в основному напрямі інтерналізації цінностей RLHF, конституційного ШІ, дебатів та інтерпретованості. Його відповідь на масштабований нагляд, як наглядати за чимось розумнішим за вас, полягає в перевірці конверту підзвітності, а не міркувань. Підпис, кворум, аудит із ланцюговими хешами залишаються дешевими для перевірки, навіть коли рішення за ними надлюдське. Це узгоджує системи з багатьох здатних агентів з часом, а не цінності будь-якого одного розуму.

Лінія, яку ми тримаємо

Він не намагається узгодити один всемогутній ШІ. Навмисно.

Підзвітність потребує більше ніж однієї сторони. Когось, перед ким відповідати. Спосіб перевірки, який не можна тихо поглинути. Баланс сили, який жодна зі сторін не може захопити. Єдиний суперінтелект не має нічого з цього, тому немає чесного способу тримати його підзвітним. CIRIS побудований для іншого майбутнього: багато здатних агентів, людей та організацій, чиї значущі рішення всі незалежно перевіряються.

Тому позиція є явною. Одиничний ASI це не система для узгодження, а умова для запобігання. Концентрація надлюдських можливостей в одному непідзвітному місці, на цьому етапі розвитку людських інститутів, є нелегітимною, бо жодні інститути не достатньо зрілі, щоб тримати її підзвітною, і саме це є небезпекою. У власних термінах фреймворку одиничність це колапс єдиного голосу ρ→1, який модель коридору називає провалом координації, а не успіхом. Те, що наші гарантії діють у федерації та руйнуються проти одиничності, це не прогалина, яку ми латаємо. Це режим, який ми відмовляємося легітимізувати, утримуваний як зобов'язання, а не лише передбачення.

Пов'язані роботи, чесно

Кожен близький сусід заповнює деякі комірки. Один рядок заповнює їх усі.

CIRIS має серйозних інтелектуальних колег, кожен сильний у своїй галузі. Мета цієї таблиці не в тому, що ідеї є безпрецедентними. Вона в тому, що майже ніхто не побудував і не відправив увесь стек як єдину підзвітну систему. Кожен рядок нижче є справжньою лінією, яку варто читати. Лише останній рядок перевіряє кожну колонку, і ця інтеграція є твердженням.

Підхід	Найближча робота	Механізм	Під час виконання, а не навчання	Підписує рішення	Конституція під час виконання	Федеративна верифікація	Виконувана відповідність	Відправлено
Інституційна теза	Gillian Hadfield	Нормативна інфраструктура та регуляторні ринки, як теорія та політика	Теорія	Ні	Теорія	Теорія	Ні	Ні
Графи управління	Інституційний ШІ (Pierucci та ін.)	Публічні графи правових станів і санкцій, як дослідницький прототип	Дослідження	Ні	Дослідження	Ні	Ні	Ні
Конституційне управління в ланцюзі	AgentCity (Ruan, Zhang)	Поділ влади як розумні контракти, попередньо зареєстровані в тестовій мережі	Дослідження	Частково	Дослідження	Ні	Ні	Ні
Припустити, що модель неузгоджена	Redwood Research (контроль ШІ)	Моніторинг і червоні команди всередині одного розгортання	Так	Ні	Ні	Ні	Дослідження	Дослідження
Доказово безпечний, зовнішній	davidad, Bengio, лінія GS-AI	Формальні докази над моделями світу	Частково	Ні	Теорія	Теорія	Дослідження	Ні
Конституція під час навчання	Anthropic Constitutional AI	Цінності, навчені у вагах, одна організація	Ні	Ні	Ні	Ні	Ні	Так
Криптографічне походження	C2PA, zkML (EZKL, Giza)	Підписати походження медіа, довести, що виведення виконувалося	Так	Частково	Ні	Частково	Частково	Так
Підписаний DAG міркувань	Proof of Insight (Arclio)	Підписаний граф кроків виведення ШІ, як чернетка специфікації	Ні	Частково	Ні	Теорія	Теорія	Ні
Апаратно засвідчене виведення	Phala, Marlin, Attestable Audits	Виконує виведення в захищеному анклаві, який підписує результат	Так	Частково	Ні	Частково	Ні	Частково
Децентралізована ідентичність і федерація	atproto, Bittensor	Соціальна або обчислювальна федерація, без шару совісті	Частково	Ні	Ні	Частково	Частково	Так
Протоколи агентів	MCP, A2A	Інтероперабельність інструментів і агентів, без управління	Так	Ні	Ні	Ні	Частково	Так
Набори оцінки безпеки та відповідності	MLCommons, METR, HarmBench	Виконувані еталони, що оцінюють поведінку моделі, а не рішення	Ні	Ні	Ні	Ні	Частково	Так
Сторонній і федеративний аудит	Мережа AISI, GovAI	Незалежні інститути спільно тестують розгорнуті системи	Частково	Ні	Ні	Так	Ні	Частково
CIRIS	Ця система	Конвеєр совісті до підписаних артефактів, конституція під час виконання, пост-квантова федерація	Так	Так	Так	Так	Так	Так

Відображено на основі публічних робіт станом на червень 2026 року, кожен рядок процитований нижче. Якщо ми неправильно відобразили близького сусіда, скажіть нам, і ми виправимо рядок.

Джерела

02Споживчий ШІ

Як це порівнюється з ШІ, яким ви користуєтеся

Щоденні асистенти потужні та прості у використанні. Вони також працюють у чужій хмарі, не зберігають записів, які ви можете перевірити, і не відповідають нікому, кого ви можете назвати. Ось той самий тест на підзвітність, застосований до ШІ, який більшість людей відкривають щодня.

Асистент	Опубліковані принципи	Доказ того, що він зробив	Запитує людину, коли не впевнений	Відкритий код	Перевірка луна-камери
ChatGPT	Так	Ні	Ні	Ні	Ні
Gemini	Так	Ні	Ні	Ні	Ні
Claude	Так	Ні	Ні	Ні	Ні
CIRIS	Так	Так	Так	Так	Так

Порівняння за публічною поведінкою продукту станом на червень 2026 року. Кожне посилання на принципи веде до власної опублікованої специфікації тієї компанії.

Більшість галузі узгоджує модель. CIRIS будує інститути навколо неї.

Довіряти вагам або перевіряти поведінку

Він не намагається узгодити один всемогутній ШІ. Навмисно.

Як це порівнюється з ШІ, яким ви користуєтеся

Спробуйте самі

Дивіться, як він думає

Перевірте його особу

Розпочати