Доверять весам или проверять поведение

Главное направление безопасности ИИ пытается сделать модель хорошей изнутри: тренировать её ценности, изучать её мысли, заставлять её спорить с собой. Эта работа важна. CIRIS делает ставку на другой путь. Предположим, что способная модель может быть рассогласованной, и вместо того чтобы доверять её разуму, сделаем её важные действия подотчётными людям и другим системам, которые могут их проверить.

В терминах самой области CIRIS находится в ветви институтов и контроля, рядом с контролем ИИ и гарантированно безопасным ИИ, а не в основном направлении интернализации ценностей через RLHF, Constitutional AI, дебаты и интерпретируемость. Его ответ на масштабируемый надзор, то есть на вопрос, как контролировать нечто умнее тебя, заключается в проверке конверта подотчётности, а не рассуждений. Подпись, кворум, аудит с хэш-цепочкой остаются дёшевы для проверки, даже когда стоящее за ними решение сверхчеловеческое. Система выравнивает многих способных агентов во времени, а не ценности одного разума.

Черта, которую мы держим

Она не пытается выровнять один всесильный ИИ. Намеренно.

Подотчётность требует больше одной стороны. Кого-то, перед кем отвечать. Способа проверки, который нельзя тихо проглотить. Баланса сил, который никто не может захватить. У единственного сверхинтеллекта ничего этого нет, поэтому честного способа привлечь его к ответственности не существует. CIRIS создан для другого будущего: многих способных агентов, людей и организаций, чьи важные решения все поддаются независимой проверке.

Поэтому позиция явная. Одиночный ASI, это не система для выравнивания, а условие, которое нужно предотвратить. Концентрация сверхчеловеческих возможностей в одном неподотчётном месте, на нынешнем этапе развития человеческих институтов, нелегитимна, потому что ни один институт ещё не достаточно зрел, чтобы держать её в ответственности, и именно в этом опасность. В терминах самого фреймворка одиночка это коллапс ρ→1 в один голос, который коридорная модель называет провалом координации, а не успехом. То, что наши гарантии работают в федерации и ослабевают против одиночки, это не пробел, который мы затыкаем. Это режим, который мы отказываемся легитимизировать, и это наша обязанность, а не только прогноз.

Смежные работы, честно

У каждого соседа заполнены некоторые ячейки. Одна строка заполняет их все.

У CIRIS есть серьёзные интеллектуальные коллеги, каждый силён в своей области. Цель этой таблицы не в том, что идеи беспрецедентны. Дело в том, что почти никто не создал и не запустил весь стек как единую подотчётную систему. Каждая строка ниже, это реальная традиция, достойная изучения. Только последняя строка закрывает каждую колонку, и это интеграция и есть наше утверждение.

Подход	Ближайшие работы	Механизм	Во время работы, не обучения	Подписывает решение	Конституция времени выполнения	Федеративная верификация	Исполняемое соответствие	Запущено
Институциональный тезис	Gillian Hadfield	Нормативная инфраструктура и регуляторные рынки, теория и политика	Теория	Нет	Теория	Теория	Нет	Нет
Графы управления	Institutional AI (Pierucci et al.)	Публичные графы правовых состояний и санкций, исследовательский прототип	Исследование	Нет	Исследование	Нет	Нет	Нет
Конституционное управление на блокчейне	AgentCity (Ruan, Zhang)	Разделение властей в виде смарт-контрактов, заранее зарегистрированных в тестовой сети	Исследование	Частично	Исследование	Нет	Нет	Нет
Предположить, что модель рассогласована	Redwood Research (контроль ИИ)	Мониторинг и красное тестирование внутри одного развёртывания	Да	Нет	Нет	Нет	Исследование	Исследование
Доказуемо безопасно, вынесено наружу	davidad, Bengio, линия GS-AI	Формальные доказательства над моделями мира	Частично	Нет	Теория	Теория	Исследование	Нет
Конституция на этапе обучения	Anthropic Constitutional AI	Ценности, встроенные в веса одной организацией	Нет	Нет	Нет	Нет	Нет	Да
Криптографическое происхождение	C2PA, zkML (EZKL, Giza)	Подписать происхождение медиа, доказать, что вывод был выполнен	Да	Частично	Нет	Частично	Частично	Да
Подписанный граф рассуждений	Proof of Insight (Arclio)	Подписанный граф шагов вывода ИИ, черновая спецификация	Нет	Частично	Нет	Теория	Теория	Нет
Аттестация вывода на уровне железа	Phala, Marlin, Attestable Audits	Выполняет вывод в защищённом анклаве, который подписывает результат	Да	Частично	Нет	Частично	Нет	Частично
Децентрализованная идентичность и федерация	atproto, Bittensor	Социальная или вычислительная федерация, без слоя совести	Частично	Нет	Нет	Частично	Частично	Да
Протоколы агентов	MCP, A2A	Взаимодействие инструментов и агентов, без управления	Да	Нет	Нет	Нет	Частично	Да
Оценка безопасности и наборы соответствия	MLCommons, METR, HarmBench	Исполняемые тесты, которые оценивают поведение модели, а не решения	Нет	Нет	Нет	Нет	Частично	Да
Сторонний и федеративный аудит	AISI Network, GovAI	Независимые институты совместно тестируют развёрнутые системы	Частично	Нет	Нет	Да	Нет	Частично
CIRIS	Эта система	Конвейер совести до подписанных артефактов, конституция времени выполнения, постквантовая федерация	Да	Да	Да	Да	Да	Да

Составлено на основе публичных работ по состоянию на июнь 2026 года, каждая строка процитирована ниже. Если мы неверно описали кого-то из соседей, скажите нам, и мы исправим строку.

Источники

02Потребительский ИИ

Как CIRIS сравнивается с ИИ, которым вы пользуетесь каждый день

Обычные ИИ-помощники мощные и удобные. Но они работают в чужом облаке, не сохраняют записей, которые вы можете проверить, и ни перед кем конкретно не отчитываются. Ниже тот же тест на подотчётность, применённый к ИИ, который большинство людей открывают каждый день.

Помощник	Опубликованные принципы	Подтверждение действий	Спрашивает человека при сомнении	Открытый исходный код	Проверка на эхо-камеру
ChatGPT	Да	Нет	Нет	Нет	Нет
Gemini	Да	Нет	Нет	Нет	Нет
Claude	Да	Нет	Нет	Нет	Нет
CIRIS	Да	Да	Да	Да	Да

Сравнение основано на публичном поведении продуктов по состоянию на июнь 2026 года. Каждая ссылка на принципы ведёт на опубликованную спецификацию соответствующей компании.

Большинство исследователей выравнивают модель. CIRIS строит институты вокруг неё.

Доверять весам или проверять поведение

Она не пытается выровнять один всесильный ИИ. Намеренно.

Как CIRIS сравнивается с ИИ, которым вы пользуетесь каждый день

Попробуйте сами

Наблюдайте за мышлением

Проверьте личность агента

Начать