
Если проверить подотчётность нельзя — это маркетинг. Вот на что смотреть и как ведут себя существующие подходы.
Совесть необходима. Но одной совести недостаточно.
У одних ИИ нет вообще никаких правил. Другие следуют правилам, но не видят, когда их источники просто повторяют друг друга. И только один тип проверяет, действительно ли информация поступает из разных мест.
Нет опубликованных принципов. Нет журнала аудита. Закрытый код. Невозможно проверить, что было сделано и почему.
Большинство потребительских ИИ-ассистентов (ChatGPT, Gemini) относятся к этому типу с точки зрения публичной подотчётности. Внутренние практики могут быть хорошими, но их нельзя проверить.
Требует внешнего регулирования. Не может управлять собой.
Следует этическим правилам. Но не видит, когда все источники просто копируют друг друга, и потому может уверенно ошибаться.
Безопасен под наблюдением. Не может сам обнаруживать эхо-камеры.
Следует этическим правилам И проверяет, поступает ли информация действительно из разных мест. Когда согласие выглядит подозрительно — сигнализирует об этом до того, как действовать.
Именно это строит CIRIS.
ИИ может следовать всем правилам, проходить любой аудит — и всё равно ошибаться, если вся его информация поступает из одного места. Именно это слепое пятно CIRIS и был создан, чтобы устранить.
Это то, что делает ИИ проверяемым и подотчётным. Первые шесть — о том, чтобы поступать правильно. Седьмое — о том, чтобы замечать ситуации, когда «правильное действие» основано на плохой информации.
Агент должен следовать публичной этической системе. Не скрытым правилам: документу, который каждый может прочитать и использовать как инструмент контроля.
Каждое действие проходит проверку совести до того, как агент его выполняет. Не после. До.
При неуверенности или угрозе вреда агент обращается к человеку, а не гадает. Встроено в процесс, не является опциональным.
Каждое решение записывается и подписывается, чтобы можно было точно проверить, что произошло и почему. Квитанция за каждое действие.
Согласие работает в обе стороны. Вы можете отказать агенту. Агент может отказать вам. Ни одна из сторон не обязана идти на уступки.
Нельзя проверить то, что не видишь. CIRIS полностью открыт под лицензией AGPL-3.0. Каждый может читать, проверять и улучшать код.
То, что одни правила поймать не могут.
Перед действием агент спрашивает себя: «Мои источники действительно расходятся во мнениях — или все они берут информацию из одного места?» Десять источников, скопированных с одного оригинала, — это на самом деле один источник. Когда согласие выглядит слишком единодушным, агент сигнализирует об этом для проверки человеком.
Слишком шумно
Источники настолько противоречат друг другу, что сделать вывод невозможно.
Здоровое состояние
Источники действительно различаются. Настоящее согласие что-то значит.
Эхо-камера
Выглядит как согласие, но источники просто повторяют друг друга.
Вот что отличает CIRIS от других систем подотчётности ИИ.
Хотите разобраться в математике? Читайте полную диссертацию →На основе публично доступной документации по состоянию на февраль 2026 года. Если мы что-то упустили или ошиблись, сообщите нам.
| Проект | Проверяет каждое решение | Опубликованные правила | Встроенная совесть | Подтверждение действий | Открытый код | Обнаружение эхо-камер |
|---|---|---|---|---|---|---|
| CIRIS | Да | Да | Да | Да | AGPL-3.0 | Да |
| Constitutional AI | Только при обучении | Неявные | Нет | Нет | Нет | Нет |
| LlamaFirewall / NeMo Guardrails | Да | Нет | Нет | Логирование | Да | Нет |
| HatCat | Да | Частично | Управление | Частично | CC0 | Нет |
| Этические комитеты / Системы управления | Нет | Да | Нет | Вручную | По-разному | Нет |
Фильтры вывода и системы управления решают важные, но разные задачи. Фильтры блокируют вредоносные результаты. Совесть рассуждает о ценностях. CIRIS стремится делать и то, и другое, а также устранять слепые пятна, которые ни один из подходов не закрывает в одиночку.
Блокируют опасные результаты: инъекции в промпты, вредоносный контент, атаки противника. Как фильтр, задерживающий плохое на выходе.
Рассуждает о том, правильно ли действие, а не только о том, безопасно ли оно. Как судья, взвешивающий ситуацию перед вынесением решения.
Проверяет, является ли согласие настоящим или просто повторением. Как проверяющий факты, который спрашивает: «Вы все читали одну и ту же статью?»
Много небольших агентов, каждый следует опубликованным принципам, каждый проверяем, каждый передаёт решение человеку-авторитету. Ни одна компания или организация не контролирует весь стек. Чем независимее агенты, тем труднее любому отдельному сбою распространиться каскадом.
Это активные исследования. Мы открыто говорим о том, что уже проверено, а что ещё тестируется.
Хорошо установлено
Ещё тестируется
Наблюдайте за мышлением
Смотрите на рассуждения настоящего агента шаг за шагом. Изучить трассировку →
Проверьте личность агента
Посмотрите, как агенты доказывают свою личность, как ГИБДД для ИИ. Доверие и идентичность →
Начать
Разверните своего первого агента или читайте диссертацию простым языком. Первый контакт →
Каждое утверждение на этой странице подкреплено кодом, который можно прочитать, трассировками, которые можно проверить, и исследованиями, которые можно изучить. В этом и есть смысл.