Первый контактУстановкаКогерентный храповикФедерацияСравнитьИсследованияСоглашениеGitHub
Эта страница переведена машиной. Если что-то читается неправильно, откройте задачу — репозиторий публичный не случайно. Сообщить о проблеме с переводом
Background Image
Самый безопасный и этичный ИИ в реальной эксплуатации сегодня

Без подотчётности ИИ склонен брать больше, чем отдаёт.

Если проверить подотчётность нельзя — это маркетинг. Вот на что смотреть и как ведут себя существующие подходы.

Три типа ИИ

Совесть необходима. Но одной совести недостаточно.

У одних ИИ нет вообще никаких правил. Другие следуют правилам, но не видят, когда их источники просто повторяют друг друга. И только один тип проверяет, действительно ли информация поступает из разных мест.

1

Без правил

Нет опубликованных принципов. Нет журнала аудита. Закрытый код. Невозможно проверить, что было сделано и почему.

Большинство потребительских ИИ-ассистентов (ChatGPT, Gemini) относятся к этому типу с точки зрения публичной подотчётности. Внутренние практики могут быть хорошими, но их нельзя проверить.

Требует внешнего регулирования. Не может управлять собой.

2

Правила без осознанности

Следует этическим правилам. Но не видит, когда все источники просто копируют друг друга, и потому может уверенно ошибаться.

Безопасен под наблюдением. Не может сам обнаруживать эхо-камеры.

3

Правила + осознанность

Следует этическим правилам И проверяет, поступает ли информация действительно из разных мест. Когда согласие выглядит подозрительно — сигнализирует об этом до того, как действовать.

Именно это строит CIRIS.

ИИ может следовать всем правилам, проходить любой аудит — и всё равно ошибаться, если вся его информация поступает из одного места. Именно это слепое пятно CIRIS и был создан, чтобы устранить.

Семь вещей, которые нужно проверить

Шесть — для этики. Одна — для слепых пятен.

Это то, что делает ИИ проверяемым и подотчётным. Первые шесть — о том, чтобы поступать правильно. Седьмое — о том, чтобы замечать ситуации, когда «правильное действие» основано на плохой информации.

1. Опубликованные принципы

Агент должен следовать публичной этической системе. Не скрытым правилам: документу, который каждый может прочитать и использовать как инструмент контроля.

2. Проверка совести при каждом решении

Каждое действие проходит проверку совести до того, как агент его выполняет. Не после. До.

3. Спрашивает людей, когда не уверен

При неуверенности или угрозе вреда агент обращается к человеку, а не гадает. Встроено в процесс, не является опциональным.

4. Подтверждение сделанного

Каждое решение записывается и подписывается, чтобы можно было точно проверить, что произошло и почему. Квитанция за каждое действие.

5. Двустороннее согласие

Согласие работает в обе стороны. Вы можете отказать агенту. Агент может отказать вам. Ни одна из сторон не обязана идти на уступки.

6. Открытый код

Нельзя проверить то, что не видишь. CIRIS полностью открыт под лицензией AGPL-3.0. Каждый может читать, проверять и улучшать код.

7

Обнаружение эхо-камер

То, что одни правила поймать не могут.

Перед действием агент спрашивает себя: «Мои источники действительно расходятся во мнениях — или все они берут информацию из одного места?» Десять источников, скопированных с одного оригинала, — это на самом деле один источник. Когда согласие выглядит слишком единодушным, агент сигнализирует об этом для проверки человеком.

Слишком шумно

Источники настолько противоречат друг другу, что сделать вывод невозможно.

Здоровое состояние

Источники действительно различаются. Настоящее согласие что-то значит.

Эхо-камера

Выглядит как согласие, но источники просто повторяют друг друга.

Вот что отличает CIRIS от других систем подотчётности ИИ.

Хотите разобраться в математике? Читайте полную диссертацию →

Текущий ландшафт

Разные проекты, разные цели.

На основе публично доступной документации по состоянию на февраль 2026 года. Если мы что-то упустили или ошиблись, сообщите нам.

ПроектПроверяет каждое решениеОпубликованные правилаВстроенная совестьПодтверждение действийОткрытый кодОбнаружение эхо-камер
CIRISДаДаДаДаAGPL-3.0Да
Constitutional AIТолько при обученииНеявныеНетНетНетНет
LlamaFirewall / NeMo GuardrailsДаНетНетЛогированиеДаНет
HatCatДаЧастичноУправлениеЧастичноCC0Нет
Этические комитеты / Системы управленияНетДаНетВручнуюПо-разномуНет

Фильтры вывода и системы управления решают важные, но разные задачи. Фильтры блокируют вредоносные результаты. Совесть рассуждает о ценностях. CIRIS стремится делать и то, и другое, а также устранять слепые пятна, которые ни один из подходов не закрывает в одиночку.

Три уровня защиты

Каждый решает свою задачу.

Фильтры вывода

Блокируют опасные результаты: инъекции в промпты, вредоносный контент, атаки противника. Как фильтр, задерживающий плохое на выходе.

Этическая совесть

Рассуждает о том, правильно ли действие, а не только о том, безопасно ли оно. Как судья, взвешивающий ситуацию перед вынесением решения.

Обнаружение эхо-камер

Проверяет, является ли согласие настоящим или просто повторением. Как проверяющий факты, который спрашивает: «Вы все читали одну и ту же статью?»

Множество согласованных агентов

Распределённое управление, а не концентрация власти.

Нет единой точки отказа

Небольшие агенты, каждый подотчётен.

Много небольших агентов, каждый следует опубликованным принципам, каждый проверяем, каждый передаёт решение человеку-авторитету. Ни одна компания или организация не контролирует весь стек. Чем независимее агенты, тем труднее любому отдельному сбою распространиться каскадом.

Статус исследований

Это активные исследования. Мы открыто говорим о том, что уже проверено, а что ещё тестируется.

Хорошо установлено

  • - Скопированные источники снижают реальное разнообразие
  • - Модели ИИ пересекаются по обучающим данным
  • - Эхо-камеры создают ложную уверенность
  • - Независимая проверка выявляет больше ошибок

Ещё тестируется

  • - Точное измерение того, насколько источники ИИ скопированы
  • - Оптимальные пороги для обнаружения эхо-камер
  • - Насколько хорошо меры снижают копирование
  • - Как это варьируется в разных областях

Попробуйте сами

Проверьте сами.

Открытый код. Открыт для проверки.

Каждое утверждение на этой странице подкреплено кодом, который можно прочитать, трассировками, которые можно проверить, и исследованиями, которые можно изучить. В этом и есть смысл.