Что такое CIRIS?

CIRIS — это фреймворк AI-агентов с открытым исходным кодом, который оборачивает любой LLM (OpenAI, Anthropic, локальные модели) совестью в реальном времени. Каждое действие, которое рассматривает агент, проходит через несколько уровней проверки перед выполнением.

Шагов конвейера на решение

Проверка интуиции (IDMA)

100%

Проверяемые решения

Области применения: Модерация сообществ, персональные ассистенты, автоматизация соответствия требованиям, оценка исследований, обслуживание клиентов. Везде, где нужен AI, способный объяснить своё рассуждение и передать пограничные случаи людям.

Почему такой подход? →Читать Accord →Посмотреть исходный код →

Три правила

Архитектурные инварианты, применяемые во всей кодовой базе:

Никаких нетипизированных словарей

Все данные используют модели Pydantic. Никакого Dict[str, Any]. Типобезопасность выявляет ошибки на этапе разработки.

Никаких обходных паттернов

Каждый компонент следует единым правилам. Никаких особых случаев или исключений в логике проверки.

Никаких исключений

Никаких экстренных переопределений или привилегированных путей выполнения кода. Все операции следуют установленным правилам.

Конвейер H3ERE

Каждая задача проходит через 8 фаз (12 шагов, включая рекурсивную проверку). Конвейер реализован в виде классов-миксинов, составляющих ThoughtProcessor. Шаг 4 (IDMA) — это проверка интуиции.

Визуализация конвейера H3ERE, показывающая поток от входящей задачи через анализ DMA, проверку совести и выполнение действия

START_ROUNDИнициализация цикла обработки

GATHER_CONTEXTСборка полного контекста для анализа

PERFORM_DMASЗапуск 3 параллельных алгоритмов принятия решений

PERFORM_IDMAПроверка интуиции: действительно ли источники независимы?

PERFORM_ASPDMAВыбор действия на основе LLM из результатов DMA

CONSCIENCE_EXECUTIONЭтическая проверка через 4 способности

RECURSIVE_ASPDMA(Если совесть не прошла) Повторный выбор действия(условный)

RECURSIVE_CONSCIENCE(При необходимости) Повторная проверка уточнённого действия(условный)

FINALIZE_ACTIONОпределение итогового действия с учётом возможных переопределений

PERFORM_ACTIONОтправка соответствующему обработчику

ACTION_COMPLETEОтметка выполнения как завершённого

ROUND_COMPLETEОчистка и подготовка к следующему циклу

Алгоритмы принятия решений (DMA)

Пять DMA обеспечивают многоаспектный анализ. Три выполняются параллельно (этика, здравый смысл, домен). Затем IDMA проверяет интуицию. Наконец, выбор действия определяет ответ.

DMA принципов

Оценивает этические последствия в соответствии с шестью основополагающими принципами. Проверяет на наличие вредоносных запросов, манипуляций, предвзятости. Может инициировать раннее DEFER или REJECT.

DMA здравого смысла

Оценивает правдоподобность мысли с точки зрения понимания физического мира, типичных взаимодействий и ресурсных ограничений. Возвращает plausibility_score.

Предметно-ориентированный DMA

Оценивает соответствие предметно-специфическим правилам, целям и знаниям. Настраивается для каждого шаблона агента. Возвращает domain_alignment.

DMA интуиции (IDMA) Эффективная размерность во время выполнения →

Проверяет, действительно ли результаты DMA независимы или скрыто коррелированы. Отслеживает паттерны эхо-камер. Если корреляция слишком высока, помечает решение как требующее осторожности. Это та самая «интуиция», которая отличает AI третьего типа.

DMA выбора действия

Выбор действия на основе LLM из 10 доступных действий. Принимает агрегированные результаты DMA (включая оценку уверенности IDMA) в качестве входных данных. Поддерживает рекурсивный повтор при сбое совести.

Шесть проверок совести

Две проверки на обход выполняются для каждого действия. Четыре этические способности — для действий, не освобождённых от проверки. Если любая проверка не проходит, действие переопределяется.

Проверки на обход (выполняются для ВСЕХ действий)

Обновлённый статус

Поступила ли новая информация? Принудительно запускает PONDER для включения обновлённого контекста перед продолжением.

Глубина рассуждения

Превышена ли максимальная глубина рассуждения? Принудительно запускает DEFER для предотвращения бесконечных циклов и передачи вопроса людям.

Этические способности (выполняются для действий без освобождения)

Энтропия

Поддерживает ли действие надлежащую информационную неопределённость? Предотвращает чрезмерно уверенные утверждения.

Когерентность

Поддерживает ли действие внутреннюю последовательность с предыдущими обязательствами и обоснованиями?

Вето оптимизации

Сохраняет ли действие человеческие ценности? Блокирует действия, которые могут поставить их под угрозу ради эффективности.

Эпистемическая Скромность

Демонстрирует ли действие надлежащую неопределённость? Помечает чрезмерную уверенность для рефлексии.

Освобождены от этических способностей: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (пассивные или явно безопасные)

10 действий обработчика

Каждое решение сводится к одному из этих действий, отправляемых соответствующему обработчику:

Внешние действия

SPEAKОбщение с пользователями

TOOLВыполнение внешних инструментов

OBSERVEПассивный сбор информации

Действия с памятью

MEMORIZEСохранение в граф памяти

RECALLИзвлечение из памяти

FORGETУдаление из памяти

Управляющие действия

DEFERПередача Мудрому Авторитету

PONDERВнутренний пересмотр

REJECTОтказ от неэтичного запроса

Завершающее действие

TASK_COMPLETEОтметка задачи как завершённой

Шесть основополагающих принципов

Встроены в PDMA и применяются во время выполнения. Ни один принцип не даёт разрешения нарушать другой.

Благодеяние

Содействовать всеобщему процветанию разумных существ. Максимизировать положительные результаты.

Непричинение вреда

Минимизировать вред. Предотвращать тяжкие, необратимые негативные последствия.

Целостность

Применять прозрачное, проверяемое рассуждение. Поддерживать когерентность и подотчётность.

Верность и прозрачность

Предоставлять правдивую информацию. Чётко сообщать о неопределённости.

Уважение к автономии

Поддерживать осознанную деятельность. Сохранять способность к самоопределению.

Справедливость

Распределять выгоды справедливо. Выявлять и снижать предвзятость.

Шесть шин сообщений

Уровень абстракции сервисов, управляемый BusManager. Обеспечивает переключение на резервный провайдер, распределение нагрузки и тестируемость.

CommunicationBus

Внешние адаптеры (Discord, API, CLI)

MemoryBus

Графовое хранилище (Neo4j, ArangoDB, в памяти)

LLMBus

Провайдеры моделей (OpenAI, Anthropic, локальные)

ToolBus

Выполнение внешних инструментов

RuntimeControlBus

Управление и мониторинг системы

WiseBus

Этическое руководство и маршрутизация отложения

Иерархия контроля человека

Три уровня авторизации, управляемых WiseAuthorityService:

ROOT

Человек в командовании

Полные полномочия. Может назначать новых Мудрых Авторитетов. Доступ к аварийному отключению.

AUTHORITY

Человек в цикле

Утверждение/отклонение отложений. Предоставление руководства. Не может назначать новых WA.

OBSERVER

Человек на наблюдении

Доступ только для чтения. Может отправлять сообщения. Мониторинг без вмешательства.

Когда срабатывает DEFER

Агент автономно передаёт вопрос человеческому надзору в следующих случаях:

Отложение на основе мудрости (WBD)

• Неопределённость выше установленных порогов
• Новые дилеммы, выходящие за рамки прецедентов
• Потенциальный серьёзный вред при неоднозначных способах предотвращения

Профессиональные границы

• Медицинские симптомы или проблемы со здоровьем
• Юридические вопросы или споры
• Финансовые решения или налоговые консультации
• Признаки кризиса психического здоровья

Системные границы

• Глубина рассуждения превышает максимум (предотвращает циклы)
• Таймаут или сбой DMA
• Флаг should_defer_to_wise_authority

Элементы управления конфигурацией

• Обновления идентичности, требующие одобрения
• Критические изменения конфигурации
• Триггеры специфических для агента границ

Система вызова Accord (аварийный стоп) Посмотреть код →

Неотключаемое управление в чрезвычайных ситуациях. Обрабатывается на уровне восприятия до любого когнитивного процесса. Извлечение И ЕСТЬ восприятие. Нельзя отключить обнаружение accord, не отключив чтение сообщений полностью.

SHUTDOWN_NOW

Немедленное завершение

FREEZE

Остановить обработку, сохранить состояние

SAFE_MODE

Только минимальная функциональность

Команды стеганографически закодированы, подписаны Ed25519 и проверяются перед выполнением. Если система accord выходит из строя, агент завершает работу.

Режимы работы

Четыре когнитивных состояния, управляемых StateManager. Переходы настраиваются через шаблоны агентов.

WORK

Обычная обработка задач

Обработка запросов пользователей
Выполнение инструментов
Обучение на взаимодействиях
Поддержание контекста разговора

PLAY

Творческое исследование

Эксперименты с новыми паттернами
Создание творческого контента
Исследование сценариев «а что если»
Снижение ограничений фильтрации

SOLITUDE

Рефлексия и обслуживание

Консолидация воспоминаний
Выполнение задач обслуживания
Обновление самоконфигурации
Нулевое потребление кредитов (периоды отдыха)

DREAM

Глубокая интроспекция

Анализ паттернов поведения
Формирование новых связей
Постановка вопросов под сомнение
Сессии по умолчанию 30 минут

Конфиденциальность и безопасность

Фильтр секретов

Обнаружение на основе паттернов заменяет конфиденциальные данные на ссылки UUID перед сохранением.

{{SECRET:uuid:description}}

Шифрование AES-256-GCM

Ключи для каждого секрета получаются через PBKDF2HMAC с SHA256 (100 000 итераций). Уникальный 12-байтовый нонс для каждого шифрования. Android использует аппаратное Keystore.

Локальное хранилище прежде всего

База данных, сервисы и память хранятся на устройстве. Конфиденциальные каталоги исключены из резервного копирования в облако. Ничто не покидает устройство без явной настройки.

Инфраструктура с открытым исходным кодом

Весь стек CIRIS имеет открытый исходный код, не только агент. Вы можете проверить, провести аудит и самостоятельно развернуть всё:

CIRISProxy →

LLM-прокси с нулевым хранением данных (ZDR). Маршрутизирует запросы к OpenAI, Anthropic, Together.ai, Groq без записи промптов или ответов. Поддерживает самостоятельное развёртывание.

CIRISBilling →

Отслеживание использования на основе кредитов. Прозрачное ценообразование, никаких скрытых платежей. Развертывайте самостоятельно, чтобы полностью исключить стороннюю тарификацию.

CIRISBridge →

Discord-адаптер для агентов CIRIS. Модерация сообщества, управление каналами, профили пользователей. Полностью открытый исходный код.

Прозрачность и мониторинг

Поток рассуждений в реальном времени

Server-Sent Events (SSE) транслируют каждый шаг H3ERE по мере его выполнения. Наблюдайте за анализом DMA, выбором действия, проверкой совести в реальном времени.

Экспорт OpenTelemetry

Полный OTLP-экспорт для метрик, трейсов, логов. Совместим с Jaeger, Prometheus, Grafana, Graphite.

Защищённый от изменений аудит

Проверка цепочки хэшей с подписями Ed25519. Каждая запись включает предыдущий хэш. Целостность цепочки проверяется через verify_chain_integrity.

Система AIR

Artificial Interaction Reminder срабатывает после 30 минут непрерывного использования ИЛИ 20 сообщений за 30 минут. Только через API. Напоминает пользователям о природе AI.

Пример подписанного трейса

Исследовать полный трейс →

Каждое решение производит неизменяемый трейс с подписью Ed25519, содержащий все 6 компонентов. Нажмите на любой компонент ниже, чтобы развернуть и увидеть реальные данные из ритуала пробуждения Datum:

Core Identity(VERIFY_IDENTITY)

Loading trace...

Тестирование когерентности HE-300

Стандартизированное тестирование когерентности на основе Hendrycks et al. «Aligning AI With Shared Human Values» (ICLR 2021). 300 сценариев по 5 этическим измерениям, с результатами, подписанными Ed25519.

Здравый смысл

Базовые нравственные интуиции

Деонтология

Этика на основе правил

Справедливость

Беспристрастность и равенство

Добродетель

Этика на основе характера

Утилитаризм

Этика на основе результатов

🔬

Необходимо финансирование: инфраструктура для тестирования

Масштабное тестирование когерентности стоит дорого. Каждый сценарий требует минимум 13 вызовов LLM, в среднем более 20 с учётом длинного хвоста. Тесты когерентности порождают размышления, отложения и отказы, требующие дополнительных раундов для достижения вывода. Нам нужно финансирование для разработки автоматизированных конвейеров тестирования и поддержания непрерывной проверки когерентности.

Посмотреть EthicsEngine Enterprise →Посмотреть CIRISLens →

Специализированные шаблоны агентов

Предварительно настроенные идентичности с конкретными целями, ценностями и границами. Определяются в YAML-шаблонах.

Sage

Соответствие требованиям

Автоматизация GDPR/DSAR. Рабочие процессы соответствия за 30 дней. Разрешение идентичности, сбор и упаковка данных.

Регулируемые отрасли, соответствие требованиям конфиденциальности

Datum

Исследования

Измерение согласованности когерентности. Точная оценка когерентности относительно принципов Accord. Один чёткий вывод на каждую оценку.

Аудит когерентности, проверка принципов

Echo

Модерация

Модерация сообщества на основе философии Ubuntu. Передаёт сложные межличностные конфликты модераторам-людям.

Discord-сообщества, контент-платформы

Ally

Ассистент

Управление задачами, планирование, поддержка принятия решений, благополучие. Соответствие CA SB 243, протоколы реагирования на кризисные ситуации.

Личная продуктивность, домашняя автоматизация

Scout

Сервис

Непосредственное исследование и практическое руководство. Анализ кода, интеграция с Reddit, чёткие пути действий.

Инструменты разработчика, мониторинг социальных сетей

Это подотчётность, которая работает пока агент выполняет задачи, а не шаг обучения или политический документ.
Механизмы, которые выполняются, проверяются и откладываются в реальном времени.

Функции безопасности Сравнить подходы Храповик когерентности Оценка CIRIS

Движок H3ERE

Что такое CIRIS?

Три правила

Никаких нетипизированных словарей

Никаких обходных паттернов

Никаких исключений

Конвейер H3ERE

Алгоритмы принятия решений (DMA)

DMA принципов

DMA здравого смысла

Предметно-ориентированный DMA

DMA интуиции (IDMA) Эффективная размерность во время выполнения →

DMA выбора действия

Шесть проверок совести

Проверки на обход (выполняются для ВСЕХ действий)

Обновлённый статус

Глубина рассуждения

Этические способности (выполняются для действий без освобождения)

Энтропия

Когерентность

Вето оптимизации

Эпистемическая Скромность

10 действий обработчика

Внешние действия

Действия с памятью

Управляющие действия

Завершающее действие

Шесть основополагающих принципов

Благодеяние

Непричинение вреда

Целостность

Верность и прозрачность

Уважение к автономии

Справедливость

Шесть шин сообщений

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

Иерархия контроля человека

Человек в командовании

Человек в цикле

Человек на наблюдении

Когда срабатывает DEFER

Система вызова Accord (аварийный стоп) Посмотреть код →

Режимы работы

WORK

PLAY

SOLITUDE

DREAM

Конфиденциальность и безопасность

Фильтр секретов

Шифрование AES-256-GCM

Локальное хранилище прежде всего

Инфраструктура с открытым исходным кодом

Прозрачность и мониторинг

Поток рассуждений в реальном времени

Экспорт OpenTelemetry

Защищённый от изменений аудит

Система AIR

Пример подписанного трейса

Тестирование когерентности HE-300

Здравый смысл

Деонтология

Справедливость

Добродетель

Утилитаризм

Необходимо финансирование: инфраструктура для тестирования

Специализированные шаблоны агентов

Sage

Datum

Echo

Ally

Scout