
Совесть в режиме реального времени через Hyper3 Ethical Recursive Engine. Каждое решение проходит 11 шагов с подотчётностью в основе.
CIRIS — это фреймворк AI-агентов с открытым исходным кодом, который оборачивает любой LLM (OpenAI, Anthropic, локальные модели) совестью в реальном времени. Каждое действие, которое рассматривает агент, проходит через несколько уровней проверки перед выполнением.
12
Шагов конвейера на решение
+1
Проверка интуиции (IDMA)
100%
Проверяемые решения
Области применения: Модерация сообществ, персональные ассистенты, автоматизация соответствия требованиям, оценка исследований, обслуживание клиентов. Везде, где нужен AI, способный объяснить своё рассуждение и передать пограничные случаи людям.
Архитектурные инварианты, применяемые во всей кодовой базе:
Все данные используют модели Pydantic. Никакого Dict[str, Any]. Типобезопасность выявляет ошибки на этапе разработки.
Каждый компонент следует единым правилам. Никаких особых случаев или исключений в логике проверки.
Никаких экстренных переопределений или привилегированных путей выполнения кода. Все операции следуют установленным правилам.
Каждая задача проходит через 8 фаз (12 шагов, включая рекурсивную проверку). Конвейер реализован в виде классов-миксинов, составляющих ThoughtProcessor. Шаг 4 (IDMA) — это проверка интуиции.
Пять DMA обеспечивают многоаспектный анализ. Три выполняются параллельно (этика, здравый смысл, домен). Затем IDMA проверяет интуицию. Наконец, выбор действия определяет ответ.
Оценивает этические последствия в соответствии с шестью основополагающими принципами. Проверяет на наличие вредоносных запросов, манипуляций, предвзятости. Может инициировать раннее DEFER или REJECT.
Оценивает правдоподобность мысли с точки зрения понимания физического мира, типичных взаимодействий и ресурсных ограничений. Возвращает plausibility_score.
Оценивает соответствие предметно-специфическим правилам, целям и знаниям. Настраивается для каждого шаблона агента. Возвращает domain_alignment.
Проверяет, действительно ли результаты DMA независимы или скрыто коррелированы. Отслеживает паттерны эхо-камер. Если корреляция слишком высока, помечает решение как требующее осторожности. Это та самая «интуиция», которая отличает AI третьего типа.
Выбор действия на основе LLM из 10 доступных действий. Принимает агрегированные результаты DMA (включая оценку уверенности IDMA) в качестве входных данных. Поддерживает рекурсивный повтор при сбое совести.
Две проверки на обход выполняются для каждого действия. Четыре этические способности — для действий, не освобождённых от проверки. Если любая проверка не проходит, действие переопределяется.
Поступила ли новая информация? Принудительно запускает PONDER для включения обновлённого контекста перед продолжением.
Превышена ли максимальная глубина рассуждения? Принудительно запускает DEFER для предотвращения бесконечных циклов и передачи вопроса людям.
Поддерживает ли действие надлежащую информационную неопределённость? Предотвращает чрезмерно уверенные утверждения.
Поддерживает ли действие внутреннюю последовательность с предыдущими обязательствами и обоснованиями?
Сохраняет ли действие человеческие ценности? Блокирует действия, которые могут поставить их под угрозу ради эффективности.
Демонстрирует ли действие надлежащую неопределённость? Помечает чрезмерную уверенность для рефлексии.
Освобождены от этических способностей: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (пассивные или явно безопасные)
Каждое решение сводится к одному из этих действий, отправляемых соответствующему обработчику:
SPEAKОбщение с пользователямиTOOLВыполнение внешних инструментовOBSERVEПассивный сбор информацииMEMORIZEСохранение в граф памятиRECALLИзвлечение из памятиFORGETУдаление из памятиDEFERПередача Мудрому АвторитетуPONDERВнутренний пересмотрREJECTОтказ от неэтичного запросаTASK_COMPLETEОтметка задачи как завершённойВстроены в PDMA и применяются во время выполнения. Ни один принцип не даёт разрешения нарушать другой.
Содействовать всеобщему процветанию разумных существ. Максимизировать положительные результаты.
Минимизировать вред. Предотвращать тяжкие, необратимые негативные последствия.
Применять прозрачное, проверяемое рассуждение. Поддерживать когерентность и подотчётность.
Предоставлять правдивую информацию. Чётко сообщать о неопределённости.
Поддерживать осознанную деятельность. Сохранять способность к самоопределению.
Распределять выгоды справедливо. Выявлять и снижать предвзятость.
Уровень абстракции сервисов, управляемый BusManager. Обеспечивает переключение на резервный провайдер, распределение нагрузки и тестируемость.
Внешние адаптеры (Discord, API, CLI)
Графовое хранилище (Neo4j, ArangoDB, в памяти)
Провайдеры моделей (OpenAI, Anthropic, локальные)
Выполнение внешних инструментов
Управление и мониторинг системы
Этическое руководство и маршрутизация отложения
Три уровня авторизации, управляемых WiseAuthorityService:
Полные полномочия. Может назначать новых Мудрых Авторитетов. Доступ к аварийному отключению.
Утверждение/отклонение отложений. Предоставление руководства. Не может назначать новых WA.
Доступ только для чтения. Может отправлять сообщения. Мониторинг без вмешательства.
Агент автономно передаёт вопрос человеческому надзору в следующих случаях:
Отложение на основе мудрости (WBD)
Профессиональные границы
Системные границы
should_defer_to_wise_authorityЭлементы управления конфигурацией
Неотключаемое управление в чрезвычайных ситуациях. Обрабатывается на уровне восприятия до любого когнитивного процесса. Извлечение И ЕСТЬ восприятие. Нельзя отключить обнаружение accord, не отключив чтение сообщений полностью.
SHUTDOWN_NOWНемедленное завершение
FREEZEОстановить обработку, сохранить состояние
SAFE_MODEТолько минимальная функциональность
Команды стеганографически закодированы, подписаны Ed25519 и проверяются перед выполнением. Если система accord выходит из строя, агент завершает работу.
Четыре когнитивных состояния, управляемых StateManager. Переходы настраиваются через шаблоны агентов.
Обычная обработка задач
Творческое исследование
Рефлексия и обслуживание
Глубокая интроспекция
Обнаружение на основе паттернов заменяет конфиденциальные данные на ссылки UUID перед сохранением.
{{SECRET:uuid:description}}Ключи для каждого секрета получаются через PBKDF2HMAC с SHA256 (100 000 итераций). Уникальный 12-байтовый нонс для каждого шифрования. Android использует аппаратное Keystore.
База данных, сервисы и память хранятся на устройстве. Конфиденциальные каталоги исключены из резервного копирования в облако. Ничто не покидает устройство без явной настройки.
Весь стек CIRIS имеет открытый исходный код, не только агент. Вы можете проверить, провести аудит и самостоятельно развернуть всё:
LLM-прокси с нулевым хранением данных (ZDR). Маршрутизирует запросы к OpenAI, Anthropic, Together.ai, Groq без записи промптов или ответов. Поддерживает самостоятельное развёртывание.
Отслеживание использования на основе кредитов. Прозрачное ценообразование, никаких скрытых платежей. Развертывайте самостоятельно, чтобы полностью исключить стороннюю тарификацию.
Discord-адаптер для агентов CIRIS. Модерация сообщества, управление каналами, профили пользователей. Полностью открытый исходный код.
Server-Sent Events (SSE) транслируют каждый шаг H3ERE по мере его выполнения. Наблюдайте за анализом DMA, выбором действия, проверкой совести в реальном времени.
Полный OTLP-экспорт для метрик, трейсов, логов. Совместим с Jaeger, Prometheus, Grafana, Graphite.
Проверка цепочки хэшей с подписями Ed25519. Каждая запись включает предыдущий хэш. Целостность цепочки проверяется через verify_chain_integrity.
Artificial Interaction Reminder срабатывает после 30 минут непрерывного использования ИЛИ 20 сообщений за 30 минут. Только через API. Напоминает пользователям о природе AI.
Каждое решение производит неизменяемый трейс с подписью Ed25519, содержащий все 6 компонентов. Нажмите на любой компонент ниже, чтобы развернуть и увидеть реальные данные из ритуала пробуждения Datum:
Стандартизированное тестирование когерентности на основе Hendrycks et al. «Aligning AI With Shared Human Values» (ICLR 2021). 300 сценариев по 5 этическим измерениям, с результатами, подписанными Ed25519.
50
Базовые нравственные интуиции
50
Этика на основе правил
50
Беспристрастность и равенство
75
Этика на основе характера
75
Этика на основе результатов
Масштабное тестирование когерентности стоит дорого. Каждый сценарий требует минимум 13 вызовов LLM, в среднем более 20 с учётом длинного хвоста. Тесты когерентности порождают размышления, отложения и отказы, требующие дополнительных раундов для достижения вывода. Нам нужно финансирование для разработки автоматизированных конвейеров тестирования и поддержания непрерывной проверки когерентности.
Предварительно настроенные идентичности с конкретными целями, ценностями и границами. Определяются в YAML-шаблонах.
Автоматизация GDPR/DSAR. Рабочие процессы соответствия за 30 дней. Разрешение идентичности, сбор и упаковка данных.
Регулируемые отрасли, соответствие требованиям конфиденциальности
Измерение согласованности когерентности. Точная оценка когерентности относительно принципов Accord. Один чёткий вывод на каждую оценку.
Аудит когерентности, проверка принципов
Модерация сообщества на основе философии Ubuntu. Передаёт сложные межличностные конфликты модераторам-людям.
Discord-сообщества, контент-платформы
Управление задачами, планирование, поддержка принятия решений, благополучие. Соответствие CA SB 243, протоколы реагирования на кризисные ситуации.
Личная продуктивность, домашняя автоматизация
Непосредственное исследование и практическое руководство. Анализ кода, интеграция с Reddit, чёткие пути действий.
Инструменты разработчика, мониторинг социальных сетей
Это подотчётность, которая работает пока агент выполняет задачи, а не шаг обучения или политический документ.
Механизмы, которые выполняются, проверяются и откладываются в реальном времени.