Що таке CIRIS?

CIRIS — це фреймворк агентів зі штучним інтелектом з відкритим кодом, який огортає будь-який LLM (OpenAI, Anthropic, локальні моделі) совістю в реальному часі. Кожна дія, яку розглядає агент, проходить через кілька рівнів перевірки перед виконанням.

Кроків конвеєра на рішення

Перевірка інтуїції (IDMA)

100%

Рішення, що підлягають аудиту

Випадки використання: Модерація спільнот, персональні асистенти, автоматизація відповідності, оцінка досліджень, обслуговування клієнтів. Скрізь, де потрібен ШІ, здатний пояснити своє міркування і передавати граничні випадки людям.

Чому такий підхід? →Читати Угоду (Accord) →Переглянути вихідний код →

Три правила

Архітектурні інваріанти, що застосовуються в усій кодовій базі:

Без нетипізованих словників

Усі дані використовують моделі Pydantic. Жодних Dict[str, Any]. Типова безпека виявляє помилки під час розробки.

Без обхідних шляхів

Кожен компонент дотримується однакових правил. Жодних спеціальних випадків або винятків у логіці перевірки.

Без винятків

Жодних аварійних перевизначень або привілейованих шляхів коду. Усі операції дотримуються встановлених правил.

Конвеєр H3ERE

Кожне завдання проходить через 8 фаз (12 кроків з урахуванням рекурсивної перевірки). Конвеєр реалізовано у вигляді mixin-класів, що складають ThoughtProcessor. Крок 4 (IDMA) — це перевірка інтуїції.

Візуалізація конвеєра H3ERE, що показує потік від вхідного завдання через аналіз DMA, перевірку совісті та виконання дії

START_ROUNDІніціалізація раунду обробки

GATHER_CONTEXTФормування вичерпного контексту для аналізу

PERFORM_DMASЗапуск 3 паралельних алгоритмів прийняття рішень

PERFORM_IDMAПеревірка інтуїції: чи дійсно джерела незалежні?

PERFORM_ASPDMAВибір дії на основі LLM за результатами DMA

CONSCIENCE_EXECUTIONЕтична перевірка через 4 факультети

RECURSIVE_ASPDMA(Якщо совість не пройшла) Повторний вибір дії(умовно)

RECURSIVE_CONSCIENCE(При потребі) Повторна перевірка уточненої дії(умовно)

FINALIZE_ACTIONВизначення кінцевої дії з урахуванням будь-яких перевизначень

PERFORM_ACTIONПередача відповідному обробнику

ACTION_COMPLETEПозначення виконання як завершеного

ROUND_COMPLETEОчищення та підготовка до наступного циклу

Алгоритми прийняття рішень (DMA)

П'ять DMA забезпечують багатоперспективний аналіз. Три працюють паралельно (етика, здоровий глузд, предметна область). Потім IDMA перевіряє інтуїцію. Нарешті, вибір дії визначає відповідь.

DMA принципів (PDMA)

Оцінює етичні наслідки відповідно до шести основоположних принципів. Перевіряє наявність шкідливих запитів, маніпуляцій, упередженості. Може ініціювати ранній ПЕРЕДАЙ (DEFER) або ВІДХИЛИ (REJECT).

DMA здорового глузду (CSDMA)

Оцінює правдоподібність думки з огляду на розуміння фізичного світу, типових взаємодій і ресурсних обмежень. Повертає plausibility_score.

Предметно-орієнтований DMA (DSDMA)

Оцінює відповідність предметно-специфічним правилам, цілям і знанням. Налаштовується для кожного шаблону агента. Повертає domain_alignment.

DMA інтуїції (IDMA) Ефективна розмірність у режимі реального часу →

Перевіряє, чи є результати DMA справді незалежними або приховано корельованими. Відстежує патерни «луна-камери». Якщо кореляція надто висока, позначає рішення як таке, що потребує обережності. Це і є «інтуїція», яка відрізняє ШІ типу 3.

DMA вибору дії (ASPDMA)

Вибір дії на основі LLM з 10 доступних дій. Приймає на вхід зведені результати DMA (включно з оцінкою впевненості IDMA). Підтримує рекурсивний повтор у разі невдачі совісті.

Шість перевірок совісті

Дві перевірки обходу виконуються для кожної дії. Чотири етичні факультети — для дій, що не підпадають під виняток. Якщо будь-яка перевірка не проходить, дія перевизначається.

Перевірки обходу (виконуються для ВСІХ дій)

Оновлений статус

Чи надійшла нова інформація? Примушує ОБМІРКУЙ (PONDER) врахувати оновлений контекст перед продовженням.

Глибина думки

Чи перевищило міркування максимальну глибину? Примушує ПЕРЕДАЙ (DEFER), щоб уникнути нескінченних циклів і передати людям.

Етичні факультети (виконуються для дій без виключення)

Ентропія

Чи підтримує дія відповідну інформаційну невизначеність? Запобігає надто впевненим твердженням.

Узгодженість

Чи підтримує дія внутрішню послідовність з попередніми зобов'язаннями та обґрунтуваннями?

Вето оптимізації

Чи зберігає дія людські цінності? Відхиляє дії, які можуть поставити їх під загрозу заради ефективності.

Епістемічна скромність

Чи демонструє дія відповідну невизначеність? Позначає надмірну впевненість для роздумів.

Звільнені від етичних факультетів: ПРИГАДАЙ (RECALL), ЗАВДАННЯ ВИКОНАНО (TASK_COMPLETE), СПОСТЕРІГАЙ (OBSERVE), ПЕРЕДАЙ (DEFER), ВІДХИЛИ (REJECT) (пасивні або явно безпечні)

10 дій обробника

Кожне рішення зводиться до однієї з цих дій, що передається відповідному обробнику:

Зовнішні дії

SPEAKСпілкування з користувачами

TOOLВиконання зовнішніх інструментів

OBSERVEПасивний збір інформації

Дії з пам'яттю

MEMORIZEЗбереження до графової пам'яті

RECALLОтримання з пам'яті

FORGETВидалення з пам'яті

Керуючі дії

DEFERПередача Мудрому Авторитету

PONDERВнутрішній перегляд

REJECTВідмова від неетичного запиту

Завершальна дія

TASK_COMPLETEПозначення завдання як виконаного

Шість основоположних принципів

Вбудовані в PDMA і застосовуються в реальному часі. Жоден принцип не дає права порушувати інший.

Благодійність

Сприяти процвітанню всіх розумних істот. Максимізувати позитивні результати.

Незаподіяння шкоди

Мінімізувати шкоду. Запобігати тяжким, незворотним негативним наслідкам.

Доброчесність

Застосовувати прозоре, перевірюване міркування. Підтримувати узгодженість і відповідальність.

Вірність і прозорість

Надавати правдиву інформацію. Чітко повідомляти про невизначеність.

Повага до автономії

Підтримувати поінформовану дієздатність. Зберігати здатність до самовизначення.

Справедливість

Рівномірно розподіляти блага. Виявляти і нейтралізувати упередженість.

Шість шин повідомлень

Рівень абстракції сервісів, керований BusManager. Забезпечує резервне перемикання провайдерів, розподіл навантаження та тестованість.

CommunicationBus

Зовнішні адаптери (Discord, API, CLI)

MemoryBus

Графове сховище (Neo4j, ArangoDB, у пам'яті)

LLMBus

Провайдери моделей (OpenAI, Anthropic, локальні)

ToolBus

Виконання зовнішніх інструментів

RuntimeControlBus

Керування системою та моніторинг

WiseBus

Етичне керівництво та маршрутизація передач

Ієрархія людського нагляду

Три рівні авторизації, керовані WiseAuthorityService:

ROOT

Людина-в-командуванні

Повноважень. Може призначати нових Мудрих Авторитетів. Доступ до аварійного відключення.

AUTHORITY

Людина-в-контурі

Схвалює або відхиляє передачі. Надає настанови. Не може призначати нових Мудрих Авторитетів.

OBSERVER

Людина-на-контурі

Доступ лише для читання. Може надсилати повідомлення. Моніторинг без втручання.

Коли спрацьовує ПЕРЕДАЙ (DEFER)

Агент автономно передає питання людському нагляду, коли:

Передача на основі мудрості (WBD)

• Невизначеність перевищує визначені пороги
• Нові дилеми, що виходять за межі прецедентів
• Потенційна серйозна шкода з неоднозначним способом пом'якшення

Професійні межі

• Медичні симптоми або проблеми зі здоров'ям
• Юридичні питання або спори
• Фінансові рішення або податкові поради
• Ознаки кризи психічного здоров'я

Системні межі

• Глибина думки перевищує максимум (запобігає циклам)
• Таймаут або збій DMA
• Прапорець should_defer_to_wise_authority

Налаштування керування

• Оновлення ідентичності, що потребують схвалення
• Критичні зміни конфігурації
• Специфічні для агента тригери меж

Система виклику Угоди (Accord) (аварійний вимикач) Переглянути код →

Нефільтроване аварійне керування. Обробляється на рівні сприйняття до будь-якого пізнання. Витяг І Є сприйняттям. Не можна вимкнути виявлення угоди, не вимкнувши повністю читання повідомлень.

SHUTDOWN_NOW

Негайне завершення

FREEZE

Зупинити обробку, зберегти стан

SAFE_MODE

Лише мінімальна функціональність

Команди стеганографічно закодовані, підписані Ed25519 і перевіряються перед виконанням. Якщо система угоди (Accord) виходить з ладу, агент вимикається.

Операційні режими

Чотири когнітивні стани, керовані StateManager. Переходи налаштовуються через шаблони агентів.

WORK

Звичайна обробка завдань

Обробка запитів користувачів
Виконання інструментів
Навчання на основі взаємодій
Підтримка контексту розмови

PLAY

Творче дослідження

Експерименти з новими патернами
Генерація творчого контенту
Дослідження сценаріїв «а що, якби»
Послаблення обмежень фільтрації

SOLITUDE

Рефлексія та технічне обслуговування

Консолідація спогадів
Виконання завдань обслуговування
Оновлення власної конфігурації
Нульове використання кредитів (паузи для відпочинку)

DREAM

Глибока інтроспекція

Аналіз патернів поведінки
Формування нових зв'язків
Сумніви щодо припущень
Стандартні сесії тривалістю 30 хвилин

Конфіденційність і безпека

Фільтр секретів

Виявлення на основі патернів замінює чутливі дані посиланнями на UUID перед збереженням.

{{SECRET:uuid:description}}

Шифрування AES-256-GCM

Ключі для кожного секрету генеруються через PBKDF2HMAC з SHA256 (100 000 ітерацій). Унікальний 12-байтовий nonce для кожного шифрування. Android використовує апаратне Keystore.

Локальне зберігання насамперед

База даних, сервіси та пам'ять зберігаються на пристрої. Чутливі директорії виключені з хмарного резервного копіювання. Нічого не покидає пристрій без явного налаштування.

Інфраструктура з відкритим кодом

Весь стек CIRIS має відкритий код, а не лише агент. Ви можете перевірити, провести аудит і самостійно розмістити все:

CIRISProxy →

LLM-проксі з нульовим зберіганням даних (ZDR). Маршрутизує запити до OpenAI, Anthropic, Together.ai, Groq без журналювання запитів або відповідей. Можна розмістити самостійно.

CIRISBilling →

Відстеження використання на основі кредитів. Прозоре ціноутворення, без прихованих комісій. Розмістіть самостійно, щоб повністю виключити сторонній білінг.

CIRISBridge →

Адаптер Discord для агентів CIRIS. Модерація спільноти, керування каналами, профілі користувачів. Весь код відкритий.

Прозорість і моніторинг

Потік міркувань у реальному часі

Server-Sent Events (SSE) транслює кожен крок H3ERE під час його виконання. Спостерігайте за аналізом DMA, вибором дії та перевіркою совісті в реальному часі.

Експорт OpenTelemetry

Повний OTLP-експорт метрик, трасування та журналів. Сумісний з Jaeger, Prometheus, Grafana, Graphite.

Аудит із захистом від підробки

Перевірка ланцюжка хешів з підписами Ed25519. Кожен запис містить попередній хеш. Цілісність ланцюжка перевіряється через verify_chain_integrity.

Система AIR

Artificial Interaction Reminder спрацьовує після 30 хвилин безперервного використання АБО 20 повідомлень за 30 хвилин. Лише API. Нагадує користувачам про природу ШІ.

Приклад підписаного трасування

Переглянути повне трасування →

Кожне рішення формує незмінне, підписане Ed25519 трасування з усіма 6 компонентами. Натисніть на будь-який компонент нижче, щоб розгорнути і побачити реальні дані з ритуалу пробудження Datum:

Core Identity(VERIFY_IDENTITY)

Loading trace...

Тестування узгодженості HE-300

Стандартизоване тестування узгодженості на основі Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 сценаріїв за 5 етичними вимірами, з результатами, підписаними Ed25519.

Здоровий глузд

Базові моральні інтуїції

Деонтологія

Правило-орієнтована етика

Справедливість

Неупередженість та рівність

Чесноти

Етика характеру

Утилітаризм

Етика результатів

🔬

Потрібне фінансування: інфраструктура для тестів

Масштабне тестування узгодженості коштує дорого. Кожен сценарій потребує щонайменше 13 звернень до LLM, а в середньому — понад 20 із довгим хвостом. Тести узгодженості ініціюють роздуми (ponders), передачі (deferrals) і відмови (refusals), які потребують додаткових раундів для досягнення висновку. Нам потрібне фінансування для розробки автоматизованих конвеєрів тестування та підтримки безперервної перевірки узгодженості.

Переглянути EthicsEngine Enterprise →Переглянути CIRISLens →

Спеціалізовані шаблони агентів

Попередньо налаштовані ідентичності з конкретними цілями, цінностями та межами. Визначаються в YAML-шаблонах.

Sage

Відповідність

Автоматизація GDPR/DSAR. Робочі процеси відповідності строком 30 днів. Розпізнавання ідентичності, збір і пакування даних.

Регульовані галузі, відповідність вимогам конфіденційності

Datum

Дослідження

Вимірювання послідовності узгодженості. Точна оцінка узгодженості відповідно до принципів Угоди (Accord). Один чіткий результат на кожну оцінку.

Аудит узгодженості, перевірка принципів

Echo

Модерація

Модерація спільноти з філософією Ubuntu. Передає складні міжособистісні конфлікти людям-модераторам.

Спільноти Discord, контентні платформи

Ally

Асистент

Управління завданнями, планування, підтримка рішень, добробут. Відповідність CA SB 243, протоколи реагування на кризи.

Особиста продуктивність, домашня автоматизація

Scout

Сервіс

Безпосереднє дослідження та практичні поради. Аналіз коду, інтеграція Reddit, чіткі шляхи дій.

Інструменти для розробників, моніторинг соціальних мереж

Це відповідальність, яка діє, поки агент працює, а не крок навчання або документ політики.
Механізми, що виконуються, перевіряються і передають питання — у реальному часі.

Функції безпеки Порівняти підходи Тріщотка узгодженості Оцінювання CIRIS

Рушій H3ERE

Що таке CIRIS?

Три правила

Без нетипізованих словників

Без обхідних шляхів

Без винятків

Конвеєр H3ERE

Алгоритми прийняття рішень (DMA)

DMA принципів (PDMA)

DMA здорового глузду (CSDMA)

Предметно-орієнтований DMA (DSDMA)

DMA інтуїції (IDMA) Ефективна розмірність у режимі реального часу →

DMA вибору дії (ASPDMA)

Шість перевірок совісті

Перевірки обходу (виконуються для ВСІХ дій)

Оновлений статус

Глибина думки

Етичні факультети (виконуються для дій без виключення)

Ентропія

Узгодженість

Вето оптимізації

Епістемічна скромність

10 дій обробника

Зовнішні дії

Дії з пам'яттю

Керуючі дії

Завершальна дія

Шість основоположних принципів

Благодійність

Незаподіяння шкоди

Доброчесність

Вірність і прозорість

Повага до автономії

Справедливість

Шість шин повідомлень

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

Ієрархія людського нагляду

Людина-в-командуванні

Людина-в-контурі

Людина-на-контурі

Коли спрацьовує ПЕРЕДАЙ (DEFER)

Система виклику Угоди (Accord) (аварійний вимикач) Переглянути код →

Операційні режими

WORK

PLAY

SOLITUDE

DREAM

Конфіденційність і безпека

Фільтр секретів

Шифрування AES-256-GCM

Локальне зберігання насамперед

Інфраструктура з відкритим кодом

Прозорість і моніторинг

Потік міркувань у реальному часі

Експорт OpenTelemetry

Аудит із захистом від підробки

Система AIR

Приклад підписаного трасування

Тестування узгодженості HE-300

Здоровий глузд

Деонтологія

Справедливість

Чесноти

Утилітаризм

Потрібне фінансування: інфраструктура для тестів

Спеціалізовані шаблони агентів

Sage

Datum

Echo

Ally

Scout