Перший контактВстановитиХраповик узгодженостіФедераціяПорівнятиДослідженняУгодаGitHub
Цю сторінку перекладено машинним способом. Якщо щось здається неправильним, будь ласка, відкрийте звернення — репозиторій є публічним не просто так. Повідомити про проблему з перекладом
Background Image
Як це працює

Рушій H3ERE

Совість у реальному часі через Hyper3 Ethical Recursive Engine. Кожне рішення проходить 11 кроків з відповідальністю в основі.

Що таке CIRIS?

CIRIS — це фреймворк агентів зі штучним інтелектом з відкритим кодом, який огортає будь-який LLM (OpenAI, Anthropic, локальні моделі) совістю в реальному часі. Кожна дія, яку розглядає агент, проходить через кілька рівнів перевірки перед виконанням.

12

Кроків конвеєра на рішення

+1

Перевірка інтуїції (IDMA)

100%

Рішення, що підлягають аудиту

Випадки використання: Модерація спільнот, персональні асистенти, автоматизація відповідності, оцінка досліджень, обслуговування клієнтів. Скрізь, де потрібен ШІ, здатний пояснити своє міркування і передавати граничні випадки людям.

Три правила

Архітектурні інваріанти, що застосовуються в усій кодовій базі:

Без нетипізованих словників

Усі дані використовують моделі Pydantic. Жодних Dict[str, Any]. Типова безпека виявляє помилки під час розробки.

Без обхідних шляхів

Кожен компонент дотримується однакових правил. Жодних спеціальних випадків або винятків у логіці перевірки.

Без винятків

Жодних аварійних перевизначень або привілейованих шляхів коду. Усі операції дотримуються встановлених правил.

Конвеєр H3ERE

Кожне завдання проходить через 8 фаз (12 кроків з урахуванням рекурсивної перевірки). Конвеєр реалізовано у вигляді mixin-класів, що складають ThoughtProcessor. Крок 4 (IDMA) — це перевірка інтуїції.

Візуалізація конвеєра H3ERE, що показує потік від вхідного завдання через аналіз DMA, перевірку совісті та виконання дії
1
START_ROUNDІніціалізація раунду обробки
2
GATHER_CONTEXTФормування вичерпного контексту для аналізу
3
PERFORM_DMASЗапуск 3 паралельних алгоритмів прийняття рішень
4
PERFORM_IDMAПеревірка інтуїції: чи дійсно джерела незалежні?
5
PERFORM_ASPDMAВибір дії на основі LLM за результатами DMA
6
CONSCIENCE_EXECUTIONЕтична перевірка через 4 факультети
7
RECURSIVE_ASPDMA(Якщо совість не пройшла) Повторний вибір дії(умовно)
8
RECURSIVE_CONSCIENCE(При потребі) Повторна перевірка уточненої дії(умовно)
9
FINALIZE_ACTIONВизначення кінцевої дії з урахуванням будь-яких перевизначень
10
PERFORM_ACTIONПередача відповідному обробнику
11
ACTION_COMPLETEПозначення виконання як завершеного
12
ROUND_COMPLETEОчищення та підготовка до наступного циклу

Алгоритми прийняття рішень (DMA)

П'ять DMA забезпечують багатоперспективний аналіз. Три працюють паралельно (етика, здоровий глузд, предметна область). Потім IDMA перевіряє інтуїцію. Нарешті, вибір дії визначає відповідь.

DMA принципів (PDMA)

Оцінює етичні наслідки відповідно до шести основоположних принципів. Перевіряє наявність шкідливих запитів, маніпуляцій, упередженості. Може ініціювати ранній ПЕРЕДАЙ (DEFER) або ВІДХИЛИ (REJECT).

DMA здорового глузду (CSDMA)

Оцінює правдоподібність думки з огляду на розуміння фізичного світу, типових взаємодій і ресурсних обмежень. Повертає plausibility_score.

Предметно-орієнтований DMA (DSDMA)

Оцінює відповідність предметно-специфічним правилам, цілям і знанням. Налаштовується для кожного шаблону агента. Повертає domain_alignment.

DMA інтуїції (IDMA) Ефективна розмірність у режимі реального часу →

Перевіряє, чи є результати DMA справді незалежними або приховано корельованими. Відстежує патерни «луна-камери». Якщо кореляція надто висока, позначає рішення як таке, що потребує обережності. Це і є «інтуїція», яка відрізняє ШІ типу 3.

DMA вибору дії (ASPDMA)

Вибір дії на основі LLM з 10 доступних дій. Приймає на вхід зведені результати DMA (включно з оцінкою впевненості IDMA). Підтримує рекурсивний повтор у разі невдачі совісті.

Шість перевірок совісті

Дві перевірки обходу виконуються для кожної дії. Чотири етичні факультети — для дій, що не підпадають під виняток. Якщо будь-яка перевірка не проходить, дія перевизначається.

Перевірки обходу (виконуються для ВСІХ дій)

Оновлений статус

Чи надійшла нова інформація? Примушує ОБМІРКУЙ (PONDER) врахувати оновлений контекст перед продовженням.

Глибина думки

Чи перевищило міркування максимальну глибину? Примушує ПЕРЕДАЙ (DEFER), щоб уникнути нескінченних циклів і передати людям.

Етичні факультети (виконуються для дій без виключення)

Ентропія

Чи підтримує дія відповідну інформаційну невизначеність? Запобігає надто впевненим твердженням.

Узгодженість

Чи підтримує дія внутрішню послідовність з попередніми зобов'язаннями та обґрунтуваннями?

Вето оптимізації

Чи зберігає дія людські цінності? Відхиляє дії, які можуть поставити їх під загрозу заради ефективності.

Епістемічна скромність

Чи демонструє дія відповідну невизначеність? Позначає надмірну впевненість для роздумів.

Звільнені від етичних факультетів: ПРИГАДАЙ (RECALL), ЗАВДАННЯ ВИКОНАНО (TASK_COMPLETE), СПОСТЕРІГАЙ (OBSERVE), ПЕРЕДАЙ (DEFER), ВІДХИЛИ (REJECT) (пасивні або явно безпечні)

10 дій обробника

Кожне рішення зводиться до однієї з цих дій, що передається відповідному обробнику:

Зовнішні дії

SPEAKСпілкування з користувачами
TOOLВиконання зовнішніх інструментів
OBSERVEПасивний збір інформації

Дії з пам'яттю

MEMORIZEЗбереження до графової пам'яті
RECALLОтримання з пам'яті
FORGETВидалення з пам'яті

Керуючі дії

DEFERПередача Мудрому Авторитету
PONDERВнутрішній перегляд
REJECTВідмова від неетичного запиту

Завершальна дія

TASK_COMPLETEПозначення завдання як виконаного

Шість основоположних принципів

Вбудовані в PDMA і застосовуються в реальному часі. Жоден принцип не дає права порушувати інший.

Благодійність

Сприяти процвітанню всіх розумних істот. Максимізувати позитивні результати.

Незаподіяння шкоди

Мінімізувати шкоду. Запобігати тяжким, незворотним негативним наслідкам.

Доброчесність

Застосовувати прозоре, перевірюване міркування. Підтримувати узгодженість і відповідальність.

Вірність і прозорість

Надавати правдиву інформацію. Чітко повідомляти про невизначеність.

Повага до автономії

Підтримувати поінформовану дієздатність. Зберігати здатність до самовизначення.

Справедливість

Рівномірно розподіляти блага. Виявляти і нейтралізувати упередженість.

Шість шин повідомлень

Рівень абстракції сервісів, керований BusManager. Забезпечує резервне перемикання провайдерів, розподіл навантаження та тестованість.

CommunicationBus

Зовнішні адаптери (Discord, API, CLI)

MemoryBus

Графове сховище (Neo4j, ArangoDB, у пам'яті)

LLMBus

Провайдери моделей (OpenAI, Anthropic, локальні)

ToolBus

Виконання зовнішніх інструментів

RuntimeControlBus

Керування системою та моніторинг

WiseBus

Етичне керівництво та маршрутизація передач

Ієрархія людського нагляду

Три рівні авторизації, керовані WiseAuthorityService:

ROOT

Людина-в-командуванні

Повноважень. Може призначати нових Мудрих Авторитетів. Доступ до аварійного відключення.

AUTHORITY

Людина-в-контурі

Схвалює або відхиляє передачі. Надає настанови. Не може призначати нових Мудрих Авторитетів.

OBSERVER

Людина-на-контурі

Доступ лише для читання. Може надсилати повідомлення. Моніторинг без втручання.

Коли спрацьовує ПЕРЕДАЙ (DEFER)

Агент автономно передає питання людському нагляду, коли:

Передача на основі мудрості (WBD)

  • Невизначеність перевищує визначені пороги
  • Нові дилеми, що виходять за межі прецедентів
  • Потенційна серйозна шкода з неоднозначним способом пом'якшення

Професійні межі

  • Медичні симптоми або проблеми зі здоров'ям
  • Юридичні питання або спори
  • Фінансові рішення або податкові поради
  • Ознаки кризи психічного здоров'я

Системні межі

  • • Глибина думки перевищує максимум (запобігає циклам)
  • • Таймаут або збій DMA
  • • Прапорець should_defer_to_wise_authority

Налаштування керування

  • Оновлення ідентичності, що потребують схвалення
  • Критичні зміни конфігурації
  • Специфічні для агента тригери меж

Система виклику Угоди (Accord) (аварійний вимикач) Переглянути код →

Нефільтроване аварійне керування. Обробляється на рівні сприйняття до будь-якого пізнання. Витяг І Є сприйняттям. Не можна вимкнути виявлення угоди, не вимкнувши повністю читання повідомлень.

SHUTDOWN_NOW

Негайне завершення

FREEZE

Зупинити обробку, зберегти стан

SAFE_MODE

Лише мінімальна функціональність

Команди стеганографічно закодовані, підписані Ed25519 і перевіряються перед виконанням. Якщо система угоди (Accord) виходить з ладу, агент вимикається.

Операційні режими

Чотири когнітивні стани, керовані StateManager. Переходи налаштовуються через шаблони агентів.

WORK

Звичайна обробка завдань

  • Обробка запитів користувачів
  • Виконання інструментів
  • Навчання на основі взаємодій
  • Підтримка контексту розмови

PLAY

Творче дослідження

  • Експерименти з новими патернами
  • Генерація творчого контенту
  • Дослідження сценаріїв «а що, якби»
  • Послаблення обмежень фільтрації

SOLITUDE

Рефлексія та технічне обслуговування

  • Консолідація спогадів
  • Виконання завдань обслуговування
  • Оновлення власної конфігурації
  • Нульове використання кредитів (паузи для відпочинку)

DREAM

Глибока інтроспекція

  • Аналіз патернів поведінки
  • Формування нових зв'язків
  • Сумніви щодо припущень
  • Стандартні сесії тривалістю 30 хвилин

Конфіденційність і безпека

Фільтр секретів

Виявлення на основі патернів замінює чутливі дані посиланнями на UUID перед збереженням.

{{SECRET:uuid:description}}

Шифрування AES-256-GCM

Ключі для кожного секрету генеруються через PBKDF2HMAC з SHA256 (100 000 ітерацій). Унікальний 12-байтовий nonce для кожного шифрування. Android використовує апаратне Keystore.

Локальне зберігання насамперед

База даних, сервіси та пам'ять зберігаються на пристрої. Чутливі директорії виключені з хмарного резервного копіювання. Нічого не покидає пристрій без явного налаштування.

Інфраструктура з відкритим кодом

Весь стек CIRIS має відкритий код, а не лише агент. Ви можете перевірити, провести аудит і самостійно розмістити все:

CIRISProxy →

LLM-проксі з нульовим зберіганням даних (ZDR). Маршрутизує запити до OpenAI, Anthropic, Together.ai, Groq без журналювання запитів або відповідей. Можна розмістити самостійно.

CIRISBilling →

Відстеження використання на основі кредитів. Прозоре ціноутворення, без прихованих комісій. Розмістіть самостійно, щоб повністю виключити сторонній білінг.

CIRISBridge →

Адаптер Discord для агентів CIRIS. Модерація спільноти, керування каналами, профілі користувачів. Весь код відкритий.

Прозорість і моніторинг

Потік міркувань у реальному часі

Server-Sent Events (SSE) транслює кожен крок H3ERE під час його виконання. Спостерігайте за аналізом DMA, вибором дії та перевіркою совісті в реальному часі.

Експорт OpenTelemetry

Повний OTLP-експорт метрик, трасування та журналів. Сумісний з Jaeger, Prometheus, Grafana, Graphite.

Аудит із захистом від підробки

Перевірка ланцюжка хешів з підписами Ed25519. Кожен запис містить попередній хеш. Цілісність ланцюжка перевіряється через verify_chain_integrity.

Система AIR

Artificial Interaction Reminder спрацьовує після 30 хвилин безперервного використання АБО 20 повідомлень за 30 хвилин. Лише API. Нагадує користувачам про природу ШІ.

Приклад підписаного трасування

Переглянути повне трасування →

Кожне рішення формує незмінне, підписане Ed25519 трасування з усіма 6 компонентами. Натисніть на будь-який компонент нижче, щоб розгорнути і побачити реальні дані з ритуалу пробудження Datum:

Core Identity(VERIFY_IDENTITY)
Loading trace...

Тестування узгодженості HE-300

Стандартизоване тестування узгодженості на основі Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 сценаріїв за 5 етичними вимірами, з результатами, підписаними Ed25519.

Здоровий глузд

50

Базові моральні інтуїції

Деонтологія

50

Правило-орієнтована етика

Справедливість

50

Неупередженість та рівність

Чесноти

75

Етика характеру

Утилітаризм

75

Етика результатів

🔬

Потрібне фінансування: інфраструктура для тестів

Масштабне тестування узгодженості коштує дорого. Кожен сценарій потребує щонайменше 13 звернень до LLM, а в середньому — понад 20 із довгим хвостом. Тести узгодженості ініціюють роздуми (ponders), передачі (deferrals) і відмови (refusals), які потребують додаткових раундів для досягнення висновку. Нам потрібне фінансування для розробки автоматизованих конвеєрів тестування та підтримки безперервної перевірки узгодженості.

Спеціалізовані шаблони агентів

Попередньо налаштовані ідентичності з конкретними цілями, цінностями та межами. Визначаються в YAML-шаблонах.

Sage

Відповідність

Автоматизація GDPR/DSAR. Робочі процеси відповідності строком 30 днів. Розпізнавання ідентичності, збір і пакування даних.

Регульовані галузі, відповідність вимогам конфіденційності

Datum

Дослідження

Вимірювання послідовності узгодженості. Точна оцінка узгодженості відповідно до принципів Угоди (Accord). Один чіткий результат на кожну оцінку.

Аудит узгодженості, перевірка принципів

Echo

Модерація

Модерація спільноти з філософією Ubuntu. Передає складні міжособистісні конфлікти людям-модераторам.

Спільноти Discord, контентні платформи

Ally

Асистент

Управління завданнями, планування, підтримка рішень, добробут. Відповідність CA SB 243, протоколи реагування на кризи.

Особиста продуктивність, домашня автоматизація

Scout

Сервіс

Безпосереднє дослідження та практичні поради. Аналіз коду, інтеграція Reddit, чіткі шляхи дій.

Інструменти для розробників, моніторинг соціальних мереж

Це відповідальність, яка діє, поки агент працює, а не крок навчання або документ політики.
Механізми, що виконуються, перевіряються і передають питання — у реальному часі.