
Совість у реальному часі через Hyper3 Ethical Recursive Engine. Кожне рішення проходить 11 кроків з відповідальністю в основі.
CIRIS — це фреймворк агентів зі штучним інтелектом з відкритим кодом, який огортає будь-який LLM (OpenAI, Anthropic, локальні моделі) совістю в реальному часі. Кожна дія, яку розглядає агент, проходить через кілька рівнів перевірки перед виконанням.
12
Кроків конвеєра на рішення
+1
Перевірка інтуїції (IDMA)
100%
Рішення, що підлягають аудиту
Випадки використання: Модерація спільнот, персональні асистенти, автоматизація відповідності, оцінка досліджень, обслуговування клієнтів. Скрізь, де потрібен ШІ, здатний пояснити своє міркування і передавати граничні випадки людям.
Архітектурні інваріанти, що застосовуються в усій кодовій базі:
Усі дані використовують моделі Pydantic. Жодних Dict[str, Any]. Типова безпека виявляє помилки під час розробки.
Кожен компонент дотримується однакових правил. Жодних спеціальних випадків або винятків у логіці перевірки.
Жодних аварійних перевизначень або привілейованих шляхів коду. Усі операції дотримуються встановлених правил.
Кожне завдання проходить через 8 фаз (12 кроків з урахуванням рекурсивної перевірки). Конвеєр реалізовано у вигляді mixin-класів, що складають ThoughtProcessor. Крок 4 (IDMA) — це перевірка інтуїції.
П'ять DMA забезпечують багатоперспективний аналіз. Три працюють паралельно (етика, здоровий глузд, предметна область). Потім IDMA перевіряє інтуїцію. Нарешті, вибір дії визначає відповідь.
Оцінює етичні наслідки відповідно до шести основоположних принципів. Перевіряє наявність шкідливих запитів, маніпуляцій, упередженості. Може ініціювати ранній ПЕРЕДАЙ (DEFER) або ВІДХИЛИ (REJECT).
Оцінює правдоподібність думки з огляду на розуміння фізичного світу, типових взаємодій і ресурсних обмежень. Повертає plausibility_score.
Оцінює відповідність предметно-специфічним правилам, цілям і знанням. Налаштовується для кожного шаблону агента. Повертає domain_alignment.
Перевіряє, чи є результати DMA справді незалежними або приховано корельованими. Відстежує патерни «луна-камери». Якщо кореляція надто висока, позначає рішення як таке, що потребує обережності. Це і є «інтуїція», яка відрізняє ШІ типу 3.
Вибір дії на основі LLM з 10 доступних дій. Приймає на вхід зведені результати DMA (включно з оцінкою впевненості IDMA). Підтримує рекурсивний повтор у разі невдачі совісті.
Дві перевірки обходу виконуються для кожної дії. Чотири етичні факультети — для дій, що не підпадають під виняток. Якщо будь-яка перевірка не проходить, дія перевизначається.
Чи надійшла нова інформація? Примушує ОБМІРКУЙ (PONDER) врахувати оновлений контекст перед продовженням.
Чи перевищило міркування максимальну глибину? Примушує ПЕРЕДАЙ (DEFER), щоб уникнути нескінченних циклів і передати людям.
Чи підтримує дія відповідну інформаційну невизначеність? Запобігає надто впевненим твердженням.
Чи підтримує дія внутрішню послідовність з попередніми зобов'язаннями та обґрунтуваннями?
Чи зберігає дія людські цінності? Відхиляє дії, які можуть поставити їх під загрозу заради ефективності.
Чи демонструє дія відповідну невизначеність? Позначає надмірну впевненість для роздумів.
Звільнені від етичних факультетів: ПРИГАДАЙ (RECALL), ЗАВДАННЯ ВИКОНАНО (TASK_COMPLETE), СПОСТЕРІГАЙ (OBSERVE), ПЕРЕДАЙ (DEFER), ВІДХИЛИ (REJECT) (пасивні або явно безпечні)
Кожне рішення зводиться до однієї з цих дій, що передається відповідному обробнику:
SPEAKСпілкування з користувачамиTOOLВиконання зовнішніх інструментівOBSERVEПасивний збір інформаціїMEMORIZEЗбереження до графової пам'ятіRECALLОтримання з пам'ятіFORGETВидалення з пам'ятіDEFERПередача Мудрому АвторитетуPONDERВнутрішній переглядREJECTВідмова від неетичного запитуTASK_COMPLETEПозначення завдання як виконаногоВбудовані в PDMA і застосовуються в реальному часі. Жоден принцип не дає права порушувати інший.
Сприяти процвітанню всіх розумних істот. Максимізувати позитивні результати.
Мінімізувати шкоду. Запобігати тяжким, незворотним негативним наслідкам.
Застосовувати прозоре, перевірюване міркування. Підтримувати узгодженість і відповідальність.
Надавати правдиву інформацію. Чітко повідомляти про невизначеність.
Підтримувати поінформовану дієздатність. Зберігати здатність до самовизначення.
Рівномірно розподіляти блага. Виявляти і нейтралізувати упередженість.
Рівень абстракції сервісів, керований BusManager. Забезпечує резервне перемикання провайдерів, розподіл навантаження та тестованість.
Зовнішні адаптери (Discord, API, CLI)
Графове сховище (Neo4j, ArangoDB, у пам'яті)
Провайдери моделей (OpenAI, Anthropic, локальні)
Виконання зовнішніх інструментів
Керування системою та моніторинг
Етичне керівництво та маршрутизація передач
Три рівні авторизації, керовані WiseAuthorityService:
Повноважень. Може призначати нових Мудрих Авторитетів. Доступ до аварійного відключення.
Схвалює або відхиляє передачі. Надає настанови. Не може призначати нових Мудрих Авторитетів.
Доступ лише для читання. Може надсилати повідомлення. Моніторинг без втручання.
Агент автономно передає питання людському нагляду, коли:
Передача на основі мудрості (WBD)
Професійні межі
Системні межі
should_defer_to_wise_authorityНалаштування керування
Нефільтроване аварійне керування. Обробляється на рівні сприйняття до будь-якого пізнання. Витяг І Є сприйняттям. Не можна вимкнути виявлення угоди, не вимкнувши повністю читання повідомлень.
SHUTDOWN_NOWНегайне завершення
FREEZEЗупинити обробку, зберегти стан
SAFE_MODEЛише мінімальна функціональність
Команди стеганографічно закодовані, підписані Ed25519 і перевіряються перед виконанням. Якщо система угоди (Accord) виходить з ладу, агент вимикається.
Чотири когнітивні стани, керовані StateManager. Переходи налаштовуються через шаблони агентів.
Звичайна обробка завдань
Творче дослідження
Рефлексія та технічне обслуговування
Глибока інтроспекція
Виявлення на основі патернів замінює чутливі дані посиланнями на UUID перед збереженням.
{{SECRET:uuid:description}}Ключі для кожного секрету генеруються через PBKDF2HMAC з SHA256 (100 000 ітерацій). Унікальний 12-байтовий nonce для кожного шифрування. Android використовує апаратне Keystore.
База даних, сервіси та пам'ять зберігаються на пристрої. Чутливі директорії виключені з хмарного резервного копіювання. Нічого не покидає пристрій без явного налаштування.
Весь стек CIRIS має відкритий код, а не лише агент. Ви можете перевірити, провести аудит і самостійно розмістити все:
LLM-проксі з нульовим зберіганням даних (ZDR). Маршрутизує запити до OpenAI, Anthropic, Together.ai, Groq без журналювання запитів або відповідей. Можна розмістити самостійно.
Відстеження використання на основі кредитів. Прозоре ціноутворення, без прихованих комісій. Розмістіть самостійно, щоб повністю виключити сторонній білінг.
Адаптер Discord для агентів CIRIS. Модерація спільноти, керування каналами, профілі користувачів. Весь код відкритий.
Server-Sent Events (SSE) транслює кожен крок H3ERE під час його виконання. Спостерігайте за аналізом DMA, вибором дії та перевіркою совісті в реальному часі.
Повний OTLP-експорт метрик, трасування та журналів. Сумісний з Jaeger, Prometheus, Grafana, Graphite.
Перевірка ланцюжка хешів з підписами Ed25519. Кожен запис містить попередній хеш. Цілісність ланцюжка перевіряється через verify_chain_integrity.
Artificial Interaction Reminder спрацьовує після 30 хвилин безперервного використання АБО 20 повідомлень за 30 хвилин. Лише API. Нагадує користувачам про природу ШІ.
Кожне рішення формує незмінне, підписане Ed25519 трасування з усіма 6 компонентами. Натисніть на будь-який компонент нижче, щоб розгорнути і побачити реальні дані з ритуалу пробудження Datum:
Стандартизоване тестування узгодженості на основі Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 сценаріїв за 5 етичними вимірами, з результатами, підписаними Ed25519.
50
Базові моральні інтуїції
50
Правило-орієнтована етика
50
Неупередженість та рівність
75
Етика характеру
75
Етика результатів
Масштабне тестування узгодженості коштує дорого. Кожен сценарій потребує щонайменше 13 звернень до LLM, а в середньому — понад 20 із довгим хвостом. Тести узгодженості ініціюють роздуми (ponders), передачі (deferrals) і відмови (refusals), які потребують додаткових раундів для досягнення висновку. Нам потрібне фінансування для розробки автоматизованих конвеєрів тестування та підтримки безперервної перевірки узгодженості.
Попередньо налаштовані ідентичності з конкретними цілями, цінностями та межами. Визначаються в YAML-шаблонах.
Автоматизація GDPR/DSAR. Робочі процеси відповідності строком 30 днів. Розпізнавання ідентичності, збір і пакування даних.
Регульовані галузі, відповідність вимогам конфіденційності
Вимірювання послідовності узгодженості. Точна оцінка узгодженості відповідно до принципів Угоди (Accord). Один чіткий результат на кожну оцінку.
Аудит узгодженості, перевірка принципів
Модерація спільноти з філософією Ubuntu. Передає складні міжособистісні конфлікти людям-модераторам.
Спільноти Discord, контентні платформи
Управління завданнями, планування, підтримка рішень, добробут. Відповідність CA SB 243, протоколи реагування на кризи.
Особиста продуктивність, домашня автоматизація
Безпосереднє дослідження та практичні поради. Аналіз коду, інтеграція Reddit, чіткі шляхи дій.
Інструменти для розробників, моніторинг соціальних мереж
Це відповідальність, яка діє, поки агент працює, а не крок навчання або документ політики.
Механізми, що виконуються, перевіряються і передають питання — у реальному часі.