
Якщо підзвітність не можна перевірити, це маркетинг. Ось що варто шукати і як порівнюють наявні підходи.
Совість потрібна. Але її недостатньо.
Деякий ШІ не має жодних правил. Деякий дотримується правил, але не може визначити, коли його джерела просто повторюють одне одного. Лише один тип перевіряє, чи справді інформація надходить з різних місць.
Жодних опублікованих принципів. Жодного журналу перевірок. Закритий код. Ви не можете перевірити, що він зробив і чому.
Більшість споживчих ШІ-асистентів (ChatGPT, Gemini) знаходяться тут з точки зору публічної підзвітності. Сильні внутрішні практики можуть існувати; ви не можете їх перевірити.
Потребує зовнішнього регулювання. Не може керувати собою.
Дотримується етичних правил. Але не може визначити, коли всі його джерела просто копіюють одне одного, тому може бути впевнено неправим.
Безпечний під наглядом. Не може самостійно виявити інформаційні бульбашки.
Дотримується етичних правил І перевіряє, чи надходить інформація справді з різних місць. Коли погодження виглядає підозрілим, позначає це до того, як діяти.
Саме це будує CIRIS.
ШІ може дотримуватися кожного правила, пройти кожен аудит і все одно помилитися, якщо вся його інформація надходить з одного місця. Саме цю сліпу зону CIRIS було створено для усунення.
Ось що робить ШІ перевіряємим і підзвітним. Перші шість стосуються правильних дій. Сьома — виявлення ситуацій, де «правильна дія» базується на поганій інформації.
Агент повинен дотримуватися публічної етичної системи. Не приховані правила: документ, який будь-хто може прочитати і притягнути до відповідальності.
Кожна дія проходить перевірку совісті до того, як агент її виконає. Не після факту. До.
Коли є невизначеність або загроза шкоди, агент запитує людину замість того, щоб здогадуватися. Вбудовано в робочий процес, а не опціонально.
Кожне рішення записується і підписується, щоб ви могли точно перевірити, що відбулося і чому. Квитанція для кожної дії.
Згода діє в обидва боки. Ви можете відмовити агенту. Агент може відмовити вам. Жодна зі сторін не зобов'язана йти на компроміс.
Не можна перевірити те, чого не бачиш. CIRIS повністю відкритий під ліцензією AGPL-3.0. Будь-хто може читати, перевіряти і покращувати код.
Те, чого правила самі по собі не можуть вловити.
Перед дією агент запитує: «Чи справді мої джерела не погоджуються між собою, чи вони всі отримують інформацію з одного місця?» Десять джерел, які всі скопіювали з одного оригіналу, насправді є лише одним джерелом. Коли погодження виглядає занадто одностайним, агент позначає це для перевірки людиною.
Занадто шумно
Джерела суперечать одне одному настільки, що не можна зробити жодного корисного висновку.
Здорово
Джерела справді різняться. Справжня згода щось означає.
Інформаційна бульбашка
Виглядає як згода, але джерела просто повторюють одне одного.
Ось що відрізняє CIRIS від інших систем підзвітності ШІ.
Хочете математику? Читайте повну дисертацію →На основі загальнодоступної документації станом на лютий 2026 року. Якщо ми щось пропустили або помилилися, повідомте нас.
| Проєкт | Перевіряє кожне рішення | Опубліковані правила | Вбудована совість | Доказ того, що зробив | Відкритий код | Виявлення інформаційних бульбашок |
|---|---|---|---|---|---|---|
| CIRIS | Так | Так | Так | Так | AGPL-3.0 | Так |
| Constitutional AI | Лише навчання | Неявні | Ні | Ні | Ні | Ні |
| LlamaFirewall / NeMo Guardrails | Так | Ні | Ні | Журналювання | Так | Ні |
| HatCat | Так | Частково | Steering | Частково | CC0 | Ні |
| Ради з етики / системи управління | Ні | Так | Ні | Вручну | По-різному | Ні |
Фільтри виводу та системи управління вирішують важливі, але різні проблеми. Фільтри блокують шкідливі результати. Совість міркує про цінності. CIRIS прагне робити і те, і інше, і виявляти сліпі зони, які жоден з підходів не вирішує окремо.
Блокують небезпечні результати: ін'єкцію підказок, шкідливий контент, ворожі атаки. Як фільтр, що затримує погане на виході.
Міркує про те, чи є дія правильною, а не лише безпечною. Як суддя, що зважує ситуацію перед ухваленням рішення.
Перевіряє, чи є погодження справжнім або лише повторенням. Як перевіряльник фактів, що запитує «чи всі ви читали одну статтю?»
Багато менших агентів, кожен прив'язаний до опублікованих принципів, кожен перевіряємий, кожен передає повноваження людській владі. Жодна окрема компанія або структура не контролює весь стек. Чим незалежніші агенти, тим складніше будь-якій одній відмові поширитися.
Це активне дослідження. Ми прозорі щодо того, що встановлено, а що ще тестується.
Добре встановлено
Ще тестується
Дивіться, як він думає
Перегляньте покроковий процес міркування реального агента. Дослідити трасування →
Перевірте його особу
Подивіться, як агенти підтверджують, хто вони є, немов DMV для ШІ. Довіра та ідентичність →
Розпочати
Розгорніть свого першого агента або прочитайте дисертацію простою мовою. Перший контакт →
Кожне твердження на цій сторінці підкріплене кодом, який можна читати, трасуваннями, які можна перевірити, і дослідженнями, які можна перевірити. Це і є суть.