Перший контактВстановитиХраповик узгодженостіФедераціяПорівнятиДослідженняУгодаGitHub
Цю сторінку перекладено машинним способом. Якщо щось здається неправильним, будь ласка, відкрийте звернення — репозиторій є публічним не просто так. Повідомити про проблему з перекладом
Background Image
Найбезпечніший і найетичніший ШІ у виробництві сьогодні

Без підзвітності ШІ схильний брати більше, ніж давати.

Якщо підзвітність не можна перевірити, це маркетинг. Ось що варто шукати і як порівнюють наявні підходи.

Три типи ШІ

Совість потрібна. Але її недостатньо.

Деякий ШІ не має жодних правил. Деякий дотримується правил, але не може визначити, коли його джерела просто повторюють одне одного. Лише один тип перевіряє, чи справді інформація надходить з різних місць.

1

Без правил

Жодних опублікованих принципів. Жодного журналу перевірок. Закритий код. Ви не можете перевірити, що він зробив і чому.

Більшість споживчих ШІ-асистентів (ChatGPT, Gemini) знаходяться тут з точки зору публічної підзвітності. Сильні внутрішні практики можуть існувати; ви не можете їх перевірити.

Потребує зовнішнього регулювання. Не може керувати собою.

2

Правила без усвідомленості

Дотримується етичних правил. Але не може визначити, коли всі його джерела просто копіюють одне одного, тому може бути впевнено неправим.

Безпечний під наглядом. Не може самостійно виявити інформаційні бульбашки.

3

Правила + усвідомленість

Дотримується етичних правил І перевіряє, чи надходить інформація справді з різних місць. Коли погодження виглядає підозрілим, позначає це до того, як діяти.

Саме це будує CIRIS.

ШІ може дотримуватися кожного правила, пройти кожен аудит і все одно помилитися, якщо вся його інформація надходить з одного місця. Саме цю сліпу зону CIRIS було створено для усунення.

Сім речей для перевірки

Шість для етики. Одна для сліпих зон.

Ось що робить ШІ перевіряємим і підзвітним. Перші шість стосуються правильних дій. Сьома — виявлення ситуацій, де «правильна дія» базується на поганій інформації.

1. Опубліковані принципи

Агент повинен дотримуватися публічної етичної системи. Не приховані правила: документ, який будь-хто може прочитати і притягнути до відповідальності.

2. Перевірка совісті при кожному рішенні

Кожна дія проходить перевірку совісті до того, як агент її виконає. Не після факту. До.

3. Запитує людей, коли не впевнений

Коли є невизначеність або загроза шкоди, агент запитує людину замість того, щоб здогадуватися. Вбудовано в робочий процес, а не опціонально.

4. Доказ того, що він зробив

Кожне рішення записується і підписується, щоб ви могли точно перевірити, що відбулося і чому. Квитанція для кожної дії.

5. Двостороння згода

Згода діє в обидва боки. Ви можете відмовити агенту. Агент може відмовити вам. Жодна зі сторін не зобов'язана йти на компроміс.

6. Відкритий код

Не можна перевірити те, чого не бачиш. CIRIS повністю відкритий під ліцензією AGPL-3.0. Будь-хто може читати, перевіряти і покращувати код.

7

Виявлення інформаційних бульбашок

Те, чого правила самі по собі не можуть вловити.

Перед дією агент запитує: «Чи справді мої джерела не погоджуються між собою, чи вони всі отримують інформацію з одного місця?» Десять джерел, які всі скопіювали з одного оригіналу, насправді є лише одним джерелом. Коли погодження виглядає занадто одностайним, агент позначає це для перевірки людиною.

Занадто шумно

Джерела суперечать одне одному настільки, що не можна зробити жодного корисного висновку.

Здорово

Джерела справді різняться. Справжня згода щось означає.

Інформаційна бульбашка

Виглядає як згода, але джерела просто повторюють одне одного.

Ось що відрізняє CIRIS від інших систем підзвітності ШІ.

Хочете математику? Читайте повну дисертацію →

Поточний ландшафт

Різні проєкти, різні цілі.

На основі загальнодоступної документації станом на лютий 2026 року. Якщо ми щось пропустили або помилилися, повідомте нас.

ПроєктПеревіряє кожне рішенняОпубліковані правилаВбудована совістьДоказ того, що зробивВідкритий кодВиявлення інформаційних бульбашок
CIRISТакТакТакТакAGPL-3.0Так
Constitutional AIЛише навчанняНеявніНіНіНіНі
LlamaFirewall / NeMo GuardrailsТакНіНіЖурналюванняТакНі
HatCatТакЧастковоSteeringЧастковоCC0Ні
Ради з етики / системи управлінняНіТакНіВручнуПо-різномуНі

Фільтри виводу та системи управління вирішують важливі, але різні проблеми. Фільтри блокують шкідливі результати. Совість міркує про цінності. CIRIS прагне робити і те, і інше, і виявляти сліпі зони, які жоден з підходів не вирішує окремо.

Три рівні захисту

Кожен вирішує різну проблему.

Фільтри виводу

Блокують небезпечні результати: ін'єкцію підказок, шкідливий контент, ворожі атаки. Як фільтр, що затримує погане на виході.

Етична совість

Міркує про те, чи є дія правильною, а не лише безпечною. Як суддя, що зважує ситуацію перед ухваленням рішення.

Виявлення інформаційних бульбашок

Перевіряє, чи є погодження справжнім або лише повторенням. Як перевіряльник фактів, що запитує «чи всі ви читали одну статтю?»

Багато узгоджених агентів

Розподілене управління, а не сконцентрована влада.

Жодної єдиної точки відмови

Менші агенти, кожен підзвітний.

Багато менших агентів, кожен прив'язаний до опублікованих принципів, кожен перевіряємий, кожен передає повноваження людській владі. Жодна окрема компанія або структура не контролює весь стек. Чим незалежніші агенти, тим складніше будь-якій одній відмові поширитися.

Стан досліджень

Це активне дослідження. Ми прозорі щодо того, що встановлено, а що ще тестується.

Добре встановлено

  • - Скопійовані джерела зменшують реальну різноманітність
  • - Моделі ШІ мають перетин навчальних даних
  • - Інформаційні бульбашки створюють хибну впевненість
  • - Незалежна перевірка виявляє більше помилок

Ще тестується

  • - Точне вимірювання ступеня копіювання джерел ШІ
  • - Найкращі пороги для позначення інформаційних бульбашок
  • - Наскільки добре втручання зменшує копіювання
  • - Як це змінюється в різних галузях

Спробуйте самі

Перевірте самостійно.

Відкритий код. Відкритий для перевірки.

Кожне твердження на цій сторінці підкріплене кодом, який можна читати, трасуваннями, які можна перевірити, і дослідженнями, які можна перевірити. Це і є суть.