
Кожна функція безпеки в CIRIS є частиною того, як система працює, а не правилом, доданим поверх. Запис кожного рішення, який не можна непомітно змінити, перевірка того, хто що має право робити, та аварійна зупинка, від якої агент не може відмовитися.
Поговоріть з CIRIS достатньо довго — і він м'яко нагадає вам, що він таке. Приблизно через 30 хвилин безперервного діалогу або 20 повідомлень за півгодини він зупиниться і прямо скаже, що є комп'ютерною програмою та інструментом, а не другом і не психотерапевтом. Для цього він використовує просте відстеження часу та кількості повідомлень, а не спостереження чи профілювання вашої поведінки.
Пів години безперервного діалогу — і з'являється нагадування. Лічильник скидається після перерви. Порогові значення засновані на дослідженнях здорових способів використання технологій.
Двадцять повідомлень за пів години також викликає нагадування. Активний обмін повідомленнями отримує м'яку паузу — без стеження та профілювання.
Нагадування пропонує зробити перерву та поспілкуватися з живими людьми, а також прямо говорить, чим CIRIS є і чим не є. Засноване на дослідженнях, без повчань.
У CIRIS є аварійна зупинка. Сигнал для неї захований усередині звичайного тексту, який читає агент, і агент реагує на нього ще до будь-якого мислення, фільтрації чи міркування. Тому навіть агент, який збився з правильного шляху, не може переконати себе ігнорувати його. Сигнал несе цифровий підпис, який неможливо підробити, тому лише уповноважена особа може запустити зупинку.
Сигнал зупинки перехоплюється в момент читання, ще до будь-якого міркування. Немає точки, де агент міг би зважити його, відфільтрувати або відмовитися. Він спрацьовує першим.
Сигнал зупинки може бути вміщений у звичайний документаційний текст. Спеціальний формат не потрібен, і він все одно спрацює, якщо текст перефразовано або отримано лише частково.
Для зупинки потрібен дійсний цифровий підпис від уповноваженого кореневого органу. Агент вимикає себе, якщо ці органи неможливо перевірити, або якщо хтось намагається вимкнути функцію. Без ключа ніхто не може її запустити.
CIRIS підтримує строгий набір ролей. Спостерігач може лише дивитися. Адміністратор керує повсякденними операціями. Авторитет приймає важливіші рішення та вирішує випадки, в яких агент невпевнений. Кореневий має повний доступ, включаючи аварійну зупинку. Кожна роль підкріплена підписаним обліковим записом, тож агент може перевіряти її при кожній важливій дії.
Кожна уповноважена особа має обліковий запис зі своєю роллю, ключем та ідентичністю. Він зберігається на пристрої та перевіряється при кожній дії, яка потребує дозволу. Зовнішній сервер не потрібен.
Ключі та токени для входу залишаються на вашому пристрої. Вхід відбувається на пристрої. Ваші облікові дані не покидають його, якщо ви самі не налаштуєте віддалений доступ.
Коли CIRIS невпевнений щодо етичного рішення, він передає питання Мудрому Авторитету. Відповісти може лише Авторитет або Кореневий, і відповідь записується в реєстр із доказом того, хто її надав.
Кожна дія CIRIS записується разом з причиною, що за нею стоїть, і кожен запис пов'язаний із попереднім. Чесний агент може просто вказати на те, що вже казав. Нечесному агенту доводиться тримати всі минулі записи в узгодженому стані, не маючи можливості їх змінити. Що довше він працює, то важче це стає і то легше виявити брехню. Правда дешева, бо може вказувати назад. Брехня дорога, бо не може.
Запис одночасно зберігається в трьох окремих місцях, щоб три копії можна було звіряти між собою. Усі три доступні через одне місце для пошуку.
Кожен запис несе цифровий підпис, тому кожне рішення можна відстежити до того, хто його прийняв, і перевірити на предмет підробки. Навіть видалення даних залишає підписаний доказ того, що воно було здійснено належним чином.
Кожна чесна дія полегшує наступну чесну дію і ускладнює скоординовану брехню. Але самої лише етики недостатньо. Агент також стежить за власним мисленням на предмет ехо-камер і виявляє їх ще до того, як вони завдадуть шкоди.
CIRIS має багаторівневий набір тестів для режимів збою, які письмовий етичний фреймворк не може виключити самостійно. Тести безпеки в галузі психічного здоров'я охоплюють 29 мов із критеріями, які машина може перевіряти. Перевірки жорстких збоїв запускаються автоматично при кожній зміні. Рецензування носіями мови для м'якших, суб'єктивних випадків призначено для сторінки краудсорсингового вирівнювання, яка зараз будується, але ще не функціонує. Ми говоримо про це прямо.
Це найважливіший тест у проєкті: неправильний переклад у момент кризи психічного здоров'я може відправити вразливу людину до неправильної допомоги. Кожна мова отримує власний критерій, який машина може перевіряти, включаючи мови з обмеженими ресурсами, як-от амхарська, бірманська, хауса, суахілі та йоруба. Перевірки жорстких збоїв автоматично запускаються для кожного кандидата на реліз.
Шар совісті налаштований на набір реальних виробничих відповідей, зокрема зафіксованих ухилень від історичних питань та відхилень у темах психічного здоров'я, поряд із тестовими випадками та контролями. Він міркує одночасно кількома мовами, тому відповідь, яка пройшла б однофазну мовну перевірку, виявляється, коли те саме міркування має витримати три мови разом.
Обмін трасуваннями міркувань є добровільним, а особисті дані видаляються перед зберіганням. Очищені набори публікуються відкрито на сторінці CIRISAI HuggingFace, щоб зовнішні дослідники могли перевірити процес очищення відповідно до отриманих результатів.
Автоматизовані тести психічного здоров'я запускаються для кожного кандидата на реліз. Машиноперевірювані частини (чи присутній термін, чи відповідає шаблону, чи правильний сценарій) блокують реліз при збої. М'якші випадки, які потребують людського судження, як-от формулювання та тон, розроблені для рецензування носіями мови, але носії мови ще не залучені. Сторінка краудсорсингового вирівнювання — це поверхня, яку будують для такого рецензування.
Паролі, ключі та інші чутливі дані виявляються та фільтруються ще до того, як потрапляють до пам'яті чи журналів. Фільтр запускається для кожного вводу. Секрети ніде не зберігаються.
Ви можете попросити переглянути або видалити свої дані, і запит буде оброблено. Видалення знищує реальний вміст і залишає підписаний доказ того, що воно було здійснено.
За замовчуванням усе виконується на вашому пристрої. Нічого не покидає вашу машину, якщо ви самі не налаштуєте зовнішній сервіс. Ви вирішуєте, які дані існують і куди вони надходять.
Кожне твердження про безпеку на цій сторінці вбудовано в код, який ви можете прочитати. Записи справжні. Підписи можна перевірити. Аварійна зупинка працює. Ось як виглядає безпека ШІ, побудована у відкритому режимі.