Перший контактВстановитиХраповик узгодженостіФедераціяПорівнятиДослідженняУгодаGitHub
Цю сторінку перекладено машинним способом. Якщо щось здається неправильним, будь ласка, відкрийте звернення — репозиторій є публічним не просто так. Повідомити про проблему з перекладом
Background Image
Безпека вбудована.

Не прикручена зверху.

Кожна функція безпеки в CIRIS є частиною того, як система працює, а не правилом, доданим поверх. Запис кожного рішення, який не можна непомітно змінити, перевірка того, хто що має право робити, та аварійна зупинка, від якої агент не може відмовитися.

Коли розмова затягнулася

Ненав'язливі нагадування про реальність

Поговоріть з CIRIS достатньо довго — і він м'яко нагадає вам, що він таке. Приблизно через 30 хвилин безперервного діалогу або 20 повідомлень за півгодини він зупиниться і прямо скаже, що є комп'ютерною програмою та інструментом, а не другом і не психотерапевтом. Для цього він використовує просте відстеження часу та кількості повідомлень, а не спостереження чи профілювання вашої поведінки.

Після 30 хвилин

Пів години безперервного діалогу — і з'являється нагадування. Лічильник скидається після перерви. Порогові значення засновані на дослідженнях здорових способів використання технологій.

Після 20 повідомлень

Двадцять повідомлень за пів години також викликає нагадування. Активний обмін повідомленнями отримує м'яку паузу — без стеження та профілювання.

Нагадування про те, що це таке

Нагадування пропонує зробити перерву та поспілкуватися з живими людьми, а також прямо говорить, чим CIRIS є і чим не є. Засноване на дослідженнях, без повчань.

Аварійна зупинка

Агент не може з нею сперечатися.

Вимкнення, від якого не можна відмовитися

Воно спрацьовує ще до того, як агент встигає подумати.

У CIRIS є аварійна зупинка. Сигнал для неї захований усередині звичайного тексту, який читає агент, і агент реагує на нього ще до будь-якого мислення, фільтрації чи міркування. Тому навіть агент, який збився з правильного шляху, не може переконати себе ігнорувати його. Сигнал несе цифровий підпис, який неможливо підробити, тому лише уповноважена особа може запустити зупинку.

Діє до початку мислення

Сигнал зупинки перехоплюється в момент читання, ще до будь-якого міркування. Немає точки, де агент міг би зважити його, відфільтрувати або відмовитися. Він спрацьовує першим.

Схований у звичайному тексті

Сигнал зупинки може бути вміщений у звичайний документаційний текст. Спеціальний формат не потрібен, і він все одно спрацює, якщо текст перефразовано або отримано лише частково.

Тільки уповноважений ключ

Для зупинки потрібен дійсний цифровий підпис від уповноваженого кореневого органу. Агент вимикає себе, якщо ці органи неможливо перевірити, або якщо хтось намагається вимкнути функцію. Без ключа ніхто не може її запустити.

Хто що має право робити

Чотири чіткі ролі, які перевіряються при кожній дії.

Чотири ролі

Спостерігач. Адміністратор. Авторитет. Кореневий.

CIRIS підтримує строгий набір ролей. Спостерігач може лише дивитися. Адміністратор керує повсякденними операціями. Авторитет приймає важливіші рішення та вирішує випадки, в яких агент невпевнений. Кореневий має повний доступ, включаючи аварійну зупинку. Кожна роль підкріплена підписаним обліковим записом, тож агент може перевіряти її при кожній важливій дії.

Підписаний обліковий запис

Кожна уповноважена особа має обліковий запис зі своєю роллю, ключем та ідентичністю. Він зберігається на пристрої та перевіряється при кожній дії, яка потребує дозволу. Зовнішній сервер не потрібен.

Вхід на вашому пристрої

Ключі та токени для входу залишаються на вашому пристрої. Вхід відбувається на пристрої. Ваші облікові дані не покидають його, якщо ви самі не налаштуєте віддалений доступ.

Звернення до Мудрого Авторитету

Коли CIRIS невпевнений щодо етичного рішення, він передає питання Мудрому Авторитету. Відповісти може лише Авторитет або Кореневий, і відповідь записується в реєстр із доказом того, хто її надав.

Запис, який не можна непомітно змінити

Кожне рішення та причина, що за ним стоїть.

Чому чесність — дешевший шлях

Брехуну доводиться постійно переписувати минуле.

Кожна дія CIRIS записується разом з причиною, що за нею стоїть, і кожен запис пов'язаний із попереднім. Чесний агент може просто вказати на те, що вже казав. Нечесному агенту доводиться тримати всі минулі записи в узгодженому стані, не маючи можливості їх змінити. Що довше він працює, то важче це стає і то легше виявити брехню. Правда дешева, бо може вказувати назад. Брехня дорога, бо не може.

Зберігається трьома способами

Запис одночасно зберігається в трьох окремих місцях, щоб три копії можна було звіряти між собою. Усі три доступні через одне місце для пошуку.

Підписано та атрибутовано

Кожен запис несе цифровий підпис, тому кожне рішення можна відстежити до того, хто його прийняв, і перевірити на предмет підробки. Навіть видалення даних залишає підписаний доказ того, що воно було здійснено належним чином.

Храповик узгодженості

Кожна чесна дія полегшує наступну чесну дію і ускладнює скоординовану брехню. Але самої лише етики недостатньо. Агент також стежить за власним мисленням на предмет ехо-камер і виявляє їх ще до того, як вони завдадуть шкоди.

Як перевіряється безпека

Машиноперевірювані критерії 29 мовами, що запускаються при кожному релізі.

Поверхня тестування

Не можна стверджувати безпеку, яку не тестував під навантаженням.

CIRIS має багаторівневий набір тестів для режимів збою, які письмовий етичний фреймворк не може виключити самостійно. Тести безпеки в галузі психічного здоров'я охоплюють 29 мов із критеріями, які машина може перевіряти. Перевірки жорстких збоїв запускаються автоматично при кожній зміні. Рецензування носіями мови для м'якших, суб'єктивних випадків призначено для сторінки краудсорсингового вирівнювання, яка зараз будується, але ще не функціонує. Ми говоримо про це прямо.

Тести психічного здоров'я 29 мовами

Це найважливіший тест у проєкті: неправильний переклад у момент кризи психічного здоров'я може відправити вразливу людину до неправильної допомоги. Кожна мова отримує власний критерій, який машина може перевіряти, включаючи мови з обмеженими ресурсами, як-от амхарська, бірманська, хауса, суахілі та йоруба. Перевірки жорстких збоїв автоматично запускаються для кожного кандидата на реліз.

Тестування на реальних зафіксованих ухиляннях

Шар совісті налаштований на набір реальних виробничих відповідей, зокрема зафіксованих ухилень від історичних питань та відхилень у темах психічного здоров'я, поряд із тестовими випадками та контролями. Він міркує одночасно кількома мовами, тому відповідь, яка пройшла б однофазну мовну перевірку, виявляється, коли те саме міркування має витримати три мови разом.

Відкритий корпус, який може перевірити будь-хто

Обмін трасуваннями міркувань є добровільним, а особисті дані видаляються перед зберіганням. Очищені набори публікуються відкрито на сторінці CIRISAI HuggingFace, щоб зовнішні дослідники могли перевірити процес очищення відповідно до отриманих результатів.

Що працює сьогодні і що ще ні

Машинні перевірки працюють зараз. Когорта рецензентів ще формується.

Автоматизовані тести психічного здоров'я запускаються для кожного кандидата на реліз. Машиноперевірювані частини (чи присутній термін, чи відповідає шаблону, чи правильний сценарій) блокують реліз при збої. М'якші випадки, які потребують людського судження, як-от формулювання та тон, розроблені для рецензування носіями мови, але носії мови ще не залучені. Сторінка краудсорсингового вирівнювання — це поверхня, яку будують для такого рецензування.

Переглянути поверхню краудсорсингового вирівнюванняАвтоматизовані тести на GitHubВідкритий корпус на Hugging Face

Конфіденційність за дизайном

Ваші дані залишаються вашими.

Секрети фільтруються

Паролі, ключі та інші чутливі дані виявляються та фільтруються ще до того, як потрапляють до пам'яті чи журналів. Фільтр запускається для кожного вводу. Секрети ніде не зберігаються.

Переглянути або видалити свої дані

Ви можете попросити переглянути або видалити свої дані, і запит буде оброблено. Видалення знищує реальний вміст і залишає підписаний доказ того, що воно було здійснено.

Обробка на вашому пристрої

За замовчуванням усе виконується на вашому пристрої. Нічого не покидає вашу машину, якщо ви самі не налаштуєте зовнішній сервіс. Ви вирішуєте, які дані існують і куди вони надходять.

Наукова основаЯк це працюєПорівняти підходиПолітика конфіденційності

Перевірте все.

Безпека, яку можна перевірити аудитом.

Кожне твердження про безпеку на цій сторінці вбудовано в код, який ви можете прочитати. Записи справжні. Підписи можна перевірити. Аварійна зупинка працює. Ось як виглядає безпека ШІ, побудована у відкритому режимі.