
Каждая функция безопасности в CIRIS — часть того, как работает система, а не правило, добавленное поверх. Запись каждого решения, которую нельзя тихо изменить, контроль того, кому что разрешено, и аварийная остановка, которой агент не может не подчиниться.
Если вы общаетесь с CIRIS долго, он мягко напомнит вам, что это такое. Примерно через 30 минут непрерывного общения или после 20 сообщений за полчаса CIRIS делает паузу и прямо говорит, что является компьютерной программой и инструментом, а не другом и не терапевтом. Для этого используются простые счётчики времени и сообщений — без слежки и профилирования вашего поведения.
Полчаса непрерывного общения запускают напоминание. Счётчик сбрасывается после паузы. Пороги основаны на исследованиях здорового использования технологий.
Двадцать сообщений за полчаса тоже запускают напоминание. Интенсивный диалог получает мягкую паузу — без слежки и профилирования.
Напоминание предлагает сделать перерыв и пообщаться с реальными людьми, и прямо говорит, чем CIRIS является, а чем нет. Основано на исследованиях и не поучает.
В CIRIS есть аварийная остановка. Её сигнал спрятан внутри обычного текста, который читает агент, и агент выполняет его прежде, чем успевает что-либо обдумать, отфильтровать или обосновать. Поэтому даже агент, который пошёл не туда, не сможет выкрутиться. Сигнал несёт цифровую подпись, которую нельзя подделать, поэтому запустить остановку может только уполномоченный человек.
Сигнал остановки перехватывается в момент чтения, до любого обдумывания. Нет точки, где агент мог бы его взвесить, отфильтровать или отказаться выполнить. Он срабатывает первым.
Сигнал остановки может быть встроен в обычный текст документации. Специальный формат не нужен, и он по-прежнему работает, если текст перефразирован или получен лишь частично.
Для остановки нужна действительная цифровая подпись от авторизованного корневого органа. Агент сам себя выключит, если эти органы не удаётся проверить или если кто-то пытается отключить эту функцию. Без ключа никто не может её запустить.
CIRIS поддерживает строгий набор ролей. Наблюдатель может только смотреть. Администратор ведёт повседневные операции. Авторитет принимает более важные решения и разрешает случаи, в которых агент не уверен. Корень имеет полный доступ, включая аварийную остановку. Каждая роль подкреплена подписанным удостоверением, поэтому агент может проверить его при каждом важном действии.
Каждый уполномоченный человек имеет удостоверение с его ролью, ключом и идентичностью. Оно хранится на устройстве и проверяется при каждом действии, требующем разрешения. Внешний сервер не нужен.
Ключи и токены входа остаются на вашем устройстве. Вход выполняется на устройстве. Ваши учётные данные никуда не покидают его, если вы сами не настроите удалённый доступ.
Когда CIRIS не уверен в этическом решении, он передаёт вопрос Мудрому Авторитету. Ответить может только Авторитет или Корень, и ответ записывается с доказательством того, кто его дал.
Каждое действие CIRIS записывается вместе с причиной, и каждая запись связана с предыдущей. Честный агент может просто указать назад на то, что уже говорил. Нечестному агенту приходится держать все прошлые записи согласованными, не имея возможности изменить ни одну из них. Чем дольше он работает, тем сложнее это становится и тем легче поймать ложь. Правда дёшева, потому что может указывать назад. Ложь дорога, потому что не может.
Запись одновременно хранится в трёх отдельных местах, чтобы три копии можно было сверить друг с другом. Поиск по всем трём ведётся через одно место.
Каждая запись несёт цифровую подпись, поэтому каждое решение можно отследить до того, кто его принял, и проверить на наличие подделки. Даже удаление данных оставляет подписанное доказательство того, что всё сделано правильно.
Каждое честное действие облегчает следующее честное действие и усложняет скоординированную ложь. Но одной этики недостаточно. Агент также следит за собственными рассуждениями на предмет эхо-камер и улавливает их прежде, чем они нанесут вред.
CIRIS имеет многоуровневый набор тестов для режимов сбоя, которые письменная этическая система не может исключить самостоятельно. Тесты безопасности в области психического здоровья охватывают 29 языков с критериями, которые машина может проверить. Проверки с жёстким отказом автоматически запускаются при каждом изменении. Проверка носителями языка для более мягких случаев, требующих суждения, — это то, для чего строится страница краудсорсинга выравнивания, и она пока не введена в эксплуатацию. Мы говорим об этом прямо.
Это самый ответственный тест в проекте: неправильный перевод в момент кризиса может направить уязвимого человека не туда. Каждый язык имеет собственные проверяемые машиной критерии, включая малоресурсные языки, такие как амхарский, бирманский, хауса, суахили и йоруба. Проверки с жёстким отказом автоматически запускаются для каждого релиз-кандидата.
Уровень совести настроен по набору реальных производственных ответов — например, перехваченных уклонений от истории и отклонений на темы психического здоровья — наряду с тестовыми случаями и контрольными группами. Рассуждения ведутся на нескольких языках одновременно, поэтому ответ, который мог бы проскользнуть при однояычной проверке, будет пойман, когда одни и те же рассуждения должны держаться сразу на трёх языках.
Обмен трассировками рассуждений повсюду является добровольным, а личные данные удаляются до того, как что-либо сохраняется. Очищенные наборы публикуются открыто на странице CIRISAI на HuggingFace, чтобы сторонние исследователи могли проверить процесс очистки по его результатам.
Автоматические тесты психического здоровья запускаются для каждого релиз-кандидата. Проверяемые машиной части (присутствует ли термин, соответствует ли паттерн, верен ли скрипт) блокируют релиз при срабатывании. Более мягкие случаи, требующие суждения человека — такие как формулировка и тон, — предназначены для проверки носителями языка, но носители языка пока не задействованы. Страница краудсорсинга выравнивания — это поверхность, которая строится для проведения такой проверки.
Пароли, ключи и другие конфиденциальные данные обнаруживаются и фильтруются до того, как что-либо попадает в память или журналы. Фильтр запускается для каждого ввода. Секреты нигде не хранятся.
Вы можете попросить просмотреть или удалить свои данные, и запрос будет обработан за вас. Удаление убирает реальное содержимое и оставляет подписанное доказательство того, что всё сделано правильно.
По умолчанию всё работает на вашем устройстве. Ничто не покидает вашу машину, если вы сами не подключите внешний сервис. Вы решаете, какие данные существуют и куда они идут.
Каждое заявление о безопасности на этой странице написано в коде, который вы можете прочитать. Записи реальны. Подписи можно проверить. Аварийная остановка работает. Вот как выглядит безопасность ИИ, когда она строится открыто.