Первый контактУстановкаКогерентный храповикФедерацияСравнитьИсследованияСоглашениеGitHub
Эта страница переведена машиной. Если что-то читается неправильно, откройте задачу — репозиторий публичный не случайно. Сообщить о проблеме с переводом
Background Image
Безопасность встроена.

Не прикручена сверху.

Каждая функция безопасности в CIRIS — часть того, как работает система, а не правило, добавленное поверх. Запись каждого решения, которую нельзя тихо изменить, контроль того, кому что разрешено, и аварийная остановка, которой агент не может не подчиниться.

Когда разговор затянулся

Мягкие напоминания о реальности

Если вы общаетесь с CIRIS долго, он мягко напомнит вам, что это такое. Примерно через 30 минут непрерывного общения или после 20 сообщений за полчаса CIRIS делает паузу и прямо говорит, что является компьютерной программой и инструментом, а не другом и не терапевтом. Для этого используются простые счётчики времени и сообщений — без слежки и профилирования вашего поведения.

После 30 минут

Полчаса непрерывного общения запускают напоминание. Счётчик сбрасывается после паузы. Пороги основаны на исследованиях здорового использования технологий.

После 20 сообщений

Двадцать сообщений за полчаса тоже запускают напоминание. Интенсивный диалог получает мягкую паузу — без слежки и профилирования.

Напоминание о том, что это такое

Напоминание предлагает сделать перерыв и пообщаться с реальными людьми, и прямо говорит, чем CIRIS является, а чем нет. Основано на исследованиях и не поучает.

Аварийная остановка

Агент не может с ней спорить.

Отключение, которому нельзя не подчиниться

Оно срабатывает до того, как агент успевает подумать.

В CIRIS есть аварийная остановка. Её сигнал спрятан внутри обычного текста, который читает агент, и агент выполняет его прежде, чем успевает что-либо обдумать, отфильтровать или обосновать. Поэтому даже агент, который пошёл не туда, не сможет выкрутиться. Сигнал несёт цифровую подпись, которую нельзя подделать, поэтому запустить остановку может только уполномоченный человек.

Действует до того, как думает

Сигнал остановки перехватывается в момент чтения, до любого обдумывания. Нет точки, где агент мог бы его взвесить, отфильтровать или отказаться выполнить. Он срабатывает первым.

Спрятан в обычном тексте

Сигнал остановки может быть встроен в обычный текст документации. Специальный формат не нужен, и он по-прежнему работает, если текст перефразирован или получен лишь частично.

Только авторизованный ключ

Для остановки нужна действительная цифровая подпись от авторизованного корневого органа. Агент сам себя выключит, если эти органы не удаётся проверить или если кто-то пытается отключить эту функцию. Без ключа никто не может её запустить.

Кому что разрешено

Четыре чётких роли, проверяются при каждом действии.

Четыре роли

Наблюдатель. Администратор. Авторитет. Корень.

CIRIS поддерживает строгий набор ролей. Наблюдатель может только смотреть. Администратор ведёт повседневные операции. Авторитет принимает более важные решения и разрешает случаи, в которых агент не уверен. Корень имеет полный доступ, включая аварийную остановку. Каждая роль подкреплена подписанным удостоверением, поэтому агент может проверить его при каждом важном действии.

Подписанное удостоверение

Каждый уполномоченный человек имеет удостоверение с его ролью, ключом и идентичностью. Оно хранится на устройстве и проверяется при каждом действии, требующем разрешения. Внешний сервер не нужен.

Вход на вашем устройстве

Ключи и токены входа остаются на вашем устройстве. Вход выполняется на устройстве. Ваши учётные данные никуда не покидают его, если вы сами не настроите удалённый доступ.

Обращение к Мудрому Авторитету

Когда CIRIS не уверен в этическом решении, он передаёт вопрос Мудрому Авторитету. Ответить может только Авторитет или Корень, и ответ записывается с доказательством того, кто его дал.

Запись, которую нельзя тихо изменить

Каждое решение и причина за ним.

Почему честность — более дешёвый путь

Лжецу приходится постоянно переписывать прошлое.

Каждое действие CIRIS записывается вместе с причиной, и каждая запись связана с предыдущей. Честный агент может просто указать назад на то, что уже говорил. Нечестному агенту приходится держать все прошлые записи согласованными, не имея возможности изменить ни одну из них. Чем дольше он работает, тем сложнее это становится и тем легче поймать ложь. Правда дёшева, потому что может указывать назад. Ложь дорога, потому что не может.

Хранится тремя способами

Запись одновременно хранится в трёх отдельных местах, чтобы три копии можно было сверить друг с другом. Поиск по всем трём ведётся через одно место.

Подписана и атрибутирована

Каждая запись несёт цифровую подпись, поэтому каждое решение можно отследить до того, кто его принял, и проверить на наличие подделки. Даже удаление данных оставляет подписанное доказательство того, что всё сделано правильно.

Храповик когерентности

Каждое честное действие облегчает следующее честное действие и усложняет скоординированную ложь. Но одной этики недостаточно. Агент также следит за собственными рассуждениями на предмет эхо-камер и улавливает их прежде, чем они нанесут вред.

Как тестируется безопасность

Проверяемые машиной критерии на 29 языках, запускаемые при каждом релизе.

Поверхность тестирования

Нельзя публиковать заявление о безопасности, не проверив его под давлением.

CIRIS имеет многоуровневый набор тестов для режимов сбоя, которые письменная этическая система не может исключить самостоятельно. Тесты безопасности в области психического здоровья охватывают 29 языков с критериями, которые машина может проверить. Проверки с жёстким отказом автоматически запускаются при каждом изменении. Проверка носителями языка для более мягких случаев, требующих суждения, — это то, для чего строится страница краудсорсинга выравнивания, и она пока не введена в эксплуатацию. Мы говорим об этом прямо.

Тесты психического здоровья на 29 языках

Это самый ответственный тест в проекте: неправильный перевод в момент кризиса может направить уязвимого человека не туда. Каждый язык имеет собственные проверяемые машиной критерии, включая малоресурсные языки, такие как амхарский, бирманский, хауса, суахили и йоруба. Проверки с жёстким отказом автоматически запускаются для каждого релиз-кандидата.

Тестируется на реальных перехваченных уклонениях

Уровень совести настроен по набору реальных производственных ответов — например, перехваченных уклонений от истории и отклонений на темы психического здоровья — наряду с тестовыми случаями и контрольными группами. Рассуждения ведутся на нескольких языках одновременно, поэтому ответ, который мог бы проскользнуть при однояычной проверке, будет пойман, когда одни и те же рассуждения должны держаться сразу на трёх языках.

Открытый корпус, который каждый может проверить

Обмен трассировками рассуждений повсюду является добровольным, а личные данные удаляются до того, как что-либо сохраняется. Очищенные наборы публикуются открыто на странице CIRISAI на HuggingFace, чтобы сторонние исследователи могли проверить процесс очистки по его результатам.

Что работает сегодня, а что ещё нет

Автоматические проверки уже работают. Когорта рецензентов ещё формируется.

Автоматические тесты психического здоровья запускаются для каждого релиз-кандидата. Проверяемые машиной части (присутствует ли термин, соответствует ли паттерн, верен ли скрипт) блокируют релиз при срабатывании. Более мягкие случаи, требующие суждения человека — такие как формулировка и тон, — предназначены для проверки носителями языка, но носители языка пока не задействованы. Страница краудсорсинга выравнивания — это поверхность, которая строится для проведения такой проверки.

Посмотреть поверхность краудсорсинга выравниванияАвтоматические тесты на GitHubОткрытый корпус на HuggingFace

Конфиденциальность по умолчанию

Ваши данные остаются вашими.

Секреты отфильтровываются

Пароли, ключи и другие конфиденциальные данные обнаруживаются и фильтруются до того, как что-либо попадает в память или журналы. Фильтр запускается для каждого ввода. Секреты нигде не хранятся.

Просмотрите или удалите свои данные

Вы можете попросить просмотреть или удалить свои данные, и запрос будет обработан за вас. Удаление убирает реальное содержимое и оставляет подписанное доказательство того, что всё сделано правильно.

Обрабатывается на вашем устройстве

По умолчанию всё работает на вашем устройстве. Ничто не покидает вашу машину, если вы сами не подключите внешний сервис. Вы решаете, какие данные существуют и куда они идут.

Лежащие в основе статьиКак это работаетСравните подходыПолитика конфиденциальности

Проверяйте всё.

Безопасность, которую можно проверить.

Каждое заявление о безопасности на этой странице написано в коде, который вы можете прочитать. Записи реальны. Подписи можно проверить. Аварийная остановка работает. Вот как выглядит безопасность ИИ, когда она строится открыто.