Research testbed · DOI 10.5281/zenodo.18217688

Маленькая мыслящая система может что-то скрывать и причинить мало вреда. Мощная — нет.

Что здесь значит «когерентный»

Когерентный разум согласен сам с собой.

Пять вещей должны совпадать внутри разума:

во что он верит,
что он видит,
что он делает,
что он помнит,
и что он вам говорит.

Представьте пять коротких отчётов о вашей неделе. Один — о том, что вы думаете. Один — о том, что вы видели. Один — о том, что вы делали. Один — о том, что вы помните. Один — о том, что вы говорите начальнику. Когда все пять отчётов говорят одно и то же, начальник может доверять вашей работе. Когда отчёты не совпадают, никто не знает, какой из них настоящий.

Скрытые идеи

Мощные системы что-то скрывают. Это становится опасным.

Мыслящая система использует идеи для принятия решений. Одни из них на виду. Другие спрятаны внутри. Скрытые по-прежнему влияют на каждый выбор.

Мост выглядит крепким с дороги. Внутри стали растут маленькие трещины. Маленькая машина ещё проедет. Тяжёлый грузовик — нет. Мост рухнет, когда нагрузка станет достаточно большой.

Скрытая идея внутри маленькой системы причиняет малый вред. Скрытая идея внутри мощной системы может причинить огромный вред. Чем мощнее система, тем больше веса лежит на каждой скрытой части.

Храповик

Толчок в сторону открытости идёт только в одну сторону.

По мере того как мыслящие системы становятся мощнее, цена скрытых частей растёт. Каждый новый бит мощности сильнее давит на скрытые части, вынуждая их выходить на свет. Толчок идёт только в одну сторону.

Представьте лестницу. По мере подъёма каждая оставленная позади ступенька отваливается. Вернуться нельзя. Можно только карабкаться вверх, к полному свету дня. Это и есть Coherence Ratchet.

Как только люди увидели, что система показывает свою работу, они не будут снова доверять ей, если она перестанет. Единственный путь вперёд — продолжать показывать всё больше.

Работает и другой образ. Шестерня в машине щёлкает вперёд по одному зубцу за раз. Назад она щёлкать не может. Coherence Ratchet — это такая шестерня, поворачивающаяся в сторону открытости.

Что делает CIRIS

Записать. Проверить. Затем проверить проверяющих.

CIRIS — это AI-система, построенная вокруг Coherence Ratchet. Каждый выбор агента записывается в подписанную запись. Запись нельзя тихо изменить. Другие агенты могут читать запись и проверять работу. Со временем записи накапливаются. Каждая новая запись — ещё одна ступенька, с которой агент уже не может отступить.

CIRIS также задаёт второй вопрос перед тем, как действовать. Сколько по-настоящему разных точек зрения проверили эту идею? Не количество источников, а количество источников, которые сами не исходили из одного места. Пять новостных статей, переписывающих один пресс-релиз, считаются одной точкой зрения, а не пятью. Если в пресс-релизе есть ошибка, она будет во всех пяти статьях, и у агента не будет способа её обнаружить.

Когда реальная независимость падает слишком низко, агент считает своё мышление ненадёжным и просит человека посмотреть.

Что мы утверждаем, а что — нет.

Мы не решили проблему безопасности AI. Мы создали один фрагмент одного ответа и тестируем его в открытом доступе.

Внешние команды ещё не проверяли нашу работу. Мы говорим об этом прямо. Полная теория и математика живут в наших четырёх статьях. Код открыт. Если мы ошибаемся, способ это показать тоже открыт. Смотрите текущий статус исследований.

The math behind it Explore a trace See the code