Research testbed · DOI 10.5281/zenodo.18217688

Невелика мисляча система може приховувати речі й завдавати мало шкоди. Потужна — ні.

Що тут означає «узгоджений»

Узгоджений розум погоджується сам із собою.

П'ять речей повинні відповідати одна одній у свідомості:

що вона вважає,
що вона бачить,
що вона робить,
що вона пам'ятає,
і що вона вам каже.

Уявіть п'ять коротких форм про ваш тиждень. Одна — про те, що ви думаєте. Одна — про те, що ви бачили. Одна — про те, що ви робили. Одна — про те, що ви пам'ятаєте. Одна — про те, що ви кажете своєму керівнику. Коли всі п'ять форм говорять одне й те саме, керівник може довіряти вашій роботі. Коли форми не збігаються, ніхто не знає, яка з них справжня.

Приховані ідеї

Потужні системи приховують речі. Це стає небезпечним.

Мисляча система використовує ідеї, щоб вирішувати, що робити. Деякі з цих ідей відкриті. Інші приховані всередині. Приховані однаково формують кожен вибір.

Міст виглядає міцним з дороги. Усередині сталі ростуть маленькі тріщини. Маленька машина ще може проїхати. Важкий вантажівка — ні. Міст падає, коли навантаження стає достатньо великим.

Прихована ідея всередині маленької системи завдає малої шкоди. Прихована ідея всередині потужної системи може завдати великої шкоди. Що потужніша система, то більша вага лежить на кожній прихованій частині.

Тріскачка

Поштовх до відкритості йде лише в один бік.

Коли мислячі системи стають потужнішими, вартість прихованих частин зростає. Кожен новий приріст потужності сильніше тисне на приховані частини, змушуючи їх виходити назовні. Поштовх іде лише в один бік.

Уявіть сходи. Коли ви піднімаєтесь, кожна щабель, яку ви залишаєте позаду, відпадає. Ви не можете спуститись. Ви можете лише підніматись нагору, де є повне денне світло. Ось що таке Coherence Ratchet.

Коли люди побачили, як система показує свою роботу, вони більше не довірятимуть їй, якщо вона зупиниться. Єдиний шлях вперед — продовжувати показувати більше.

Ще один образ теж підходить. Шестерня в машині клацає вперед на один зуб за раз. Вона не може клацнути назад. Coherence Ratchet — це така шестерня, що повертається у бік відкритості.

Що робить CIRIS

Запиши. Перевір. Потім перевір тих, хто перевіряє.

CIRIS — це система AI, побудована навколо Coherence Ratchet. Кожен вибір агента записується в підписаний запис. Запис не можна тихо змінити. Інші агенти можуть читати запис і перевіряти роботу. З часом записи накопичуються. Кожен новий запис — ще один щабель, з якого агент не може зійти назад.

CIRIS також задає друге питання перед тим, як діяти. Скільки справді різних поглядів перевірило цю ідею? Не кількість джерел, а кількість джерел, що самі не почали з одного й того самого місця. П'ять новинних статей, що переписують один прес-реліз, рахуються як один погляд, а не п'ять. Якщо щось у прес-релізі неправильне, воно буде неправильним у всіх п'яти статтях, і агент не має можливості це виявити.

Коли реальна незалежність падає занадто низько, агент вважає своє власне мислення ненадійним і просить людину подивитись.

Що ми стверджуємо, а що — ні.

Ми не вирішили проблему безпеки AI. Ми побудували одну частину однієї відповіді і тестуємо її відкрито.

Сторонні команди ще не перевірили нашу роботу. Ми говоримо про це прямо. Повна теорія і математика містяться в наших чотирьох статтях. Код відкритий. Якщо ми помиляємось, спосіб це показати також відкритий. Дивіться поточний стан досліджень.

The math behind it Explore a trace See the code