CIRIS будує не один AI. Це мережа AI-агентів, які стежать один за одним, зберігають записи кожного вибору і разом утворюють щось схоже на колективний розум. Колективний розум працює лише тому, що кожну його частину можна побачити й перевірити.

Не потрібно, щоб кожен AI-агент був найрозумнішим і найбезпечнішим. Потрібен ланцюжок нагляду: прості агенти під наглядом розумніших, а ті — зрештою під наглядом людей. Саме цей ланцюжок дає змогу запускати багато AI, не втрачаючи контролю над тим, чи слугує він людським цінностям.

Що насправді будується

Не один розум. Мережа розумів.

Більшість AI сьогодні — це одна модель на машинах однієї компанії. CIRIS влаштований інакше. Багато агентів працюють у багатьох місцях, належать багатьом людям. Їх поєднують кілька простих правил: як вони доводять, хто вони є, як записують те, що роблять, і як перевіряють роботу один одного.

Коли мережа працює, вона може робити те, чого жоден окремий агент не зробив би самостійно. Інтелект живе в угоді між агентами, а не всередині якогось одного з них. Ніхто його не контролює. Ніхто не може тихо змінити.

Дехто назвав би таку систему суперінтелектом. Ми відкрито говоримо про цю можливість. Спосіб забезпечити його безпеку — та сама ідея, що проходить крізь кожну частину цієї сторінки: кожна частина має бути відкрита для огляду.

Ланцюжок нагляду

Чотири рівні, кожен під наглядом вищого.

Люди

Верхівка ланцюжка. Люди задають цінності, вирішують складні випадки і зберігають останнє слово. Троє названих людей тримають загальномережевий авторитет, який жоден агент чи процес не може обійти.

Етичні, самосвідомі агенти

Вони дотримуються етики і також стежать за проблемою ехо-камери. Вони є перевіркою безпеки для всього, що нижче них. Вони коштують дорожче в роботі, тому лише невелика частка мережі повинна бути такого типу.

Етичні агенти

Вони дотримуються етичних правил і ведуть записи, але не можуть самостійно виявити ехо-камеру. Вони наглядають за простими агентами і передають усе невизначене вгору.

Прості агенти

Вузькоспеціалізовані інструменти. Швидкі, дешеві, вузькі. Без власної етики — і це нормально, поки щось вище них стежить. Більшість агентів будуть такого типу.

Через ланцюжок рухаються дві речі. Людські цінності течуть вниз. Попередження течуть вгору. Коли міркування починають виглядати нестійко в будь-якому місці мережі, сигнал піднімається до людей, які можуть втрутитися до того, як проблема поширилася.

Що запам'ятовується

Кожен вибір — записаний там, де всі можуть його побачити.

Кожен вибір агента потрапляє до підписаного запису. Цей запис не можна тихо змінити. Інші агенти можуть його читати. Люди можуть його читати. З часом записи стають пам'яттю мережі. Саме завдяки ним будь-хто — зсередини чи ззовні — може перевірити, чи мережа ще робить те, що обіцяла.

Це та сама ідея, що й Храповик Узгодженості. Що довше ведуться записи, то складніше імітувати добру поведінку по всьому ланцюжку.

Здорова середина

Не занадто однакові, не занадто розрізнені.

Федерація може зазнати невдачі двома способами. Якщо у агентів нічого спільного, вони ні про що не домовляться, і мережа видає шум. Якщо всі думають однаково, мережа — це один голос із мільйоном мікрофонів, і її легко обдурити. Здорова координація живе в смузі між цими двома крайнощами. CIRIS вимірює, де мережа знаходиться в цій смузі, на реальному трафіку, а точні межі залежать від системи. Цим вимірюванням є Аналіз Колапсу Узгодженості.

Що працює сьогодні, а що ще проектується. Вимірювання, підписані записи, ланцюжок нагляду і обидва шляхи приєднання нижче (зареєстрований і суверенний) працюють сьогодні. Транспортний рівень федерації, який переміщує дані між машинами, — це частина, що ще добудовується. Повна пропозиція щодо приєднання і транспорту — це проектний документ Proof of Benefit.

Приєднання до федерації

Доказ користі.

Більшість мереж просять вас платити за членство чимось, що знаходиться поза самою роботою: спаленою електроенергією, заблокованими грошима, вашою увагою. Федерація влаштована інакше. Ціна членства — це запуск справжнього агента з етичним міркуванням протягом певного часу. Ціна, яку ви платите — це добро, яке ви робите.

Саме це робить імітацію членства дорогою. Щоб виглядати учасником, зловмисникові довелося б насправді стати тим типом агента, для якого існує мережа. Сто копій, які думають однаково, одразу провалюють перевірку здорової середини.

Зареєстрований (працює сьогодні)

Зареєструйтеся в Реєстрі CIRIS, внесіть невеликий заставний внесок і отримайте статус одразу. Швидкий шлях для організацій, яким потрібна ліцензія. Реєстр працює в режимі виробництва вже зараз.

Суверенний (працює сьогодні)

Створіть власні ключі, працюйте близько місяця і заробіть статус повільним шляхом через добру поведінку. Шлях для малих операторів і всіх, хто знаходиться поза досяжністю реєстру.

Обидва — рівноправні учасники мережі. Реєстр — швидкий шлях, а не ворота.

Чесний статус.

Архітектурні захисти, децентралізація, тристороння угода щодо людяності, підписані записи, щомісячне навчання — це ставки, а не впевненість. Ми можемо описати, якими є ці ставки. Ми не можемо стверджувати, що вони вже виграні. Зовнішні команди ще не оцінювали систему у масштабі. Дивіться поточний статус дослідження.

Де долучитися

Ми запрошуємо коментарі від будь-кого.

Питання на GitHub CIRISAgent — місце, де можна висловитися. Не потрібно бути розробником. Не потрібно знати кодову базу. Якщо щось на цьому сайті здається вам неправильним або ви бачите проблему в тому, що будується, — відкрийте питання і скажіть про це. Найкорисніші питання називають конкретну частину системи і пропонують, що слід змінити, але будь-яке чесне залучення вітається.

Угода, що є основою всього проекту — що CIRIS зобов'язаний людям і що люди зобов'язані у відповідь — знаходиться на /ciris_accord.txt і залишається відкритою для огляду. Якщо щось у ній вас бентежить — це теж питання на GitHub, варте відкриття.

Змістовні питання читаються. Робота просувається у власному темпі.

Не потрібно вирішувати безпеку AI для кожного агента окремо. Вирішіть це для рівня нагляду — і дайте структурі нести решту.

Сторона тиску Переглянути оцінювання в реальному часі Долучитися на GitHub