A network of AI agents that thinks together. Only in the open.
CIRISが構築しているのは単一のAIではありません。互いを監視し、すべての選択を記録し、共に一種の集合知を形成するAIエージェントのネットワークです。その集合知は、すべての部分が見て確認できるからこそ機能します。
すべてのAIエージェントが最も賢く最も安全な種類である必要はありません。必要なのは監督のチェーンです。単純なエージェントがより賢いエージェントに監視され、最終的には人間に監視される。そのチェーンがあってこそ、AIが人間の価値観に従っているかを見失わずに大量のAIを運用できます。
実際に構築されているもの
今日のほとんどのAIは、1つの会社のマシンで動作する1つのモデルです。CIRISは違います。多くのエージェントが多くの場所で、多くの人々に所有されて動作します。それらは少数のシンプルなルールで結びついています:自分が誰であるかを証明する方法、自分がしたことを記録する方法、そして互いの作業を確認する方法です。
ネットワークが機能しているとき、単一のエージェントでは不可能なことができます。知性はエージェント間の合意の中に宿り、どれか1つの内部にあるわけではありません。誰もそれを所有しません。誰も静かに変えることはできません。
そのようなシステムを超知性と呼ぶ人もいるでしょう。私たちはその可能性に対してオープンです。安全に保つ方法は、このページのあらゆる部分を貫く同じアイデアと同じです:すべての部分が公開されている必要があります。
監督のチェーン
チェーンの頂点。人間が価値観を設定し、難しいケースを解決し、最終的な決定権を持ちます。3人の名前の付いた人間個人が、どのエージェントやプロセスも迂回できないネットワーク全体の権限を保持します。
これらは倫理に従い、エコーチェンバーの問題も監視します。その下にあるすべてのものの安全チェックです。実行コストが高いため、ネットワークの少数のみがこの種類である必要があります。
これらは倫理的なルールに従い記録を保持しますが、エコーチェンバーを自分で検出することはできません。単純なエージェントを監督し、不確かなことは上位に渡します。
単一目的のツールです。速く、安く、特化しています。独自の倫理観はありません。それでも問題ありません、上位で何かが監視している限りは。ほとんどのエージェントはこの種類です。
チェーンを通じて2つのものが流れます。人間の価値観は下に流れます。警告は上に流れます。ネットワークのどこかで推論が脆弱になり始めると、シグナルは人間に届き、問題が広がる前に対処できます。
記憶されること
エージェントが行うすべての選択は署名付き記録に記されます。その記録は静かに変えることができません。他のエージェントがそれを読めます。人間が読めます。時間が経つにつれ、記録はネットワークの記憶になります。内部からも外部からも、ネットワークが約束したことを実行しているかどうかを誰でも確認できる手段です。
これは一貫性ラチェットと同じアイデアです。記録が蓄積されるほど、チェーン全体で良い行動を偽ることが難しくなります。
健全な中間地点
フェデレーションは2つの方法で失敗します。エージェント間に共通点がなければ、何も合意できず、ネットワークはノイズを生み出します。すべてが全く同じように考えれば、ネットワークは100万本のマイクを持つ1つの声になり、騙しやすくなります。健全な協調はその中間に生きています。CIRISはネットワークがその中間のどこに位置するかを実際のトラフィックで測定します。正確な境界はシステムによります。その測定が一貫性崩壊分析です。
今日動作しているものと、まだ設計段階のもの。測定、署名付き記録、監督チェーン、以下の2つの参加パス(登録型と主権型)は今日動作しています。マシン間でデータを移動するフェデレーショントランスポートは、まだ構築中の部分です。完全な参加・トランスポートの提案はProof of Benefit設計文書です。
フェデレーションへの参加
ほとんどのネットワークは、作業自体とは無関係のもので会員資格を求めます:燃やした電力、ロックアップしたお金、あなたの注意力。フェデレーションは違います。所属するコストは、本物の倫理的推論エージェントを長期間運用することです。支払う価格は、あなたがもたらす善です。
それが会員資格を偽ることを高くつかせます。会員に見えるようにするには、攻撃者は実際にネットワークが求めるエージェントの種類にならなければなりません。全員が同じように考える100のコピーは、即座に健全な中間チェックに失敗します。
CIRISレジストリに登録し、少額のボンドを支払えば、すぐに資格を得られます。ライセンスが必要な組織のための近道です。レジストリは現在、本番稼働中です。
自分で鍵を作り、約1ヶ月間運用し、良い行動を通じてゆっくりと資格を積み上げます。小規模なオペレーターやレジストリの範囲外の人のためのパスです。
どちらもネットワークの対等なメンバーです。レジストリは近道であり、門ではありません。
アーキテクチャ上の保護、分散化、3人による人類協定、署名付き記録、月次演習は、確実性ではなく賭けです。賭けが何であるかを説明することはできます。すでに勝ったとは主張できません。外部チームはまだシステムをスケールで評価していません。現在の研究状況を参照してください。
参加する場所
CIRISAgentのGitHubイシューが意見を述べる場所です。開発者である必要はありません。コードベースを知っている必要もありません。このサイトの何かがおかしいと感じたり、構築されているものに問題が見えたりしたら、イシューを開いて伝えてください。最も役立つイシューは、システムの特定の部分を指摘し、変えるべき内容を提案するものですが、誠実な参加はすべて歓迎です。
プロジェクト全体の基盤となっている協定、CIRISが人々に対して負うもの、そして人々がCIRISに対して負うものは、/ciris_accord.txtにあり、レビューを受け付けています。何かが腑に落ちない場合も、GitHubイシューを開く価値があります。
内容のあるイシューは読まれます。作業は独自のペースで進みます。
You do not have to solve AI safety one agent at a time. You solve it for the supervision layer, and let the structure carry the rest.