数学ページ
証明ソフトウェアによる検証済み
アイデア
互いにコピーし合う五つのチェックは、実質的に一つのチェックです。
五人が答えを確認してすべて同意したとします。安心に思えます。しかし全員が同じ場所から学んだなら、彼らの同意は五つの意見ではありません。一つの意見が五回繰り返されただけです。チェックの数は五に見えます。本当の数は一つです。
これはAIにとって重要です。AIシステムは自身の推論に対して多くのチェックを実行できますが、それらのチェックが同じ盲点を共有していれば、依然として騙される可能性があります。Coherence Collapse Analysisは、CIRISが本当のチェックとエコーの違いを判別する方法です。
一つの数式
本当に持っているチェック数を数える。
その中心には一つの短い数式があります。調査統計から来ており、Kishデザイン効果と呼ばれています。CIRISはこれをAIアライメントに最初に応用しました。
real checks = checks / (1 + copying × (checks − 1))
「checks」は実行したチェックの数です。「copying」はそれらの重複度で、0(すべて独立)から1(すべて同じ)の範囲です。結果は本当に持っているチェックの数です。
コピーなし:十のチェックは十として数えられます。すべてのチェックが価値を持ちます。
完全コピー:十のチェックは一として数えられます。いくら追加しても意味がありません。
健全な帯域
似すぎず、バラバラすぎない。
CIRISが至る所で目にするのと同じ形がここにも現れます。チェックが互いにコピーしすぎると、システムは硬直しすぎます:一つの声が繰り返され、騙されやすくなります。まったく共通点がなければ、散漫になりすぎます:何にも合意できなくなります。健全なチェックはその間の帯域に存在し、それがCIRISの残り部分が構築されているコリドーと同じです。
その帯域の正確な端は測定対象のシステムによって異なります。どこでも通用する唯一の魔法の数字はなく、研究はそのことを正直に述べています。コリドーの考え方の全体は、ビジョンページにあります。
実際のトラフィックで
これは主張ではなく、実際に測定されました。
CIRISは自身のライブエージェントトラフィックで、数千の記録された決定にわたって実際のチェック数を測定しました。健全なトラフィックでは、約七から九の真に独立したチェックの範囲で実行されています。その測定とその方法は、Constrained Reasoning Chains研究です。ライブ数値は研究ページで確認できます。
正直な上限
この数学にできないこと。
論文はそれ自体に硬い限界があることを証明しています。害の種類によっては、一つの不正直な部分から生じるものではなく、正直な部分が積み重なって悪い結果になるものもあり、その種の害の約四十パーセントは、どれほど優れたチェッカーがあっても捕まえることができません。CIRISは数学がすべてを捕まえると装うことなく、そのことを率直に述べています。
数学が言えることは、時間をかけたコストについてです:何週間も真の誠実な推論を実行し続けることは、数千の記録された決定にわたって一貫した嘘を維持するよりも安定していて安上がりです。それは地盤を誠実さの方向に傾けます。しかし、すべての嘘を確実に捕まえることを約束するものではありません。
どのようにつながるか
この数学はより大きな全体の一部です。
このページは測定です。Coherence Ratchetは測定が活用される方法です。フェデレーションは多くのシステムが共有するものになる方法です。そして、コンピュータが一行ずつ確認できるよう書かれた完全な証明は、論文とRATCHETリポジトリにあります。