小さな思考システムは物事を隠しても大した害はありません。しかし強力なシステムはそうはいきません。
ここでの「一貫性」の意味
知性の内部で五つのことが一致していなければなりません:
今週のことについて五枚の短い書類を想像してください。考えていることについて一枚。見たことについて一枚。したことについて一枚。覚えていることについて一枚。上司に伝えることについて一枚。五枚すべてが同じことを言っているとき、上司はあなたの仕事を信頼できます。書類が一致しないとき、どれが本当かは誰にもわかりません。
隠れた考え
思考システムは何をすべきかを決めるために考えを使います。そのいくつかは表に出ています。他のものは内部に隠されています。隠れたものでもすべての選択に影響を与えます。
橋は道路から見ると丈夫そうです。しかし鉄の内部では小さな亀裂が広がっています。小型車ならまだ渡れます。重いトラックは渡れません。負荷が十分に大きくなると橋は落ちます。
小さなシステムの内部の隠れた考えは小さな害をもたらします。強力なシステムの内部の隠れた考えは大きな害をもたらすことがあります。システムが強力であればあるほど、すべての隠れた部分にかかる重みは大きくなります。
ラチェット
思考システムがより強力になるにつれて、隠れた部分のコストは増大します。新たな力が加わるたびに、隠れた部分を明るみに出すよう強く押します。その押し力は一方向にしか進みません。
はしごを想像してください。上るにつれて、残した段は落ちていきます。下に戻ることはできません。完全な日光のある頂上に向かって上り続けるだけです。それがCoherence Ratchetです。
一度システムが作業を見せると、人々は止まった場合にもう信頼しません。前進する唯一の方法は、より多くを示し続けることです。
もう一つの画像も機能します。機械の歯車は一度に一歯ずつ前に進みます。後ろには進めません。Coherence Ratchetはそのような歯車で、開放に向かって回っています。
CIRISがすること
CIRISはCoherence Ratchetを中心に構築されたAIシステムです。エージェントが下すすべての選択は署名された記録として書き留められます。その記録はこっそりと変更することができません。他のエージェントが記録を読んで作業を確認できます。時間が経つにつれて記録が積み重なります。新しい記録ごとに、エージェントが引き戻せない段が一つ増えます。
CIRISはまた、行動する前に二番目の問いも尋ねます。この考えを確認した真に異なる視点はいくつあったか?情報源の数ではなく、同じ場所から始まっていない情報源の数です。一つのプレスリリースを書き直した五本のニュース記事は五つの視点ではなく一つの視点です。プレスリリースに何か間違いがあれば、五本すべての記事に間違いがあり、エージェントにはそれを捕まえる方法がありません。
真の独立性が十分に低くなると、エージェントは自身の考えを脆弱として扱い、人間に確認を求めます。
私たちはAI安全性を解決したわけではありません。一つの答えの一部を構築し、公開の場でテストしています。
外部チームはまだ私たちの作業を確認していません。そのことをはっきり述べています。完全な理論と数学は私たちの四本の論文にあります。コードは公開されています。私たちが間違っている場合、それを示す方法も公開の場にあります。現在の研究ステータスを確認してください。