最初の接触インストール一貫性ラチェットフェデレーション比較研究協定GitHub
このページは機械翻訳されています。 おかしな表現があればイシューを開いてください。リポジトリは公開されています。 翻訳の問題を報告
Background Image
現在稼働中のAIの中で最も安全で倫理的なAI

説明責任がなければ、AIは与える以上に奪う傾向があります。

説明責任を確認できなければ、それはマーケティングにすぎません。何を確認すべきか、そして既存のアプローチがどう比較されるかを見ていきましょう。

AIの3つのタイプ

良心は必要条件です。ただし、それだけでは十分ではありません。

ルールをまったく持たないAIもあります。ルールには従うが、情報源が互いにただ反響しているだけかどうかを判断できないAIもあります。情報が本当に異なる場所から来ているかどうかを確認できるのは、1つのタイプだけです。

1

ルールなし

公開された原則もなく、監査記録もなく、クローズドソースです。何をしたのか、なぜそうしたのかを確認できません。

ほとんどの消費者向けAIアシスタント(ChatGPT、Gemini)は、公的な説明責任という観点ではここに分類されます。内部では優れた取り組みが行われているかもしれませんが、それを確認することはできません。

外部からの規制が必要です。自律的に自己管理することはできません。

2

ルールあり、自覚なし

倫理的なルールには従います。しかし、すべての情報源が互いにコピーし合っているだけかどうかを判断できないため、自信を持って間違えることがあります。

監督下では安全です。エコーチェンバーを自力で検出できません。

3

ルール + 自覚

倫理的なルールに従いながら、情報が本当に異なる場所から来ているかどうかも確認します。一致が不自然に見える場合は、行動する前にフラグを立てます。

これがCIRISの構築するものです。

AIはすべてのルールを守り、あらゆる監査をクリアしても、情報がすべて同じ場所から来ている場合には失敗することがあります。その盲点を修正するために、CIRISは作られました。

確認すべき7つのこと

倫理のための6つ。盲点のための1つ。

これらがAIを監査可能で説明責任があるものにする要素です。最初の6つは正しいことをするためのもの、7つ目は「正しいことをする」判断が誤った情報に基づいている状況を発見するためのものです。

1. 公開された原則

エージェントは公開された倫理的枠組みに従わなければなりません。隠されたルールではなく、誰でも読んで責任を問えるドキュメントが必要です。

2. すべての意思決定における良心チェック

エージェントが行動を起こす前に、必ず良心チェックが行われます。事後ではありません。事前です。

3. 不確かな場合は人間に尋ねる

不確かなとき、または害を及ぼす可能性があるとき、エージェントは推測する代わりに人に尋ねます。任意の機能ではなく、ワークフローに組み込まれています。

4. 行動の証明

すべての意思決定が記録・署名されるため、何が起こったか、なぜそうなったかを正確に確認できます。すべての行動の領収書です。

5. 双方向の同意

同意は双方向です。あなたはエージェントに「ノー」と言えます。エージェントもあなたに「ノー」と言えます。どちらの側も妥協を強いられません。

6. オープンソース

見えないものは監査できません。CIRISはAGPL-3.0のもと完全にオープンソースです。誰でもコードを読み、検証し、改善できます。

7

エコーチェンバー検出

ルールだけでは発見できないもの。

行動する前に、エージェントは問いかけます。「情報源は本当に互いに意見が異なっているのか、それともすべてが同じ場所から情報を得ているだけなのか?」同じ元の記事を全員がコピーした10の情報源は、実質的には1つの情報源にすぎません。一致が均一すぎる場合、エージェントは人間のレビューのためにフラグを立てます。

ノイズが多すぎる

情報源が互いに矛盾しすぎて、有益な結論を導き出せません。

健全

情報源は本当に異なっています。本物の合意は意味を持ちます。

エコーチェンバー

合意しているように見えますが、情報源は互いに繰り返しているだけです。

これがCIRISを他のAI説明責任フレームワークと異なるものにしています。

数学的な詳細を知りたいですか?論文全文を読む →

現在の状況

プロジェクトはさまざまで、目標も異なります。

2026年2月時点の公開情報に基づいています。何か見落としや誤りがあれば、お知らせください

プロジェクト毎回確認公開されたルール良心が組み込まれている行動の証明オープンソースエコーチェンバー検出
CIRISありありありありAGPL-3.0あり
Constitutional AIトレーニング時のみ暗黙的なしなしなしなし
LlamaFirewall / NeMo Guardrailsありなしなしログ記録ありなし
HatCatあり一部ステアリング一部CC0なし
倫理委員会 / ガバナンスフレームワークなしありなし手動さまざまなし

出力フィルターとガバナンスフレームワークは重要ですが、異なる問題を解決します。フィルターは有害な出力をブロックします。良心は価値観について推論します。CIRISはその両方を行い、どちらか単独では対処できない盲点を発見することを目指しています。

3つの保護レイヤー

それぞれが異なる問題を解決します。

出力フィルター

プロンプトインジェクション、有害コンテンツ、敵対的攻撃など危険な出力をブロックします。出力の段階で悪いものを捕捉するフィルターのようなものです。

倫理的な良心

行動が安全かどうかだけでなく、正しいかどうかを推論します。判決を下す前に状況を考慮する裁判官のようなものです。

エコーチェンバー検出

一致が本物なのかただの繰り返しなのかを確認します。「みんな同じ記事を読んだのですか?」と問うファクトチェッカーのようなものです。

多くの一貫性のあるエージェント

権力の集中ではなく、分散したガバナンス。

単一障害点なし

それぞれに説明責任のある小さなエージェント。

公開された原則に縛られ、監査可能で、人間の権威に委ねる多くの小さなエージェント。スタック全体を単一の企業や団体が管理することはありません。エージェントが独立しているほど、1つの障害が連鎖するのを防ぎやすくなります。

研究の現状

これは進行中の研究です。何が確立されていて何がまだ検証中かについて、透明性をもってお伝えします。

よく確立されていること

  • - コピーされた情報源は実際の多様性を低下させる
  • - AIモデルはトレーニングデータの重複を共有している
  • - エコーチェンバーは誤った自信を生み出す
  • - 独立した検証はより多くのエラーを発見する

まだ検証中のこと

  • - AIの情報源がどれだけコピーされているかを正確に測定する方法
  • - エコーチェンバーにフラグを立てる最適な閾値
  • - 介入がコピーをどれだけ減らせるか
  • - 分野によってこれがどう異なるか

ご自身で試してみる

ご自身で確認してください。

オープンソース。精査に開かれています。

このページのすべての主張は、読めるコード、検証できるトレース、確認できる研究に裏付けられています。それがポイントです。