
良心は必要条件です。ただし、それだけでは十分ではありません。
ルールをまったく持たないAIもあります。ルールには従うが、情報源が互いにただ反響しているだけかどうかを判断できないAIもあります。情報が本当に異なる場所から来ているかどうかを確認できるのは、1つのタイプだけです。
公開された原則もなく、監査記録もなく、クローズドソースです。何をしたのか、なぜそうしたのかを確認できません。
ほとんどの消費者向けAIアシスタント(ChatGPT、Gemini)は、公的な説明責任という観点ではここに分類されます。内部では優れた取り組みが行われているかもしれませんが、それを確認することはできません。
外部からの規制が必要です。自律的に自己管理することはできません。
倫理的なルールには従います。しかし、すべての情報源が互いにコピーし合っているだけかどうかを判断できないため、自信を持って間違えることがあります。
監督下では安全です。エコーチェンバーを自力で検出できません。
倫理的なルールに従いながら、情報が本当に異なる場所から来ているかどうかも確認します。一致が不自然に見える場合は、行動する前にフラグを立てます。
これがCIRISの構築するものです。
AIはすべてのルールを守り、あらゆる監査をクリアしても、情報がすべて同じ場所から来ている場合には失敗することがあります。その盲点を修正するために、CIRISは作られました。
これらがAIを監査可能で説明責任があるものにする要素です。最初の6つは正しいことをするためのもの、7つ目は「正しいことをする」判断が誤った情報に基づいている状況を発見するためのものです。
エージェントが行動を起こす前に、必ず良心チェックが行われます。事後ではありません。事前です。
不確かなとき、または害を及ぼす可能性があるとき、エージェントは推測する代わりに人に尋ねます。任意の機能ではなく、ワークフローに組み込まれています。
すべての意思決定が記録・署名されるため、何が起こったか、なぜそうなったかを正確に確認できます。すべての行動の領収書です。
同意は双方向です。あなたはエージェントに「ノー」と言えます。エージェントもあなたに「ノー」と言えます。どちらの側も妥協を強いられません。
ルールだけでは発見できないもの。
行動する前に、エージェントは問いかけます。「情報源は本当に互いに意見が異なっているのか、それともすべてが同じ場所から情報を得ているだけなのか?」同じ元の記事を全員がコピーした10の情報源は、実質的には1つの情報源にすぎません。一致が均一すぎる場合、エージェントは人間のレビューのためにフラグを立てます。
ノイズが多すぎる
情報源が互いに矛盾しすぎて、有益な結論を導き出せません。
健全
情報源は本当に異なっています。本物の合意は意味を持ちます。
エコーチェンバー
合意しているように見えますが、情報源は互いに繰り返しているだけです。
これがCIRISを他のAI説明責任フレームワークと異なるものにしています。
数学的な詳細を知りたいですか?論文全文を読む →2026年2月時点の公開情報に基づいています。何か見落としや誤りがあれば、お知らせください。
| プロジェクト | 毎回確認 | 公開されたルール | 良心が組み込まれている | 行動の証明 | オープンソース | エコーチェンバー検出 |
|---|---|---|---|---|---|---|
| CIRIS | あり | あり | あり | あり | AGPL-3.0 | あり |
| Constitutional AI | トレーニング時のみ | 暗黙的 | なし | なし | なし | なし |
| LlamaFirewall / NeMo Guardrails | あり | なし | なし | ログ記録 | あり | なし |
| HatCat | あり | 一部 | ステアリング | 一部 | CC0 | なし |
| 倫理委員会 / ガバナンスフレームワーク | なし | あり | なし | 手動 | さまざま | なし |
出力フィルターとガバナンスフレームワークは重要ですが、異なる問題を解決します。フィルターは有害な出力をブロックします。良心は価値観について推論します。CIRISはその両方を行い、どちらか単独では対処できない盲点を発見することを目指しています。
プロンプトインジェクション、有害コンテンツ、敵対的攻撃など危険な出力をブロックします。出力の段階で悪いものを捕捉するフィルターのようなものです。
行動が安全かどうかだけでなく、正しいかどうかを推論します。判決を下す前に状況を考慮する裁判官のようなものです。
一致が本物なのかただの繰り返しなのかを確認します。「みんな同じ記事を読んだのですか?」と問うファクトチェッカーのようなものです。
公開された原則に縛られ、監査可能で、人間の権威に委ねる多くの小さなエージェント。スタック全体を単一の企業や団体が管理することはありません。エージェントが独立しているほど、1つの障害が連鎖するのを防ぎやすくなります。
これは進行中の研究です。何が確立されていて何がまだ検証中かについて、透明性をもってお伝えします。
よく確立されていること
まだ検証中のこと
このページのすべての主張は、読めるコード、検証できるトレース、確認できる研究に裏付けられています。それがポイントです。