重みを信頼するか、行動を確認するか

AIセーフティの主流は、モデルを内側から良くしようとします。価値観を訓練し、思考を研究し、自己議論させます。その取り組みは重要です。CIRISは別の道に賭けます。有能なモデルがミスアラインされている可能性を前提とし、その心を信頼する代わりに、重要な行動を、確認できる人々や他のシステムに対して説明責任を持たせます。

この分野の用語で言えば、CIRISはRLHF・Constitutional AI・議論・解釈可能性といった価値内在化の主流ではなく、AIコントロールやGS-AIと並ぶ制度的・制御的な分野に位置します。スケーラブルな監視、つまり自分より賢いものをどう監督するかという問題に対するCIRISの答えは、推論ではなく説明責任の境界を検証することです。署名、定足数、ハッシュチェーンされた監査記録は、その背後にある意思決定が超人的であっても、安価に確認し続けられます。CIRISは、単一の心の価値観ではなく、多くの有能なエージェントが時間をかけて構成するシステムを調整します。

私たちが守る一線

一つの全能なAIを調整しようとはしません。意図的に。

説明責任には複数の当事者が必要です。答える相手。静かに飲み込まれることのない確認手段。誰も独占できない力の均衡。単一の超知性にはこれらが一つもないため、説明責任を問う正直な方法はありません。CIRISは別の未来のために構築されています。多くの有能なエージェント、人々、組織が、それぞれの重要な意思決定を独立して検証できる世界です。

そのため、立場は明確です。シングルトンASIは調整すべきシステムではなく、防ぐべき状態です。この段階の人間の制度発展において、超人的な能力を一つの説明責任のない場所に集中させることは正当ではありません。それを責任ある形で保持できる制度が十分に成熟していないからです。それこそが危険の本質です。このフレームワーク自体の用語で言えば、シングルトンはρ→1の単一声崩壊であり、コリドルモデルが成功ではなく協調の失敗として名付けているものです。私たちの保証がフェデレーションにわたって成立し、シングルトンに対しては崩れるという点は、修正すべき欠陥ではありません。それは私たちが正当化を拒否する体制であり、予測としてだけでなくコミットメントとして保持されています。

近いアプローチはどれかいくつかの項目を満たしています。一つの行がすべてを満たしています。

CIRISには真剣な知的な仲間がいます。それぞれが自分の分野で強みを持っています。この表の目的は、アイデアが前例のないものだと言うことではありません。ほとんど誰も、スタック全体を一つの説明責任あるシステムとして構築し出荷していないということです。以下の各行は、読む価値のある実際の系譜です。最後の行だけがすべての列を満たしており、その統合こそが主張の核心です。

アプローチ	最も近い研究	メカニズム	ランタイム、訓練時ではない	意思決定に署名する	ランタイム憲法	フェデレーション検証	実行可能な適合性	出荷済み
制度的テーゼ	Gillian Hadfield	規範的インフラと規制市場、理論および政策として	理論	いいえ	理論	理論	いいえ	いいえ
ガバナンスグラフ	制度的AI（Pierucci ら）	法的状態と制裁の公開グラフ、研究プロトタイプとして	研究段階	いいえ	研究段階	いいえ	いいえ	いいえ
オンチェーンの憲法的ガバナンス	AgentCity（Ruan、Zhang）	権力分立をスマートコントラクトとして、テストネットに事前登録済み	研究段階	一部	研究段階	いいえ	いいえ	いいえ
モデルがミスアラインされていると仮定する	Redwood Research（AIコントロール）	一つのデプロイ内でのモニタリングとレッドチーミング	はい	いいえ	いいえ	いいえ	研究段階	研究段階
証明可能な安全性、外部化	davidad、Bengio、GS-AI系譜	世界モデルに対する形式的証明	一部	いいえ	理論	理論	研究段階	いいえ
訓練時の憲法	Anthropic Constitutional AI	重みに訓練された価値観、一つの組織	いいえ	いいえ	いいえ	いいえ	いいえ	はい
暗号的出所証明	C2PA、zkML（EZKL、Giza）	メディアの出所に署名し、推論が実行されたことを証明する	はい	一部	いいえ	一部	一部	はい
署名された推論DAG	Proof of Insight（Arclio）	AI派生ステップの署名グラフ、ドラフト仕様として	いいえ	一部	いいえ	理論	理論	いいえ
ハードウェア証明推論	Phala、Marlin、Attestable Audits	出力に署名するセキュアエンクレーブで推論を実行する	はい	一部	いいえ	一部	いいえ	一部
分散型アイデンティティとフェデレーション	atproto、Bittensor	ソーシャルまたはコンピュートのフェデレーション、良心の層なし	一部	いいえ	いいえ	一部	一部	はい
エージェントプロトコル	MCP、A2A	ツールとエージェントの相互運用、ガバナンスなし	はい	いいえ	いいえ	いいえ	一部	はい
セーフティ評価と適合性スイート	MLCommons、METR、HarmBench	モデルの行動をスコアリングする実行可能なベンチマーク、意思決定ではなく	いいえ	いいえ	いいえ	いいえ	一部	はい
第三者およびフェデレーション監査	AISI ネットワーク、GovAI	独立した機関がデプロイ済みシステムを共同でテストする	一部	いいえ	いいえ	はい	いいえ	一部
CIRIS	このシステム	署名された成果物へのコンサイエンスパイプライン、ランタイム憲法、耐量子フェデレーション	はい	はい	はい	はい	はい	はい

2026年6月時点の公開研究からマッピングされており、すべての行は以下に引用されています。近いアプローチの記載に誤りがあればお知らせください。その行を修正します。

出典

02一般向けAI

あなたが実際に使っているAIと比べると

日常的なAIアシスタントは強力で使いやすいです。でも、他の会社のクラウドで動いていて、確認できる記録を残さず、名前を挙げて責任を問える相手もいません。ここでは、多くの人が毎日使っているAIに同じ説明責任のテストを当てはめてみます。

アシスタント	公開された原則	行動の証明	不確かなとき人間に確認	オープンソース	エコーチェンバー確認
ChatGPT	はい	いいえ	いいえ	いいえ	いいえ
Gemini	はい	いいえ	いいえ	いいえ	いいえ
Claude	はい	いいえ	いいえ	いいえ	いいえ
CIRIS	はい	はい	はい	はい	はい

2026年6月時点の公開製品の動作をもとに比較しています。各原則のリンクは、各社が自ら公開した仕様ページに移動します。

この分野のほとんどはモデルを調整しようとしています。CIRISはその周りの制度を構築しています。

重みを信頼するか、行動を確認するか

一つの全能なAIを調整しようとはしません。意図的に。

あなたが実際に使っているAIと比べると

ご自身で試してみる

考える過程を見る

アイデンティティを確認する

始める