使用しているLLMとその理由

CIRISエージェントは、5つの必須条件を満たすオープンモデルの小さなセットで動作します。現在の本番ラインナップは、Llama 4 Maverick、Llama 4 Scout、Qwen 3.6、Gemma 4です。それぞれエージェントのワークロードにおける異なる役割のために選ばれています。

Llama 4 Maverick

推論の主力モデルです。非常に大きなコンテキストを一度に保持できるため、全体像を把握することが最も重要な深い推論ステップのデフォルトとして使用されます。

プロバイダー: OpenRouter、Groq、Together、DeepInfra

Llama 4 Scout

Llama 4ファミリーの高速な補助モデルです。Maverickより小さく速く、ツール呼び出しが得意です。遅延が重要でMaverickのフルコンテキスト予算が不要なインタラクティブ層に使用されます。

プロバイダー: OpenRouter、Groq

Qwen 3.6

多言語の深さと強力な構造化出力を持ちます。ポリグロット協定が必要とする非英語の推論パスで重要な役割を担います。Llamaファミリー以外の独立したプロバイダー基盤がフォールバックチェーンの冗長性を高めます。

プロバイダー: OpenRouter、DashScope、DeepInfra

Gemma 4

一般的なハードウェアで動作できるほど小さいモデルです。生の処理能力より到達性が重要な環境（デバイス上、低帯域幅、低速ネットワーク環境）や、LlamaとQwenと並ぶ第3のファミリーのフォールバックとして使用されます。

プロバイダー: OpenRouter、Google

モデル選定基準

CIRISエージェントの5つの必須要件

1. 構造化出力とツール使用

1回のインタラクションで12〜70のツール呼び出しにわたり、関数呼び出しをネイティブにサポートし、有効なJSONを返す必要があります。CIRISはオーケストレーターです。おしゃべりな会話ではなく、安定したツールのセマンティクスが必要です。

2. コンテキストウィンドウ: 最低128K

CIRISはすべてのプロンプトに完全な協定とガイドを埋め込みます。128Kは絶対的な最低ラインです。長い会話、ツール出力、監査証跡には256K以上が強く推奨されます。

3. コスト効率

目標: 合計100万トークンあたり$1.00未満。最安値のベンチマーク勝者ではなく、最安値で動作するオプションを選びます。JSONを絶対に壊さない信頼性の高いモデルは、10回に1回失敗する安価なモデルより優れています。

4. 複数プロバイダーの可用性

堅牢なフォールバックチェーンのために、少なくとも2つの独立したプロバイダーから利用可能である必要があります。CIRISは障害発生時にハード障害を起こさず、グレースフルに機能低下します。

5. 遅延とユーザー体験

高速なレスポンスにより、倫理的なレビューワークフローに人間が関与し続けやすくなります。バックグラウンドタスクには低速なバックエンドを許容しながら、インタラクティブ層には低遅延プロバイダーを優先します。

本番デプロイ

デフォルト層

フルコンテキスト予算が必要な深い推論ステップに、コスト最適化プロバイダー経由のLlama 4 Maverickを使用。

高速層

インタラクティブ使用には速度最適化プロバイダー（Groq）経由のLlama 4 Scout、より大きなコンテキストが必要な場合はGroq上のMaverickを使用。

多言語層

Qwen 3.6がポリグロット協定で必要とされる非英語の推論パスを担い、チェーンでのLlama以外のフォールバックを提供します。

エッジ層

モデルの大きさよりユーザーへの到達性が重要な、デバイス上・低帯域幅・低速ネットワーク環境向けにGemma 4を使用。

フォールバックチェーン

Maverick → Scout → Qwen 3.6 → Gemma 4 の順で複数プロバイダーにまたがり、モデルファミリーとインフラの境界を超えてハード障害を起こさずグレースフルに機能低下します。

このラインナップの理由

異なる役割、交換可能ではない部品

Maverickはフルコンテキスト予算が重要な深い推論を担います。Scoutは遅延が支配的なインタラクティブ層を担います。Qwen 3.6は協定が29言語で必要とするポリグロット推論パスに対応します。Gemma 4は一般的なハードウェアでエージェントを利用可能にする小フットプリントのオプションです。ラインナップは1つのモデルにすべてを強いるのではなく、異なる層の作業が実際に適したモデルに割り当てられるよう選ばれています。

3つの独立したモデルファミリー

Llama（Maverick + Scout）、Qwen、Gemmaは3つの独立したトレーニングパイプラインと3つの独立したプロバイダーエコシステムから来ています。これはフォールバックチェーンで重要です。1つのファミリーにCVE、ライセンス変更、またはプロバイダー障害が発生しても、エージェントはダウンしません。モデル層の独立性は、IDMAコンポーネントが推論層で堅牢性を持つのと同じ特性です。

ラインナップから除外されているもの

5つの基準を満たせないモデル、最も多いのは、トークン価格では魅力的に見えるが構造化出力とツール呼び出しで失敗するモデルです。

代表的な失敗例（GPT-OSS-20B）：「ツール選択が必要ですが、モデルはツールを呼び出しませんでした」

このエラーは、1回のインタラクションで12〜70のツール呼び出しに依存するフレームワークには許容できません。トークン価格が3〜10倍安くても、運用上の失敗は割に合いません。

128K以上のコンテキストが必須の理由

常時オンの協定とガイド

CIRISはすべてのプロンプトに完全な協定と完全な包括ガイドを埋め込みます。要約ではなく、圧縮版でもなく、ガバナンス文書の全文です。

これにより、協定やガイドの更新が、新しいファインチューニングやプロンプト圧縮戦略を待たずに、すべてのエージェントの動作にすぐ反映されます。

完全な倫理的・手続き的状態

CIRISエージェントはツールを多用するオーケストレーターで、以下を同時に処理しています。

複数ステップのワークフロー
システム状態とツールの出力
ユーザーメッセージと会話履歴
完全な協定とガイド

この組み合わせたコンテキストは、特に長いセッションや複雑な調査では32K〜64Kを超えることがあります。そのため128Kが最低ラインで、256K以上が推奨されます。

結論：

CIRISはモデルに合わせて価値観や手順を削ることはしません。代わりに、すべての呼び出しで完全な倫理的・運用的フレームワークを保持できるほど大きなモデルを選びます。コンテキストウィンドウが小さいモデル（より安価でも人気があっても）は、本番使用から除外されます。

CIRISの協定をどのように支えるか

倫理的インフラとしてのモデル選定

透明性と検査可能性

長いコンテキストにより、推論の痕跡、決定、ツール呼び出しが人間のレビューに対して可視化されます
安定したJSONと構造化出力により、すべてのツール呼び出しが監査可能になります
すべての呼び出しに完全なガバナンス文書が含まれることで、決定が原則にまで追跡可能になります

回復力とガバナンス

複数プロバイダーのデプロイにより、重要な倫理的インフラにおける単一障害点を回避します
「派手だが壊れやすい」より「十分良くて信頼性が高い」を選ぶことで、安全性と継続性を優先します
障害時のグレースフルな機能低下によりサービスの可用性を維持します

人間による監督

高速層により、人間がリアルタイムの倫理的レビューにストレスなく関与し続けられます
安価な層により、過大なコストをかけずに広範なバックグラウンド分析が可能になります
バランスの取れたアプローチが日常的な使用と定期的なガバナンス監査の両方を支えます

結論

CIRISが本番でLlama 4 Maverick、Llama 4 Scout、Qwen 3.6、Gemma 4を使用するのは、これらが合わさって協定が課す運用的・経済的制約を満たすからです。長いコンテキスト、信頼性の高いツール呼び出し、ポリグロットカバレッジ、そして一般的なハードウェアへの到達性を、3つの独立したモデルファミリーで実現しています。新しいモデルは継続的に監視・テストされ、5つの基準を実際に満たすものが出てきたときにラインナップが変わります。

これはベンチマークスコアを追いかけたり、流行サイクルに乗ったりすることではありません。本番環境でアカウンタブルなツール中心のエージェントとして実際に機能し、すべての呼び出しで協定をしっかりと保持できるモデルを選ぶことです。