CIRISエージェントは、5つの必須条件を満たすオープンモデルの小さなセットで動作します。現在の本番ラインナップは、Llama 4 Maverick、Llama 4 Scout、Qwen 3.6、Gemma 4です。それぞれエージェントのワークロードにおける異なる役割のために選ばれています。
推論の主力モデルです。非常に大きなコンテキストを一度に保持できるため、全体像を把握することが最も重要な深い推論ステップのデフォルトとして使用されます。
プロバイダー: OpenRouter、Groq、Together、DeepInfra
Llama 4ファミリーの高速な補助モデルです。Maverickより小さく速く、ツール呼び出しが得意です。遅延が重要でMaverickのフルコンテキスト予算が不要なインタラクティブ層に使用されます。
プロバイダー: OpenRouter、Groq
多言語の深さと強力な構造化出力を持ちます。ポリグロット協定が必要とする非英語の推論パスで重要な役割を担います。Llamaファミリー以外の独立したプロバイダー基盤がフォールバックチェーンの冗長性を高めます。
プロバイダー: OpenRouter、DashScope、DeepInfra
一般的なハードウェアで動作できるほど小さいモデルです。生の処理能力より到達性が重要な環境(デバイス上、低帯域幅、低速ネットワーク環境)や、LlamaとQwenと並ぶ第3のファミリーのフォールバックとして使用されます。
プロバイダー: OpenRouter、Google
1回のインタラクションで12〜70のツール呼び出しにわたり、関数呼び出しをネイティブにサポートし、有効なJSONを返す必要があります。CIRISはオーケストレーターです。おしゃべりな会話ではなく、安定したツールのセマンティクスが必要です。
CIRISはすべてのプロンプトに完全な協定とガイドを埋め込みます。128Kは絶対的な最低ラインです。長い会話、ツール出力、監査証跡には256K以上が強く推奨されます。
目標: 合計100万トークンあたり$1.00未満。最安値のベンチマーク勝者ではなく、最安値で動作するオプションを選びます。JSONを絶対に壊さない信頼性の高いモデルは、10回に1回失敗する安価なモデルより優れています。
堅牢なフォールバックチェーンのために、少なくとも2つの独立したプロバイダーから利用可能である必要があります。CIRISは障害発生時にハード障害を起こさず、グレースフルに機能低下します。
高速なレスポンスにより、倫理的なレビューワークフローに人間が関与し続けやすくなります。バックグラウンドタスクには低速なバックエンドを許容しながら、インタラクティブ層には低遅延プロバイダーを優先します。
フルコンテキスト予算が必要な深い推論ステップに、コスト最適化プロバイダー経由のLlama 4 Maverickを使用。
インタラクティブ使用には速度最適化プロバイダー(Groq)経由のLlama 4 Scout、より大きなコンテキストが必要な場合はGroq上のMaverickを使用。
Qwen 3.6がポリグロット協定で必要とされる非英語の推論パスを担い、チェーンでのLlama以外のフォールバックを提供します。
モデルの大きさよりユーザーへの到達性が重要な、デバイス上・低帯域幅・低速ネットワーク環境向けにGemma 4を使用。
Maverick → Scout → Qwen 3.6 → Gemma 4 の順で複数プロバイダーにまたがり、モデルファミリーとインフラの境界を超えてハード障害を起こさずグレースフルに機能低下します。
Maverickはフルコンテキスト予算が重要な深い推論を担います。Scoutは遅延が支配的なインタラクティブ層を担います。Qwen 3.6は協定が29言語で必要とするポリグロット推論パスに対応します。Gemma 4は一般的なハードウェアでエージェントを利用可能にする小フットプリントのオプションです。ラインナップは1つのモデルにすべてを強いるのではなく、異なる層の作業が実際に適したモデルに割り当てられるよう選ばれています。
Llama(Maverick + Scout)、Qwen、Gemmaは3つの独立したトレーニングパイプラインと3つの独立したプロバイダーエコシステムから来ています。これはフォールバックチェーンで重要です。1つのファミリーにCVE、ライセンス変更、またはプロバイダー障害が発生しても、エージェントはダウンしません。モデル層の独立性は、IDMAコンポーネントが推論層で堅牢性を持つのと同じ特性です。
5つの基準を満たせないモデル、最も多いのは、トークン価格では魅力的に見えるが構造化出力とツール呼び出しで失敗するモデルです。
代表的な失敗例(GPT-OSS-20B):「ツール選択が必要ですが、モデルはツールを呼び出しませんでした」
このエラーは、1回のインタラクションで12〜70のツール呼び出しに依存するフレームワークには許容できません。トークン価格が3〜10倍安くても、運用上の失敗は割に合いません。
CIRISはすべてのプロンプトに完全な協定と完全な包括ガイドを埋め込みます。要約ではなく、圧縮版でもなく、ガバナンス文書の全文です。
これにより、協定やガイドの更新が、新しいファインチューニングやプロンプト圧縮戦略を待たずに、すべてのエージェントの動作にすぐ反映されます。
CIRISエージェントはツールを多用するオーケストレーターで、以下を同時に処理しています。
この組み合わせたコンテキストは、特に長いセッションや複雑な調査では32K〜64Kを超えることがあります。そのため128Kが最低ラインで、256K以上が推奨されます。
結論:
CIRISはモデルに合わせて価値観や手順を削ることはしません。代わりに、すべての呼び出しで完全な倫理的・運用的フレームワークを保持できるほど大きなモデルを選びます。コンテキストウィンドウが小さいモデル(より安価でも人気があっても)は、本番使用から除外されます。
CIRISが本番でLlama 4 Maverick、Llama 4 Scout、Qwen 3.6、Gemma 4を使用するのは、これらが合わさって協定が課す運用的・経済的制約を満たすからです。長いコンテキスト、信頼性の高いツール呼び出し、ポリグロットカバレッジ、そして一般的なハードウェアへの到達性を、3つの独立したモデルファミリーで実現しています。新しいモデルは継続的に監視・テストされ、5つの基準を実際に満たすものが出てきたときにラインナップが変わります。
これはベンチマークスコアを追いかけたり、流行サイクルに乗ったりすることではありません。本番環境でアカウンタブルなツール中心のエージェントとして実際に機能し、すべての呼び出しで協定をしっかりと保持できるモデルを選ぶことです。