我们使用哪些LLM及原因

CIRIS Agent运行于少数满足五项不妥协标准的开源模型。当前生产阵容包括Llama 4 Maverick、Llama 4 Scout、Qwen 3.6和Gemma 4，分别承担智能体工作负载中的不同角色。

Llama 4 Maverick

推理主力。它一次能保存非常大的上下文，因此是深度推理步骤的默认选择——在这些步骤中，保持全局视野最为重要。

提供商：OpenRouter、Groq、Together、DeepInfra

Llama 4 Scout

Llama 4系列中的快速伴侣。比Maverick更小更快，工具调用能力强。用于延迟敏感的交互层，无需使用完整的Maverick上下文预算。

提供商：OpenRouter、Groq

Qwen 3.6

多语言深度理解与强大的结构化输出能力。在多语言协议（Accord）所要求的非英语推理路径中承担重任；来自Llama系列之外的独立提供商，为备用链增添冗余。

提供商：OpenRouter、DashScope、DeepInfra

Gemma 4

小到可在普通硬件上运行。用于覆盖范围比原始性能更重要的场景（设备端、低带宽和网络受损部署），以及作为Llama和Qwen之外的第三系列备用选项。

提供商：OpenRouter、Google

我们的模型标准

CIRIS Agent的五项不妥协要求

1. 结构化输出与工具调用

必须原生支持函数调用，并在每次交互12至70次工具调用中返回有效的JSON。CIRIS是一个编排器，我们需要稳定的工具语义，而不是闲聊。

2. 上下文窗口：最低128K

CIRIS将完整的协议（Accord）和指南嵌入每个提示中。128K是绝对最低要求；对于长对话、工具输出和审计追踪，256K以上强烈优先。

3. 成本效益

目标：每百万令牌合计低于$1.00。我们选择最便宜的可用选项，而非最便宜的基准冠军。一个可靠、从不破坏JSON的模型，胜过每10次调用就失败一次的更便宜的模型。

4. 多提供商可用性

必须至少从两个独立提供商处可用，以构建稳健的备用链。在故障期间，CIRIS会优雅降级，而不是直接崩溃。

5. 延迟与用户体验

快速响应使人类能够参与伦理审查工作流。我们在交互层优先选择低延迟提供商，同时对后台任务接受较慢的后端。

生产部署

默认层

通过成本优化提供商使用Llama 4 Maverick，用于需要完整上下文预算的深度推理步骤。

快速层

通过速度优化提供商（Groq）使用Llama 4 Scout进行交互，Groq上的Maverick作为更大上下文的备选。

多语言层

Qwen 3.6承担多语言协议（Accord）所要求的非英语推理路径，并在链中提供非Llama备用选项。

边缘层

Gemma 4用于设备端、低带宽和网络受损的部署场景，在这些场景中覆盖用户比模型规模更重要。

备用链

跨多个提供商依次使用Maverick → Scout → Qwen 3.6 → Gemma 4，使智能体能够跨模型系列和基础设施边界优雅降级，而不是直接崩溃。

为什么选择这个阵容

不同角色，不可互换

Maverick处理上下文预算完整至关重要的深度推理。Scout承担延迟为主的交互层。Qwen 3.6覆盖协议（Accord）要求的29种语言中的多语言推理路径。Gemma 4是小体积选项，让智能体触及普通硬件。这个阵容的选择使不同层次的工作能够交给真正适合的模型，而不是强迫一个模型承担所有任务。

三个独立模型系列

Llama（Maverick + Scout）、Qwen和Gemma来自三个独立的训练流水线和三个独立的提供商生态系统。这对备用链很重要：一个系列上的漏洞、许可证变更或提供商故障不会导致智能体停机。模型层的独立性与IDMA组件在推理层保持稳健的属性相同。

哪些模型不在阵容中

无法满足五项标准的模型——最常见的情况是，那些令牌价格看起来有吸引力，但在结构化输出和工具调用上失败的模型。

典型失败案例（GPT-OSS-20B）："tool choice is required, but the model did not call a tool"

对于依赖每次交互12至70次工具调用的框架来说，这个错误是不可接受的。即使令牌价格便宜3至10倍，也不值得承受操作失败的代价。

为什么128K以上上下文不可妥协

始终在线的协议与指南

CIRIS将完整协议（Accord）和完整综合指南嵌入每个提示中。不是摘要，不是精简版，而是整个治理文本。

这确保协议（Accord）或指南的更新能立即影响所有智能体的行为，无需等待新的微调或提示压缩策略。

完整的伦理与程序状态

CIRIS智能体是重工具的编排器，需要同时处理：

多步骤工作流
系统状态和工具输出
用户消息和对话历史
完整的协议（Accord）和指南

这些合并的上下文很容易超过32K至64K，尤其是在长时间运行的会话或复杂调查中。这就是为什么128K是最低要求，256K以上是优先选择。

结论：

CIRIS不会为了适应模型而裁剪其价值观或程序。相反，CIRIS选择足够大的模型，能够在每次调用中承载完整的伦理与操作框架。上下文窗口较小的模型（即使更便宜或更流行）被排除在生产使用之外。

这如何支持CIRIS协议（Accord）

模型选择作为伦理基础设施

透明性与可检查性

长上下文使推理追踪、决策和工具调用对人类审查保持可见
稳定的JSON和结构化输出使每次工具调用都可审计
每次调用中包含完整治理文件，确保决策可追溯至原则

韧性与治理

多提供商部署避免关键伦理基础设施中的单点故障
选择"足够好且可靠"而非"炫目但脆弱"，优先保障安全性和连续性
故障期间的优雅降级保持服务可用性

人类监督

快速层使人类能够轻松参与实时伦理审查
低成本层支持广泛的后台分析，不产生过高费用
均衡的方案支持日常使用和定期治理审计

结语

CIRIS在生产中运行Llama 4 Maverick、Llama 4 Scout、Qwen 3.6和Gemma 4，因为它们共同满足协议（Accord）所施加的操作和经济约束：长上下文、可靠的工具调用、多语言覆盖、触及普通硬件——跨越三个独立模型系列。新模型会持续监测和测试；当某个模型真正满足五项标准时，阵容会相应调整。

这不是追逐基准分数或跟随炒作潮流。而是选择真正适合生产中负责任、以工具为核心的智能体的模型——并足够认真地将协议（Accord）完整地带入每一次调用。