初次接触安装连贯棘轮联邦对比研究协议GitHub
本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题

我们使用哪些LLM及原因

CIRIS Agent运行于少数满足五项不妥协标准的开源模型。当前生产阵容包括Llama 4 Maverick、Llama 4 Scout、Qwen 3.6和Gemma 4,分别承担智能体工作负载中的不同角色。

Llama 4 Maverick

推理主力。它一次能保存非常大的上下文,因此是深度推理步骤的默认选择——在这些步骤中,保持全局视野最为重要。

提供商:OpenRouter、Groq、Together、DeepInfra

Llama 4 Scout

Llama 4系列中的快速伴侣。比Maverick更小更快,工具调用能力强。用于延迟敏感的交互层,无需使用完整的Maverick上下文预算。

提供商:OpenRouter、Groq

Qwen 3.6

多语言深度理解与强大的结构化输出能力。在多语言协议(Accord)所要求的非英语推理路径中承担重任;来自Llama系列之外的独立提供商,为备用链增添冗余。

提供商:OpenRouter、DashScope、DeepInfra

Gemma 4

小到可在普通硬件上运行。用于覆盖范围比原始性能更重要的场景(设备端、低带宽和网络受损部署),以及作为Llama和Qwen之外的第三系列备用选项。

提供商:OpenRouter、Google

我们的模型标准

CIRIS Agent的五项不妥协要求

1. 结构化输出与工具调用

必须原生支持函数调用,并在每次交互12至70次工具调用中返回有效的JSON。CIRIS是一个编排器,我们需要稳定的工具语义,而不是闲聊。

2. 上下文窗口:最低128K

CIRIS将完整的协议(Accord)和指南嵌入每个提示中。128K是绝对最低要求;对于长对话、工具输出和审计追踪,256K以上强烈优先。

3. 成本效益

目标:每百万令牌合计低于$1.00。我们选择最便宜的可用选项,而非最便宜的基准冠军。一个可靠、从不破坏JSON的模型,胜过每10次调用就失败一次的更便宜的模型。

4. 多提供商可用性

必须至少从两个独立提供商处可用,以构建稳健的备用链。在故障期间,CIRIS会优雅降级,而不是直接崩溃。

5. 延迟与用户体验

快速响应使人类能够参与伦理审查工作流。我们在交互层优先选择低延迟提供商,同时对后台任务接受较慢的后端。

生产部署

默认层

通过成本优化提供商使用Llama 4 Maverick,用于需要完整上下文预算的深度推理步骤。

快速层

通过速度优化提供商(Groq)使用Llama 4 Scout进行交互,Groq上的Maverick作为更大上下文的备选。

多语言层

Qwen 3.6承担多语言协议(Accord)所要求的非英语推理路径,并在链中提供非Llama备用选项。

边缘层

Gemma 4用于设备端、低带宽和网络受损的部署场景,在这些场景中覆盖用户比模型规模更重要。

备用链

跨多个提供商依次使用Maverick → Scout → Qwen 3.6 → Gemma 4,使智能体能够跨模型系列和基础设施边界优雅降级,而不是直接崩溃。

为什么选择这个阵容

不同角色,不可互换

Maverick处理上下文预算完整至关重要的深度推理。Scout承担延迟为主的交互层。Qwen 3.6覆盖协议(Accord)要求的29种语言中的多语言推理路径。Gemma 4是小体积选项,让智能体触及普通硬件。这个阵容的选择使不同层次的工作能够交给真正适合的模型,而不是强迫一个模型承担所有任务。

三个独立模型系列

Llama(Maverick + Scout)、Qwen和Gemma来自三个独立的训练流水线和三个独立的提供商生态系统。这对备用链很重要:一个系列上的漏洞、许可证变更或提供商故障不会导致智能体停机。模型层的独立性与IDMA组件在推理层保持稳健的属性相同。

哪些模型不在阵容中

无法满足五项标准的模型——最常见的情况是,那些令牌价格看起来有吸引力,但在结构化输出和工具调用上失败的模型。

典型失败案例(GPT-OSS-20B):"tool choice is required, but the model did not call a tool"

对于依赖每次交互12至70次工具调用的框架来说,这个错误是不可接受的。即使令牌价格便宜3至10倍,也不值得承受操作失败的代价。

为什么128K以上上下文不可妥协

始终在线的协议与指南

CIRIS将完整协议(Accord)完整综合指南嵌入每个提示中。不是摘要,不是精简版,而是整个治理文本。

这确保协议(Accord)或指南的更新能立即影响所有智能体的行为,无需等待新的微调或提示压缩策略。

完整的伦理与程序状态

CIRIS智能体是重工具的编排器,需要同时处理:

  • 多步骤工作流
  • 系统状态和工具输出
  • 用户消息和对话历史
  • 完整的协议(Accord)和指南

这些合并的上下文很容易超过32K至64K,尤其是在长时间运行的会话或复杂调查中。这就是为什么128K是最低要求,256K以上是优先选择。

结论:

CIRIS不会为了适应模型而裁剪其价值观或程序。相反,CIRIS选择足够大的模型,能够在每次调用中承载完整的伦理与操作框架。上下文窗口较小的模型(即使更便宜或更流行)被排除在生产使用之外。

这如何支持CIRIS协议(Accord)

模型选择作为伦理基础设施

透明性与可检查性

  • 长上下文使推理追踪、决策和工具调用对人类审查保持可见
  • 稳定的JSON和结构化输出使每次工具调用都可审计
  • 每次调用中包含完整治理文件,确保决策可追溯至原则

韧性与治理

  • 多提供商部署避免关键伦理基础设施中的单点故障
  • 选择"足够好且可靠"而非"炫目但脆弱",优先保障安全性和连续性
  • 故障期间的优雅降级保持服务可用性

人类监督

  • 快速层使人类能够轻松参与实时伦理审查
  • 低成本层支持广泛的后台分析,不产生过高费用
  • 均衡的方案支持日常使用和定期治理审计

结语

CIRIS在生产中运行Llama 4 Maverick、Llama 4 Scout、Qwen 3.6和Gemma 4,因为它们共同满足协议(Accord)所施加的操作和经济约束:长上下文、可靠的工具调用、多语言覆盖、触及普通硬件——跨越三个独立模型系列。新模型会持续监测和测试;当某个模型真正满足五项标准时,阵容会相应调整。

这不是追逐基准分数或跟随炒作潮流。而是选择真正适合生产中负责任、以工具为核心的智能体的模型——并足够认真地将协议(Accord)完整地带入每一次调用。