O CIRIS Agent funciona com um pequeno conjunto de modelos abertos que atendem a cinco critérios inegociáveis. A linha de produção atual é Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4, escolhidos para papéis distintos na carga de trabalho do agente.
O motor de raciocínio principal. Mantém uma quantidade muito grande de contexto de uma vez, por isso é o padrão para as etapas de raciocínio mais profundo, onde ter o quadro completo em vista é o que mais importa.
Provedores: OpenRouter, Groq, Together, DeepInfra
O companheiro ágil da família Llama 4. Menor e mais rápido que o Maverick, com chamadas de ferramentas sólidas. Usado nos níveis interativos onde a latência importa e o orçamento completo de contexto do Maverick não é necessário.
Provedores: OpenRouter, Groq
Profundidade multilíngue e saída estruturada robusta. Assume peso nas rotas de raciocínio em idiomas fora do inglês que o Accord poliglota exige; uma base de provedores independente fora da família Llama adiciona redundância na cadeia de fallback.
Provedores: OpenRouter, DashScope, DeepInfra
Pequeno o suficiente para rodar em hardware comum. Usado onde o alcance importa mais do que a capacidade bruta (implantações no dispositivo, baixa largura de banda e redes degradadas) e como fallback de uma terceira família ao lado do Llama e do Qwen.
Provedores: OpenRouter, Google
Deve suportar nativamente chamadas de função e retornar JSON válido em 12 a 70 chamadas de ferramentas por interação. CIRIS é um orquestrador. Precisamos de semântica de ferramentas estável, não de conversa casual.
CIRIS incorpora o Accord completo e o Guia em cada prompt. 128K é o mínimo absoluto; 256K ou mais é fortemente preferido para conversas longas, saídas de ferramentas e trilhas de auditoria.
Meta: menos de $1,00 por 1M de tokens combinados. Escolhemos a opção mais barata que funciona, não a vencedora de benchmark mais barata. Um modelo confiável que nunca quebra o JSON supera um modelo mais barato que falha em 1 a cada 10 chamadas.
Deve estar disponível em pelo menos dois provedores independentes para cadeias de fallback robustas. O CIRIS degrada de forma elegante durante interrupções em vez de falhar por completo.
Respostas rápidas mantêm os humanos no ciclo para fluxos de revisão ética. Priorizamos provedores de baixa latência para os níveis interativos e aceitamos backends mais lentos para tarefas em segundo plano.
Llama 4 Maverick via provedor otimizado por custo para as etapas de raciocínio profundo que precisam do orçamento completo de contexto.
Llama 4 Scout via provedor otimizado por velocidade (Groq) para uso interativo, com Maverick no Groq como alternativa de contexto mais amplo.
Qwen 3.6 assume peso nas rotas de raciocínio em idiomas fora do inglês que o Accord poliglota exige e oferece um fallback fora da família Llama na cadeia.
Gemma 4 para implantações no dispositivo, baixa largura de banda e redes degradadas, onde chegar ao usuário importa mais do que o tamanho do modelo.
Maverick → Scout → Qwen 3.6 → Gemma 4 em múltiplos provedores, para que o agente degrade de forma elegante entre famílias de modelos e fronteiras de infraestrutura em vez de falhar por completo.
Maverick lida com o raciocínio profundo onde o orçamento completo de contexto importa. Scout carrega o nível interativo onde a latência domina. Qwen 3.6 alcança as rotas de raciocínio poliglota que o Accord exige em 29 idiomas. Gemma 4 é a opção de pegada pequena que coloca o agente ao alcance do hardware comum. A combinação é escolhida para que diferentes níveis de trabalho vão para o modelo que realmente se encaixa, em vez de forçar um único modelo a fazer tudo.
Llama (Maverick + Scout), Qwen e Gemma vêm de três pipelines de treinamento independentes e três ecossistemas de provedores independentes. Isso importa para as cadeias de fallback: um CVE, uma mudança de licença ou uma interrupção de provedor em uma família não derruba o agente. A independência na camada de modelos é a mesma propriedade que torna o componente IDMA robusto na camada de raciocínio.
Modelos que não atendem aos cinco critérios, na maioria das vezes, modelos que parecem atrativos pelo preço do token mas falham em saída estruturada e chamadas de ferramentas.
Modo de falha representativo (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Esse erro é inaceitável para um framework que depende de 12 a 70 chamadas de ferramentas por interação. Mesmo um preço de token 3 a 10 vezes mais barato não vale as falhas operacionais.
CIRIS incorpora o Accord completo e o Guia Abrangente completo em cada prompt. Não um resumo. Não uma versão condensada. O texto de governança inteiro.
Isso garante que atualizações no Accord ou no Guia afetem imediatamente o comportamento de todos os agentes, sem esperar novos ajustes finos ou estratégias de compressão de prompt.
Os agentes de CIRIS são orquestradores repletos de ferramentas que gerenciam:
Esse contexto combinado ultrapassa facilmente 32K a 64K, especialmente em sessões longas ou investigações complexas. Por isso 128K é o mínimo e 256K ou mais é o preferido.
O ponto final:
CIRIS não corta seus valores ou procedimentos para caber no modelo. Em vez disso, CIRIS escolhe modelos grandes o suficiente para carregar todo o framework ético e operacional em cada chamada. Modelos com janelas de contexto menores (mesmo que mais baratos ou mais populares) são excluídos do uso em produção.
CIRIS usa Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4 em produção porque, juntos, eles satisfazem as restrições operacionais e econômicas que o Accord impõe: contexto longo, chamadas de ferramentas confiáveis, cobertura poliglota e alcance ao hardware comum, em três famílias de modelos independentes. Novos modelos são monitorados e testados continuamente; a combinação muda quando algo melhor realmente atende aos cinco critérios.
Não se trata de perseguir pontuações em benchmarks ou seguir modismos. Trata-se de escolher modelos que realmente funcionem para agentes responsáveis e centrados em ferramentas em produção, e que levem o Accord a sério o suficiente para carregá-lo em cada chamada.