Quais LLMs usamos e por quê

O CIRIS Agent funciona com um pequeno conjunto de modelos abertos que atendem a cinco critérios inegociáveis. A linha de produção atual é Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4, escolhidos para papéis distintos na carga de trabalho do agente.

Llama 4 Maverick

O motor de raciocínio principal. Mantém uma quantidade muito grande de contexto de uma vez, por isso é o padrão para as etapas de raciocínio mais profundo, onde ter o quadro completo em vista é o que mais importa.

Provedores: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

O companheiro ágil da família Llama 4. Menor e mais rápido que o Maverick, com chamadas de ferramentas sólidas. Usado nos níveis interativos onde a latência importa e o orçamento completo de contexto do Maverick não é necessário.

Provedores: OpenRouter, Groq

Qwen 3.6

Profundidade multilíngue e saída estruturada robusta. Assume peso nas rotas de raciocínio em idiomas fora do inglês que o Accord poliglota exige; uma base de provedores independente fora da família Llama adiciona redundância na cadeia de fallback.

Provedores: OpenRouter, DashScope, DeepInfra

Gemma 4

Pequeno o suficiente para rodar em hardware comum. Usado onde o alcance importa mais do que a capacidade bruta (implantações no dispositivo, baixa largura de banda e redes degradadas) e como fallback de uma terceira família ao lado do Llama e do Qwen.

Provedores: OpenRouter, Google

Nossos critérios de modelo

Cinco requisitos inegociáveis para o CIRIS Agent

1. Saídas estruturadas e uso de ferramentas

Deve suportar nativamente chamadas de função e retornar JSON válido em 12 a 70 chamadas de ferramentas por interação. CIRIS é um orquestrador. Precisamos de semântica de ferramentas estável, não de conversa casual.

2. Janela de contexto: mínimo de 128K

CIRIS incorpora o Accord completo e o Guia em cada prompt. 128K é o mínimo absoluto; 256K ou mais é fortemente preferido para conversas longas, saídas de ferramentas e trilhas de auditoria.

3. Eficiência de custo

Meta: menos de $1,00 por 1M de tokens combinados. Escolhemos a opção mais barata que funciona, não a vencedora de benchmark mais barata. Um modelo confiável que nunca quebra o JSON supera um modelo mais barato que falha em 1 a cada 10 chamadas.

4. Disponibilidade em múltiplos provedores

Deve estar disponível em pelo menos dois provedores independentes para cadeias de fallback robustas. O CIRIS degrada de forma elegante durante interrupções em vez de falhar por completo.

5. Latência e experiência do usuário

Respostas rápidas mantêm os humanos no ciclo para fluxos de revisão ética. Priorizamos provedores de baixa latência para os níveis interativos e aceitamos backends mais lentos para tarefas em segundo plano.

Implantação em produção

Nível padrão

Llama 4 Maverick via provedor otimizado por custo para as etapas de raciocínio profundo que precisam do orçamento completo de contexto.

Nível rápido

Llama 4 Scout via provedor otimizado por velocidade (Groq) para uso interativo, com Maverick no Groq como alternativa de contexto mais amplo.

Nível multilíngue

Qwen 3.6 assume peso nas rotas de raciocínio em idiomas fora do inglês que o Accord poliglota exige e oferece um fallback fora da família Llama na cadeia.

Nível de borda

Gemma 4 para implantações no dispositivo, baixa largura de banda e redes degradadas, onde chegar ao usuário importa mais do que o tamanho do modelo.

Cadeia de fallback

Maverick → Scout → Qwen 3.6 → Gemma 4 em múltiplos provedores, para que o agente degrade de forma elegante entre famílias de modelos e fronteiras de infraestrutura em vez de falhar por completo.

Por que essa combinação

Papéis distintos, não peças intercambiáveis

Maverick lida com o raciocínio profundo onde o orçamento completo de contexto importa. Scout carrega o nível interativo onde a latência domina. Qwen 3.6 alcança as rotas de raciocínio poliglota que o Accord exige em 29 idiomas. Gemma 4 é a opção de pegada pequena que coloca o agente ao alcance do hardware comum. A combinação é escolhida para que diferentes níveis de trabalho vão para o modelo que realmente se encaixa, em vez de forçar um único modelo a fazer tudo.

Três famílias de modelos independentes

Llama (Maverick + Scout), Qwen e Gemma vêm de três pipelines de treinamento independentes e três ecossistemas de provedores independentes. Isso importa para as cadeias de fallback: um CVE, uma mudança de licença ou uma interrupção de provedor em uma família não derruba o agente. A independência na camada de modelos é a mesma propriedade que torna o componente IDMA robusto na camada de raciocínio.

O que fica fora da combinação

Modelos que não atendem aos cinco critérios, na maioria das vezes, modelos que parecem atrativos pelo preço do token mas falham em saída estruturada e chamadas de ferramentas.

Modo de falha representativo (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Esse erro é inaceitável para um framework que depende de 12 a 70 chamadas de ferramentas por interação. Mesmo um preço de token 3 a 10 vezes mais barato não vale as falhas operacionais.

Por que contexto de 128K ou mais é inegociável

Accord e Guia sempre presentes

CIRIS incorpora o Accord completo e o Guia Abrangente completo em cada prompt. Não um resumo. Não uma versão condensada. O texto de governança inteiro.

Isso garante que atualizações no Accord ou no Guia afetem imediatamente o comportamento de todos os agentes, sem esperar novos ajustes finos ou estratégias de compressão de prompt.

Estado ético e de procedimento completo

Os agentes de CIRIS são orquestradores repletos de ferramentas que gerenciam:

Fluxos de trabalho de múltiplos passos
Estado do sistema e saídas de ferramentas
Mensagens do usuário e histórico de conversa
O Accord e o Guia completos

Esse contexto combinado ultrapassa facilmente 32K a 64K, especialmente em sessões longas ou investigações complexas. Por isso 128K é o mínimo e 256K ou mais é o preferido.

O ponto final:

CIRIS não corta seus valores ou procedimentos para caber no modelo. Em vez disso, CIRIS escolhe modelos grandes o suficiente para carregar todo o framework ético e operacional em cada chamada. Modelos com janelas de contexto menores (mesmo que mais baratos ou mais populares) são excluídos do uso em produção.

Como isso apoia o CIRIS Accord

A seleção de modelos como infraestrutura ética

Transparência e inspecionabilidade

O contexto longo mantém rastros de raciocínio, decisões e chamadas de ferramentas visíveis para revisão humana
JSON estável e saídas estruturadas tornam cada invocação de ferramenta auditável
Artefatos de governança completos em cada chamada garantem que as decisões sejam rastreáveis até os princípios

Resiliência e governança

Implantação em múltiplos provedores evita pontos únicos de falha em infraestrutura ética crítica
Escolher "bom o suficiente e confiável" em vez de "chamativo mas frágil" prioriza a segurança e a continuidade
A degradação elegante durante interrupções mantém a disponibilidade do serviço

Supervisão humana

Níveis rápidos mantêm os humanos confortavelmente no ciclo para revisão ética em tempo real
Níveis mais econômicos permitem análise extensiva em segundo plano sem custos proibitivos
A abordagem equilibrada apoia tanto o uso diário quanto as auditorias periódicas de governança

O ponto final

CIRIS usa Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 e Gemma 4 em produção porque, juntos, eles satisfazem as restrições operacionais e econômicas que o Accord impõe: contexto longo, chamadas de ferramentas confiáveis, cobertura poliglota e alcance ao hardware comum, em três famílias de modelos independentes. Novos modelos são monitorados e testados continuamente; a combinação muda quando algo melhor realmente atende aos cinco critérios.

Não se trata de perseguir pontuações em benchmarks ou seguir modismos. Trata-se de escolher modelos que realmente funcionem para agentes responsáveis e centrados em ferramentas em produção, e que levem o Accord a sério o suficiente para carregá-lo em cada chamada.