Quels LLM nous utilisons et pourquoi

CIRIS Agent fonctionne sur un petit ensemble de modèles ouverts qui satisfont cinq critères non négociables. La gamme en production comprend actuellement Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 et Gemma 4, choisis pour différents rôles dans la charge de travail de l'agent.

Llama 4 Maverick

Le cheval de trait du raisonnement. Il traite une très grande quantité de contexte en une seule fois, ce qui en fait la valeur par défaut pour les étapes de raisonnement plus profondes où garder la vue d'ensemble en tête est le plus important.

Fournisseurs : OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Le compagnon rapide de la famille Llama 4. Plus petit et plus réactif que Maverick, avec un fort appel d'outils. Utilisé pour les niveaux interactifs où la latence compte et où le budget de contexte complet de Maverick n'est pas nécessaire.

Fournisseurs : OpenRouter, Groq

Qwen 3.6

Profondeur multilingue et solide sortie structurée. Prend en charge les chemins de raisonnement non anglophones qu'exige le polyglot Accord ; une base de fournisseurs indépendante en dehors de la famille Llama ajoute de la redondance dans la chaîne de repli.

Fournisseurs : OpenRouter, DashScope, DeepInfra

Gemma 4

Assez petit pour fonctionner sur du matériel courant. Utilisé là où la portée importe plus que la capacité brute (déploiements sur l'appareil, faible bande passante et réseau dégradé), et comme troisième famille de repli aux côtés de Llama et Qwen.

Fournisseurs : OpenRouter, Google

Nos critères de sélection des modèles

Cinq exigences non négociables pour CIRIS Agent

1. Sorties structurées et appel d'outils

Doit prendre en charge nativement l'appel de fonctions et retourner du JSON valide sur 12 à 70 appels d'outils par interaction. CIRIS est un orchestrateur. Nous avons besoin de sémantiques d'outils stables, pas de simples bavardages.

2. Fenêtre de contexte : 128K minimum

CIRIS intègre l'Accord complet et le Guide dans chaque prompt. 128K est le minimum absolu ; 256K et plus est fortement préféré pour les longues conversations, les sorties d'outils et les pistes d'audit.

3. Efficacité des coûts

Objectif : moins de $1,00 par million de jetons combinés. Nous choisissons l'option la moins chère qui fonctionne, pas la moins chère dans les classements. Un modèle fiable qui ne brise jamais le JSON vaut mieux qu'un modèle moins cher qui échoue 1 fois sur 10.

4. Disponibilité multi-fournisseurs

Doit être disponible auprès d'au moins deux fournisseurs indépendants pour des chaînes de repli robustes. CIRIS se dégrade progressivement lors de pannes au lieu de tomber en panne complète.

5. Latence et expérience utilisateur

Des réponses rapides maintiennent les humains dans la boucle pour les processus de revue éthique. Nous privilégions les fournisseurs à faible latence pour les niveaux interactifs tout en acceptant des backends plus lents pour les tâches en arrière-plan.

Déploiement en production

Niveau par défaut

Llama 4 Maverick via le fournisseur à moindre coût pour les étapes de raisonnement profond qui nécessitent le budget de contexte complet.

Niveau rapide

Llama 4 Scout via le fournisseur optimisé pour la vitesse (Groq) pour un usage interactif, avec Maverick sur Groq comme alternative à contexte plus large.

Niveau multilingue

Qwen 3.6 prend en charge les chemins de raisonnement non anglophones qu'exige le polyglot Accord, et fournit un repli non-Llama dans la chaîne.

Niveau edge

Gemma 4 pour les déploiements sur l'appareil, à faible bande passante et sur réseau dégradé, là où atteindre l'utilisateur importe plus que la taille du modèle.

Chaîne de repli

Maverick → Scout → Qwen 3.6 → Gemma 4 sur plusieurs fournisseurs, pour que l'agent se dégrade progressivement entre familles de modèles et frontières d'infrastructure au lieu de tomber en panne complète.

Pourquoi cette gamme

Des rôles différents, pas des pièces interchangeables

Maverick gère le raisonnement profond là où le budget de contexte complet est important. Scout assure le niveau interactif là où la latence domine. Qwen 3.6 atteint les chemins de raisonnement polyglotte que l'Accord exige dans 29 langues. Gemma 4 est l'option à faible encombrement qui met l'agent à la portée du matériel courant. La gamme est choisie pour que les différents niveaux de travail aillent au modèle qui convient vraiment, au lieu de forcer un seul modèle à tout faire.

Trois familles de modèles indépendantes

Llama (Maverick + Scout), Qwen et Gemma proviennent de trois pipelines d'entraînement indépendants et de trois écosystèmes de fournisseurs indépendants. Cela compte pour les chaînes de repli : une CVE, un changement de licence ou une panne chez un fournisseur sur une famille ne met pas l'agent hors service. L'indépendance au niveau des modèles est la même propriété qui rend le composant IDMA robuste au niveau du raisonnement.

Ce qui reste hors de la gamme

Les modèles qui ne peuvent pas satisfaire les cinq critères, le plus souvent des modèles qui semblent attractifs au prix du jeton mais échouent sur la sortie structurée et l'appel d'outils.

Mode d'échec représentatif (GPT-OSS-20B) : "tool choice is required, but the model did not call a tool"

Cette erreur est inacceptable pour un cadre qui dépend de 12 à 70 appels d'outils par interaction. Même un prix au jeton 3 à 10 fois moins cher ne vaut pas les échecs opérationnels.

Pourquoi un contexte de 128K et plus est non négociable

Accord et Guide toujours présents

CIRIS intègre l'Accord complet et le Guide complet dans chaque prompt. Pas un résumé. Pas une version condensée. L'intégralité du texte de gouvernance.

Cela garantit que les mises à jour de l'Accord ou du Guide affectent immédiatement le comportement de tous les agents, sans attendre de nouveaux ajustements fins ou des stratégies de compression de prompt.

État éthique et procédural complet

Les agents CIRIS sont des orchestrateurs chargés d'outils qui jonglent avec :

Des flux de travail en plusieurs étapes
L'état du système et les sorties des outils
Les messages des utilisateurs et l'historique de la conversation
L'Accord et le Guide complets

Ce contexte combiné dépasse facilement 32K à 64K, surtout pour les sessions longues ou les investigations complexes. C'est pourquoi 128K est le minimum et 256K et plus est préféré.

En résumé :

CIRIS ne réduit pas ses valeurs ni ses procédures pour s'adapter au modèle. CIRIS choisit au contraire des modèles suffisamment grands pour porter l'intégralité du cadre éthique et opérationnel à chaque appel. Les modèles à fenêtre de contexte plus petite (même moins chers ou plus populaires) sont exclus de la production.

Comment cela soutient l'Accord CIRIS

La sélection des modèles comme infrastructure éthique

Transparence et inspectabilité

Le grand contexte garde les traces de raisonnement, les décisions et les appels d'outils visibles pour la revue humaine
Les sorties JSON stables et structurées rendent chaque invocation d'outil auditable
La présence complète des documents de gouvernance à chaque appel garantit que les décisions sont traçables jusqu'aux principes

Résilience et gouvernance

Le déploiement multi-fournisseurs évite les points de défaillance uniques dans l'infrastructure éthique critique
Choisir "suffisamment bon et fiable" plutôt que "brillant mais fragile" donne la priorité à la sécurité et à la continuité
La dégradation progressive lors des pannes maintient la disponibilité du service

Supervision humaine

Les niveaux rapides maintiennent les humains confortablement dans la boucle pour la revue éthique en temps réel
Les niveaux moins coûteux permettent une analyse approfondie en arrière-plan sans coûts prohibitifs
L'approche équilibrée prend en charge à la fois l'usage quotidien et les audits de gouvernance périodiques

En résumé

CIRIS utilise Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 et Gemma 4 en production parce que, ensemble, ils satisfont les contraintes opérationnelles et économiques que l'Accord impose : grand contexte, appel d'outils fiable, couverture polyglotte et portée jusqu'au matériel courant, à travers trois familles de modèles indépendantes. Les nouveaux modèles sont surveillés et testés en continu ; la gamme change quand quelque chose de meilleur satisfait réellement les cinq critères.

Il ne s'agit pas de courir après les scores dans les classements ou de suivre les cycles d'engouement. Il s'agit de choisir des modèles qui fonctionnent vraiment pour des agents responsables et centrés sur les outils en production, et qui prennent l'Accord assez au sérieux pour le porter dans chaque appel.