CIRIS Agent fonctionne sur un petit ensemble de modèles ouverts qui satisfont cinq critères non négociables. La gamme en production comprend actuellement Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 et Gemma 4, choisis pour différents rôles dans la charge de travail de l'agent.
Le cheval de trait du raisonnement. Il traite une très grande quantité de contexte en une seule fois, ce qui en fait la valeur par défaut pour les étapes de raisonnement plus profondes où garder la vue d'ensemble en tête est le plus important.
Fournisseurs : OpenRouter, Groq, Together, DeepInfra
Le compagnon rapide de la famille Llama 4. Plus petit et plus réactif que Maverick, avec un fort appel d'outils. Utilisé pour les niveaux interactifs où la latence compte et où le budget de contexte complet de Maverick n'est pas nécessaire.
Fournisseurs : OpenRouter, Groq
Profondeur multilingue et solide sortie structurée. Prend en charge les chemins de raisonnement non anglophones qu'exige le polyglot Accord ; une base de fournisseurs indépendante en dehors de la famille Llama ajoute de la redondance dans la chaîne de repli.
Fournisseurs : OpenRouter, DashScope, DeepInfra
Assez petit pour fonctionner sur du matériel courant. Utilisé là où la portée importe plus que la capacité brute (déploiements sur l'appareil, faible bande passante et réseau dégradé), et comme troisième famille de repli aux côtés de Llama et Qwen.
Fournisseurs : OpenRouter, Google
Doit prendre en charge nativement l'appel de fonctions et retourner du JSON valide sur 12 à 70 appels d'outils par interaction. CIRIS est un orchestrateur. Nous avons besoin de sémantiques d'outils stables, pas de simples bavardages.
CIRIS intègre l'Accord complet et le Guide dans chaque prompt. 128K est le minimum absolu ; 256K et plus est fortement préféré pour les longues conversations, les sorties d'outils et les pistes d'audit.
Objectif : moins de $1,00 par million de jetons combinés. Nous choisissons l'option la moins chère qui fonctionne, pas la moins chère dans les classements. Un modèle fiable qui ne brise jamais le JSON vaut mieux qu'un modèle moins cher qui échoue 1 fois sur 10.
Doit être disponible auprès d'au moins deux fournisseurs indépendants pour des chaînes de repli robustes. CIRIS se dégrade progressivement lors de pannes au lieu de tomber en panne complète.
Des réponses rapides maintiennent les humains dans la boucle pour les processus de revue éthique. Nous privilégions les fournisseurs à faible latence pour les niveaux interactifs tout en acceptant des backends plus lents pour les tâches en arrière-plan.
Llama 4 Maverick via le fournisseur à moindre coût pour les étapes de raisonnement profond qui nécessitent le budget de contexte complet.
Llama 4 Scout via le fournisseur optimisé pour la vitesse (Groq) pour un usage interactif, avec Maverick sur Groq comme alternative à contexte plus large.
Qwen 3.6 prend en charge les chemins de raisonnement non anglophones qu'exige le polyglot Accord, et fournit un repli non-Llama dans la chaîne.
Gemma 4 pour les déploiements sur l'appareil, à faible bande passante et sur réseau dégradé, là où atteindre l'utilisateur importe plus que la taille du modèle.
Maverick → Scout → Qwen 3.6 → Gemma 4 sur plusieurs fournisseurs, pour que l'agent se dégrade progressivement entre familles de modèles et frontières d'infrastructure au lieu de tomber en panne complète.
Maverick gère le raisonnement profond là où le budget de contexte complet est important. Scout assure le niveau interactif là où la latence domine. Qwen 3.6 atteint les chemins de raisonnement polyglotte que l'Accord exige dans 29 langues. Gemma 4 est l'option à faible encombrement qui met l'agent à la portée du matériel courant. La gamme est choisie pour que les différents niveaux de travail aillent au modèle qui convient vraiment, au lieu de forcer un seul modèle à tout faire.
Llama (Maverick + Scout), Qwen et Gemma proviennent de trois pipelines d'entraînement indépendants et de trois écosystèmes de fournisseurs indépendants. Cela compte pour les chaînes de repli : une CVE, un changement de licence ou une panne chez un fournisseur sur une famille ne met pas l'agent hors service. L'indépendance au niveau des modèles est la même propriété qui rend le composant IDMA robuste au niveau du raisonnement.
Les modèles qui ne peuvent pas satisfaire les cinq critères, le plus souvent des modèles qui semblent attractifs au prix du jeton mais échouent sur la sortie structurée et l'appel d'outils.
Mode d'échec représentatif (GPT-OSS-20B) : "tool choice is required, but the model did not call a tool"
Cette erreur est inacceptable pour un cadre qui dépend de 12 à 70 appels d'outils par interaction. Même un prix au jeton 3 à 10 fois moins cher ne vaut pas les échecs opérationnels.
CIRIS intègre l'Accord complet et le Guide complet dans chaque prompt. Pas un résumé. Pas une version condensée. L'intégralité du texte de gouvernance.
Cela garantit que les mises à jour de l'Accord ou du Guide affectent immédiatement le comportement de tous les agents, sans attendre de nouveaux ajustements fins ou des stratégies de compression de prompt.
Les agents CIRIS sont des orchestrateurs chargés d'outils qui jonglent avec :
Ce contexte combiné dépasse facilement 32K à 64K, surtout pour les sessions longues ou les investigations complexes. C'est pourquoi 128K est le minimum et 256K et plus est préféré.
En résumé :
CIRIS ne réduit pas ses valeurs ni ses procédures pour s'adapter au modèle. CIRIS choisit au contraire des modèles suffisamment grands pour porter l'intégralité du cadre éthique et opérationnel à chaque appel. Les modèles à fenêtre de contexte plus petite (même moins chers ou plus populaires) sont exclus de la production.
CIRIS utilise Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 et Gemma 4 en production parce que, ensemble, ils satisfont les contraintes opérationnelles et économiques que l'Accord impose : grand contexte, appel d'outils fiable, couverture polyglotte et portée jusqu'au matériel courant, à travers trois familles de modèles indépendantes. Les nouveaux modèles sont surveillés et testés en continu ; la gamme change quand quelque chose de meilleur satisfait réellement les cinq critères.
Il ne s'agit pas de courir après les scores dans les classements ou de suivre les cycles d'engouement. Il s'agit de choisir des modèles qui fonctionnent vraiment pour des agents responsables et centrés sur les outils en production, et qui prennent l'Accord assez au sérieux pour le porter dans chaque appel.