CIRIS Agent funciona con un pequeño conjunto de modelos abiertos que cumplen cinco criterios innegociables. La línea de producción actual es Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 y Gemma 4, elegidos para distintos roles en la carga de trabajo del agente.
El motor de razonamiento principal. Mantiene una cantidad de contexto muy grande a la vez, por lo que es el predeterminado para los pasos de razonamiento más profundo donde importa más tener toda la imagen en vista.
Proveedores: OpenRouter, Groq, Together, DeepInfra
El compañero rápido de la familia Llama 4. Más pequeño y veloz que Maverick, con llamadas a herramientas sólidas. Se usa en los niveles interactivos donde la latencia importa y no se necesita el presupuesto completo de contexto de Maverick.
Proveedores: OpenRouter, Groq
Profundidad multilingüe y salida estructurada sólida. Toma peso en las rutas de razonamiento en idiomas distintos al inglés que el Accord políglota requiere; una base de proveedores independiente fuera de la familia Llama añade redundancia en la cadena de respaldo.
Proveedores: OpenRouter, DashScope, DeepInfra
Lo suficientemente pequeño para correr en hardware estándar. Se usa donde el alcance importa más que la capacidad bruta (dispositivos locales, bajo ancho de banda y despliegues en redes degradadas) y como respaldo de una tercera familia junto a Llama y Qwen.
Proveedores: OpenRouter, Google
Debe admitir llamadas a funciones de forma nativa y devolver JSON válido en 12 a 70 llamadas a herramientas por interacción. CIRIS es un orquestador. Necesitamos semántica de herramientas estable, no conversación casual.
CIRIS incrusta el Accord completo y la Guía en cada prompt. 128K es el mínimo absoluto; 256K o más es ampliamente preferido para conversaciones largas, salidas de herramientas y registros de auditoría.
Objetivo: menos de $1.00 por 1M de tokens combinados. Elegimos la opción más económica que funcione, no la ganadora de benchmarks más barata. Un modelo confiable que nunca rompe JSON supera a uno más barato que falla 1 de cada 10 llamadas.
Debe estar disponible en al menos dos proveedores independientes para cadenas de respaldo robustas. CIRIS degrada con gracia durante interrupciones en lugar de fallar por completo.
Las respuestas rápidas mantienen a los humanos en el ciclo para flujos de revisión ética. Priorizamos proveedores de baja latencia para los niveles interactivos mientras aceptamos servidores más lentos para tareas en segundo plano.
Llama 4 Maverick a través del proveedor optimizado por costo para los pasos de razonamiento profundo que necesitan el presupuesto completo de contexto.
Llama 4 Scout a través del proveedor optimizado por velocidad (Groq) para uso interactivo, con Maverick en Groq como alternativa de contexto más amplio.
Qwen 3.6 toma peso en las rutas de razonamiento en idiomas distintos al inglés que el Accord políglota requiere, y ofrece un respaldo fuera de la familia Llama en la cadena.
Gemma 4 para despliegues en dispositivos locales, bajo ancho de banda y redes degradadas, donde llegar al usuario importa más que el tamaño del modelo.
Maverick → Scout → Qwen 3.6 → Gemma 4 en múltiples proveedores, para que el agente degradue con gracia entre familias de modelos y límites de infraestructura en lugar de fallar por completo.
Maverick maneja el razonamiento profundo donde importa el presupuesto completo de contexto. Scout lleva el nivel interactivo donde domina la latencia. Qwen 3.6 alcanza las rutas de razonamiento políglota que el Accord requiere en 29 idiomas. Gemma 4 es la opción de huella pequeña que pone al agente al alcance del hardware estándar. La combinación se elige para que los distintos niveles de trabajo vayan al modelo que realmente corresponde, en lugar de forzar a uno solo a hacer todo.
Llama (Maverick + Scout), Qwen y Gemma provienen de tres pipelines de entrenamiento independientes y tres ecosistemas de proveedores independientes. Eso importa para las cadenas de respaldo: un CVE, un cambio de licencia o una interrupción de proveedor en una familia no tumba al agente. La independencia en la capa de modelos es la misma propiedad que hace robusto al componente IDMA en la capa de razonamiento.
Modelos que no cumplen los cinco criterios, la mayoría de las veces, modelos que parecen atractivos por el precio del token pero fallan en salida estructurada y llamadas a herramientas.
Modo de fallo representativo (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Este error es inaceptable para un framework que depende de 12 a 70 llamadas a herramientas por interacción. Incluso un precio de token 3 a 10 veces más barato no vale los fallos operativos.
CIRIS incrusta el Accord completo y la Guía Integral completa en cada prompt. No un resumen. No una versión destilada. El texto de gobernanza íntegro.
Esto garantiza que las actualizaciones del Accord o la Guía afecten el comportamiento de todos los agentes de inmediato, sin esperar nuevas versiones ajustadas ni estrategias de compresión de prompts.
Los agentes de CIRIS son orquestadores con muchas herramientas que manejan:
Este contexto combinado supera fácilmente los 32K a 64K, especialmente en sesiones largas o investigaciones complejas. Por eso 128K es el mínimo y 256K o más es lo preferido.
La conclusión:
CIRIS no recorta sus valores ni procedimientos para encajar en el modelo. En cambio, CIRIS elige modelos lo suficientemente grandes para llevar todo el framework ético y operativo en cada llamada. Los modelos con ventanas de contexto más pequeñas (aunque sean más baratos o populares) quedan excluidos del uso en producción.
CIRIS usa Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 y Gemma 4 en producción porque juntos satisfacen las restricciones operativas y económicas que el Accord impone: contexto largo, llamadas a herramientas confiables, cobertura políglota y alcance al hardware estándar, en tres familias de modelos independientes. Los modelos nuevos se monitorean y prueban continuamente; la combinación cambia cuando algo mejor realmente cumple los cinco criterios.
No se trata de perseguir puntajes en benchmarks ni de seguir modas. Se trata de elegir modelos que realmente funcionen para agentes responsables y centrados en herramientas en producción, y que se tomen el Accord lo suficientemente en serio como para llevarlo en cada llamada.