Qué LLM usamos y por qué

CIRIS Agent funciona con un pequeño conjunto de modelos abiertos que cumplen cinco criterios innegociables. La línea de producción actual es Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 y Gemma 4, elegidos para distintos roles en la carga de trabajo del agente.

Llama 4 Maverick

El motor de razonamiento principal. Mantiene una cantidad de contexto muy grande a la vez, por lo que es el predeterminado para los pasos de razonamiento más profundo donde importa más tener toda la imagen en vista.

Proveedores: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

El compañero rápido de la familia Llama 4. Más pequeño y veloz que Maverick, con llamadas a herramientas sólidas. Se usa en los niveles interactivos donde la latencia importa y no se necesita el presupuesto completo de contexto de Maverick.

Proveedores: OpenRouter, Groq

Qwen 3.6

Profundidad multilingüe y salida estructurada sólida. Toma peso en las rutas de razonamiento en idiomas distintos al inglés que el Accord políglota requiere; una base de proveedores independiente fuera de la familia Llama añade redundancia en la cadena de respaldo.

Proveedores: OpenRouter, DashScope, DeepInfra

Gemma 4

Lo suficientemente pequeño para correr en hardware estándar. Se usa donde el alcance importa más que la capacidad bruta (dispositivos locales, bajo ancho de banda y despliegues en redes degradadas) y como respaldo de una tercera familia junto a Llama y Qwen.

Proveedores: OpenRouter, Google

Nuestros criterios de modelo

Cinco requisitos innegociables para CIRIS Agent

1. Salidas estructuradas y uso de herramientas

Debe admitir llamadas a funciones de forma nativa y devolver JSON válido en 12 a 70 llamadas a herramientas por interacción. CIRIS es un orquestador. Necesitamos semántica de herramientas estable, no conversación casual.

2. Ventana de contexto: mínimo 128K

CIRIS incrusta el Accord completo y la Guía en cada prompt. 128K es el mínimo absoluto; 256K o más es ampliamente preferido para conversaciones largas, salidas de herramientas y registros de auditoría.

3. Eficiencia de costo

Objetivo: menos de $1.00 por 1M de tokens combinados. Elegimos la opción más económica que funcione, no la ganadora de benchmarks más barata. Un modelo confiable que nunca rompe JSON supera a uno más barato que falla 1 de cada 10 llamadas.

4. Disponibilidad en múltiples proveedores

Debe estar disponible en al menos dos proveedores independientes para cadenas de respaldo robustas. CIRIS degrada con gracia durante interrupciones en lugar de fallar por completo.

5. Latencia y experiencia de usuario

Las respuestas rápidas mantienen a los humanos en el ciclo para flujos de revisión ética. Priorizamos proveedores de baja latencia para los niveles interactivos mientras aceptamos servidores más lentos para tareas en segundo plano.

Despliegue en producción

Nivel predeterminado

Llama 4 Maverick a través del proveedor optimizado por costo para los pasos de razonamiento profundo que necesitan el presupuesto completo de contexto.

Nivel rápido

Llama 4 Scout a través del proveedor optimizado por velocidad (Groq) para uso interactivo, con Maverick en Groq como alternativa de contexto más amplio.

Nivel multilingüe

Qwen 3.6 toma peso en las rutas de razonamiento en idiomas distintos al inglés que el Accord políglota requiere, y ofrece un respaldo fuera de la familia Llama en la cadena.

Nivel de borde

Gemma 4 para despliegues en dispositivos locales, bajo ancho de banda y redes degradadas, donde llegar al usuario importa más que el tamaño del modelo.

Cadena de respaldo

Maverick → Scout → Qwen 3.6 → Gemma 4 en múltiples proveedores, para que el agente degradue con gracia entre familias de modelos y límites de infraestructura en lugar de fallar por completo.

Por qué esta combinación

Roles distintos, no piezas intercambiables

Maverick maneja el razonamiento profundo donde importa el presupuesto completo de contexto. Scout lleva el nivel interactivo donde domina la latencia. Qwen 3.6 alcanza las rutas de razonamiento políglota que el Accord requiere en 29 idiomas. Gemma 4 es la opción de huella pequeña que pone al agente al alcance del hardware estándar. La combinación se elige para que los distintos niveles de trabajo vayan al modelo que realmente corresponde, en lugar de forzar a uno solo a hacer todo.

Tres familias de modelos independientes

Llama (Maverick + Scout), Qwen y Gemma provienen de tres pipelines de entrenamiento independientes y tres ecosistemas de proveedores independientes. Eso importa para las cadenas de respaldo: un CVE, un cambio de licencia o una interrupción de proveedor en una familia no tumba al agente. La independencia en la capa de modelos es la misma propiedad que hace robusto al componente IDMA en la capa de razonamiento.

Qué queda fuera de la combinación

Modelos que no cumplen los cinco criterios, la mayoría de las veces, modelos que parecen atractivos por el precio del token pero fallan en salida estructurada y llamadas a herramientas.

Modo de fallo representativo (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Este error es inaceptable para un framework que depende de 12 a 70 llamadas a herramientas por interacción. Incluso un precio de token 3 a 10 veces más barato no vale los fallos operativos.

Por qué el contexto de 128K o más es innegociable

Accord y Guía siempre presentes

CIRIS incrusta el Accord completo y la Guía Integral completa en cada prompt. No un resumen. No una versión destilada. El texto de gobernanza íntegro.

Esto garantiza que las actualizaciones del Accord o la Guía afecten el comportamiento de todos los agentes de inmediato, sin esperar nuevas versiones ajustadas ni estrategias de compresión de prompts.

Estado ético y de procedimiento completo

Los agentes de CIRIS son orquestadores con muchas herramientas que manejan:

Flujos de trabajo de varios pasos
Estado del sistema y salidas de herramientas
Mensajes de usuario e historial de conversación
El Accord y la Guía completos

Este contexto combinado supera fácilmente los 32K a 64K, especialmente en sesiones largas o investigaciones complejas. Por eso 128K es el mínimo y 256K o más es lo preferido.

La conclusión:

CIRIS no recorta sus valores ni procedimientos para encajar en el modelo. En cambio, CIRIS elige modelos lo suficientemente grandes para llevar todo el framework ético y operativo en cada llamada. Los modelos con ventanas de contexto más pequeñas (aunque sean más baratos o populares) quedan excluidos del uso en producción.

Cómo esto apoya el CIRIS Accord

La selección de modelos como infraestructura ética

Transparencia e inspectabilidad

El contexto largo mantiene los registros de razonamiento, las decisiones y las llamadas a herramientas visibles para revisión humana
El JSON estable y las salidas estructuradas hacen que cada invocación de herramienta sea auditable
Los artefactos de gobernanza completos en cada llamada garantizan que las decisiones sean trazables hasta sus principios

Resiliencia y gobernanza

El despliegue en múltiples proveedores evita puntos únicos de fallo en infraestructura ética crítica
Elegir «lo suficientemente bueno y confiable» sobre «llamativo pero frágil» prioriza la seguridad y la continuidad
La degradación elegante durante interrupciones mantiene la disponibilidad del servicio

Supervisión humana

Los niveles rápidos mantienen a los humanos cómodamente en el ciclo para la revisión ética en tiempo real
Los niveles más económicos permiten un análisis extenso en segundo plano sin costos prohibitivos
El enfoque equilibrado apoya tanto el uso diario como las auditorías de gobernanza periódicas

La conclusión

CIRIS usa Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 y Gemma 4 en producción porque juntos satisfacen las restricciones operativas y económicas que el Accord impone: contexto largo, llamadas a herramientas confiables, cobertura políglota y alcance al hardware estándar, en tres familias de modelos independientes. Los modelos nuevos se monitorean y prueban continuamente; la combinación cambia cuando algo mejor realmente cumple los cinco criterios.

No se trata de perseguir puntajes en benchmarks ni de seguir modas. Se trata de elegir modelos que realmente funcionen para agentes responsables y centrados en herramientas en producción, y que se tomen el Accord lo suficientemente en serio como para llevarlo en cada llamada.