Какие LLM мы используем и почему

CIRIS Agent работает на небольшом наборе открытых моделей, соответствующих пяти обязательным критериям. Текущий производственный состав: Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 и Gemma 4, выбранные для разных задач в рабочей нагрузке агента.

Llama 4 Maverick

Основная рабочая лошадка для рассуждений. Она удерживает очень большой объём контекста одновременно, поэтому используется по умолчанию для более глубоких шагов рассуждений, где важнее всего видеть полную картину.

Провайдеры: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Быстрый компаньон в семействе Llama 4. Меньше и быстрее Maverick, с надёжным вызовом инструментов. Применяется для интерактивных уровней, где важна задержка, а полный бюджет контекста Maverick не требуется.

Провайдеры: OpenRouter, Groq

Qwen 3.6

Многоязычная глубина и надёжный структурированный вывод. Берёт на себя немало в нелатинских путях рассуждений, которые требует многоязычный Accord; независимая база провайдеров вне семейства Llama добавляет резервирование в цепочке отказоустойчивости.

Провайдеры: OpenRouter, DashScope, DeepInfra

Gemma 4

Достаточно мала, чтобы работать на обычном оборудовании. Используется там, где охват важнее сырой мощности (развёртывание на устройствах, с низкой пропускной способностью и нестабильной сетью), а также как запасной вариант третьего семейства наряду с Llama и Qwen.

Провайдеры: OpenRouter, Google

Наши критерии выбора моделей

Пять обязательных требований для CIRIS Agent

1. Структурированные выходные данные и вызов инструментов

Модель должна нативно поддерживать вызов функций и возвращать корректный JSON при 12–70 вызовах инструментов за взаимодействие. CIRIS является оркестратором. Нам нужна стабильная семантика инструментов, а не болтливый чат.

2. Контекстное окно: минимум 128K

CIRIS встраивает полный Accord и Руководство в каждый промпт. 128K — абсолютный минимум; 256K+ настоятельно предпочтительны для длинных диалогов, выходных данных инструментов и журналов аудита.

3. Экономическая эффективность

Цель: <$1.00 за 1M токенов суммарно. Мы выбираем самый дешёвый рабочий вариант, а не самый дешёвый победитель в тестах. Надёжная модель, которая никогда не ломает JSON, лучше более дешёвой модели, которая ошибается в 1 из 10 вызовов.

4. Доступность у нескольких провайдеров

Модель должна быть доступна у как минимум двух независимых провайдеров для надёжных резервных цепочек. CIRIS деградирует плавно при сбоях вместо жёсткого отказа.

5. Задержка и пользовательский опыт

Быстрые ответы позволяют людям комфортно участвовать в рабочих процессах этической проверки в реальном времени. Мы отдаём приоритет провайдерам с низкой задержкой для интерактивных уровней, принимая более медленные бэкенды для фоновых задач.

Производственное развёртывание

Уровень по умолчанию

Llama 4 Maverick через оптимизированного по стоимости провайдера для шагов глубокого рассуждения, требующих полного бюджета контекста.

Быстрый уровень

Llama 4 Scout через провайдера, оптимизированного по скорости (Groq), для интерактивного использования, с Maverick на Groq в качестве альтернативы с более широким контекстом.

Многоязычный уровень

Qwen 3.6 берёт на себя немало в нелатинских путях рассуждений, которые требует многоязычный Accord, и обеспечивает запасной вариант вне семейства Llama в цепочке.

Граничный уровень

Gemma 4 для развёртывания на устройствах, с низкой пропускной способностью и нестабильной сетью, где охват до пользователя важнее размера модели.

Резервная цепочка

Maverick → Scout → Qwen 3.6 → Gemma 4 у нескольких провайдеров, чтобы агент деградировал плавно через семейства моделей и границы инфраструктуры вместо жёсткого отказа.

Почему именно этот состав

Разные роли, а не взаимозаменяемые части

Maverick берёт на себя глубокое рассуждение, где важен полный бюджет контекста. Scout обеспечивает интерактивный уровень, где доминирует задержка. Qwen 3.6 охватывает многоязычные пути рассуждений, которые Accord требует для 29 языков. Gemma 4 — малогабаритный вариант, делающий агента доступным на обычном оборудовании. Состав выбран так, чтобы разные уровни работы шли к подходящей модели, а не одна модель делала всё.

Три независимых семейства моделей

Llama (Maverick + Scout), Qwen и Gemma относятся к трём независимым конвейерам обучения и трём независимым экосистемам провайдеров. Это важно для резервных цепочек: CVE, изменение лицензии или сбой провайдера в одном семействе не выводят агента из строя. Независимость на уровне моделей — та же характеристика, что делает компонент IDMA надёжным на уровне рассуждений.

Что остаётся за пределами состава

Модели, не соответствующие пяти критериям, — чаще всего те, что выглядят привлекательно по цене токенов, но не справляются со структурированным выводом и вызовом инструментов.

Показательный режим отказа (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Эта ошибка недопустима для фреймворка, зависящего от 12–70 вызовов инструментов за взаимодействие. Даже цена токенов в 3–10 раз дешевле не стоит операционных сбоев.

Почему контекст 128K+ обязателен

Постоянно активные Accord и Руководство

CIRIS встраивает полный Accord и полное Всестороннее Руководство в каждый промпт. Не краткое изложение. Не сокращённую версию. Весь управляющий текст целиком.

Это гарантирует, что обновления Accord или Руководства немедленно влияют на поведение всех агентов без ожидания новых дообучений или стратегий сжатия промптов.

Полное этическое и процедурное состояние

CIRIS Agents — это ориентированные на инструменты оркестраторы, одновременно управляющие:

Многошаговыми рабочими процессами
Состоянием системы и выходными данными инструментов
Сообщениями пользователей и историей диалога
Полным Accord и Руководством

Совокупный контекст легко превышает 32K–64K, особенно для длительных сессий или сложных расследований. Именно поэтому 128K — минимум, а 256K+ — предпочтительный вариант.

Итог:

CIRIS не обрезает свои ценности или процедуры, чтобы уместиться в модель. Вместо этого CIRIS выбирает модели, достаточно большие, чтобы нести весь этический и операционный фреймворк при каждом вызове. Модели с меньшими контекстными окнами (даже если они дешевле или популярнее) исключены из производственного использования.

Как это поддерживает CIRIS Accord

Выбор моделей как этическая инфраструктура

Прозрачность и проверяемость

Длинный контекст сохраняет трассировки рассуждений, решения и вызовы инструментов доступными для проверки людьми
Стабильный JSON и структурированные выходные данные делают каждый вызов инструмента поддающимся аудиту
Полные управляющие артефакты в каждом вызове обеспечивают прослеживаемость решений до принципов

Устойчивость и управление

Развёртывание у нескольких провайдеров исключает единые точки отказа в критической этической инфраструктуре
Выбор «достаточно хорошего и надёжного» вместо «эффектного, но ненадёжного» ставит безопасность и непрерывность на первое место
Плавная деградация при сбоях поддерживает доступность сервиса

Надзор людей

Быстрые уровни позволяют людям комфортно участвовать в этической проверке в реальном времени
Более дешёвые уровни обеспечивают широкий фоновый анализ без запретительных затрат
Сбалансированный подход поддерживает как повседневное использование, так и периодические аудиты управления

Итог

CIRIS использует Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 и Gemma 4 в производстве, потому что вместе они удовлетворяют операционным и экономическим ограничениям, которые накладывает Accord: длинный контекст, надёжный вызов инструментов, многоязычный охват и доступность для обычного оборудования — в трёх независимых семействах моделей. Новые модели непрерывно отслеживаются и тестируются; состав меняется, когда что-то лучшее действительно соответствует пяти критериям.

Дело не в погоне за результатами тестов или следовании хайп-циклам. Речь идёт о выборе моделей, которые реально работают для подотчётных, ориентированных на инструменты агентов в производстве и достаточно серьёзно относятся к Accord, чтобы нести его в каждом вызове.