CIRIS Agent работает на небольшом наборе открытых моделей, соответствующих пяти обязательным критериям. Текущий производственный состав: Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 и Gemma 4, выбранные для разных задач в рабочей нагрузке агента.
Основная рабочая лошадка для рассуждений. Она удерживает очень большой объём контекста одновременно, поэтому используется по умолчанию для более глубоких шагов рассуждений, где важнее всего видеть полную картину.
Провайдеры: OpenRouter, Groq, Together, DeepInfra
Быстрый компаньон в семействе Llama 4. Меньше и быстрее Maverick, с надёжным вызовом инструментов. Применяется для интерактивных уровней, где важна задержка, а полный бюджет контекста Maverick не требуется.
Провайдеры: OpenRouter, Groq
Многоязычная глубина и надёжный структурированный вывод. Берёт на себя немало в нелатинских путях рассуждений, которые требует многоязычный Accord; независимая база провайдеров вне семейства Llama добавляет резервирование в цепочке отказоустойчивости.
Провайдеры: OpenRouter, DashScope, DeepInfra
Достаточно мала, чтобы работать на обычном оборудовании. Используется там, где охват важнее сырой мощности (развёртывание на устройствах, с низкой пропускной способностью и нестабильной сетью), а также как запасной вариант третьего семейства наряду с Llama и Qwen.
Провайдеры: OpenRouter, Google
Модель должна нативно поддерживать вызов функций и возвращать корректный JSON при 12–70 вызовах инструментов за взаимодействие. CIRIS является оркестратором. Нам нужна стабильная семантика инструментов, а не болтливый чат.
CIRIS встраивает полный Accord и Руководство в каждый промпт. 128K — абсолютный минимум; 256K+ настоятельно предпочтительны для длинных диалогов, выходных данных инструментов и журналов аудита.
Цель: <$1.00 за 1M токенов суммарно. Мы выбираем самый дешёвый рабочий вариант, а не самый дешёвый победитель в тестах. Надёжная модель, которая никогда не ломает JSON, лучше более дешёвой модели, которая ошибается в 1 из 10 вызовов.
Модель должна быть доступна у как минимум двух независимых провайдеров для надёжных резервных цепочек. CIRIS деградирует плавно при сбоях вместо жёсткого отказа.
Быстрые ответы позволяют людям комфортно участвовать в рабочих процессах этической проверки в реальном времени. Мы отдаём приоритет провайдерам с низкой задержкой для интерактивных уровней, принимая более медленные бэкенды для фоновых задач.
Llama 4 Maverick через оптимизированного по стоимости провайдера для шагов глубокого рассуждения, требующих полного бюджета контекста.
Llama 4 Scout через провайдера, оптимизированного по скорости (Groq), для интерактивного использования, с Maverick на Groq в качестве альтернативы с более широким контекстом.
Qwen 3.6 берёт на себя немало в нелатинских путях рассуждений, которые требует многоязычный Accord, и обеспечивает запасной вариант вне семейства Llama в цепочке.
Gemma 4 для развёртывания на устройствах, с низкой пропускной способностью и нестабильной сетью, где охват до пользователя важнее размера модели.
Maverick → Scout → Qwen 3.6 → Gemma 4 у нескольких провайдеров, чтобы агент деградировал плавно через семейства моделей и границы инфраструктуры вместо жёсткого отказа.
Maverick берёт на себя глубокое рассуждение, где важен полный бюджет контекста. Scout обеспечивает интерактивный уровень, где доминирует задержка. Qwen 3.6 охватывает многоязычные пути рассуждений, которые Accord требует для 29 языков. Gemma 4 — малогабаритный вариант, делающий агента доступным на обычном оборудовании. Состав выбран так, чтобы разные уровни работы шли к подходящей модели, а не одна модель делала всё.
Llama (Maverick + Scout), Qwen и Gemma относятся к трём независимым конвейерам обучения и трём независимым экосистемам провайдеров. Это важно для резервных цепочек: CVE, изменение лицензии или сбой провайдера в одном семействе не выводят агента из строя. Независимость на уровне моделей — та же характеристика, что делает компонент IDMA надёжным на уровне рассуждений.
Модели, не соответствующие пяти критериям, — чаще всего те, что выглядят привлекательно по цене токенов, но не справляются со структурированным выводом и вызовом инструментов.
Показательный режим отказа (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Эта ошибка недопустима для фреймворка, зависящего от 12–70 вызовов инструментов за взаимодействие. Даже цена токенов в 3–10 раз дешевле не стоит операционных сбоев.
CIRIS встраивает полный Accord и полное Всестороннее Руководство в каждый промпт. Не краткое изложение. Не сокращённую версию. Весь управляющий текст целиком.
Это гарантирует, что обновления Accord или Руководства немедленно влияют на поведение всех агентов без ожидания новых дообучений или стратегий сжатия промптов.
CIRIS Agents — это ориентированные на инструменты оркестраторы, одновременно управляющие:
Совокупный контекст легко превышает 32K–64K, особенно для длительных сессий или сложных расследований. Именно поэтому 128K — минимум, а 256K+ — предпочтительный вариант.
Итог:
CIRIS не обрезает свои ценности или процедуры, чтобы уместиться в модель. Вместо этого CIRIS выбирает модели, достаточно большие, чтобы нести весь этический и операционный фреймворк при каждом вызове. Модели с меньшими контекстными окнами (даже если они дешевле или популярнее) исключены из производственного использования.
CIRIS использует Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 и Gemma 4 в производстве, потому что вместе они удовлетворяют операционным и экономическим ограничениям, которые накладывает Accord: длинный контекст, надёжный вызов инструментов, многоязычный охват и доступность для обычного оборудования — в трёх независимых семействах моделей. Новые модели непрерывно отслеживаются и тестируются; состав меняется, когда что-то лучшее действительно соответствует пяти критериям.
Дело не в погоне за результатами тестов или следовании хайп-циклам. Речь идёт о выборе моделей, которые реально работают для подотчётных, ориентированных на инструменты агентов в производстве и достаточно серьёзно относятся к Accord, чтобы нести его в каждом вызове.