CIRIS Agent працює на невеликому наборі відкритих моделей, які відповідають п'яти обов'язковим критеріям. Поточна виробнича лінійка: Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 і Gemma 4, обрані для різних завдань агента.
Основна модель для глибокого міркування. Вона тримає у пам'яті дуже великий контекст одразу, тому є стандартною для етапів, де важливо бачити всю картину цілком.
Провайдери: OpenRouter, Groq, Together, DeepInfra
Швидкий партнер у родині Llama 4. Менша і швидша за Maverick, зі стійким викликом інструментів. Використовується для інтерактивних рівнів, де важлива затримка і повний бюджет контексту Maverick не потрібен.
Провайдери: OpenRouter, Groq
Багатомовна глибина і надійний структурований вивід. Бере на себе навантаження у нескоростійних шляхах міркування, яких вимагає поліглотська Угода; незалежна база провайдерів поза родиною Llama додає надмірність у ланцюжок резервування.
Провайдери: OpenRouter, DashScope, DeepInfra
Достатньо маленька для звичайного обладнання. Використовується там, де охоплення важливіше за сирої потужності (розгортання на пристрої, за низької пропускної здатності та у мережах зі зниженою якістю), а також як резервна модель третьої родини поруч із Llama і Qwen.
Провайдери: OpenRouter, Google
Модель має нативно підтримувати виклик функцій і повертати коректний JSON у 12–70 викликах інструментів за одну взаємодію. CIRIS — це оркестратор. Нам потрібна стабільна семантика інструментів, а не балакуча розмова.
CIRIS вбудовує повну Угоду та Посібник у кожний запит. 128K — абсолютний мінімум; 256K+ настійно рекомендовано для довгих розмов, виводів інструментів і журналів аудиту.
Ціль: <$1.00 за 1М токенів у сукупності. Ми обираємо найдешевший робочий варіант, а не найдешевшого чемпіона бенчмарків. Надійна модель, яка ніколи не ламає JSON, краща за дешевшу, яка дає збій в одному з десяти викликів.
Модель має бути доступна принаймні від двох незалежних провайдерів для надійних ланцюжків резервування. CIRIS деградує плавно під час збоїв, а не зупиняється повністю.
Швидкі відповіді тримають людей у процесі для робочих процесів етичного огляду. Для інтерактивних рівнів ми надаємо перевагу провайдерам із низькою затримкою, водночас приймаючи повільніші бекенди для фонових завдань.
Llama 4 Maverick через провайдера з оптимізацією вартості для кроків глибокого міркування, яким потрібний повний бюджет контексту.
Llama 4 Scout через провайдера з оптимізацією швидкості (Groq) для інтерактивного використання, а Maverick на Groq — як альтернатива для важчого контексту.
Qwen 3.6 бере на себе навантаження у нескоростійних шляхах міркування, яких вимагає поліглотська Угода, і забезпечує резервний варіант поза родиною Llama.
Gemma 4 для розгортання на пристрої, за низької пропускної здатності та у мережах зі зниженою якістю, де досяжність до користувача важливіша за розмір моделі.
Maverick → Scout → Qwen 3.6 → Gemma 4 через кількох провайдерів, щоб агент деградував плавно між родинами моделей та інфраструктурними межами, а не зупинявся повністю.
Maverick обробляє глибоке міркування, де важливий повний бюджет контексту. Scout забезпечує інтерактивний рівень, де домінує затримка. Qwen 3.6 охоплює поліглотські шляхи міркування, яких Угода вимагає у 29 мовах. Gemma 4 — малогабаритний варіант, який робить агента доступним на звичайному обладнанні. Лінійка обрана так, щоб різні рівні роботи передавалися моделі, яка підходить для них, а не одній моделі, що робить усе.
Llama (Maverick + Scout), Qwen і Gemma походять із трьох незалежних конвеєрів навчання і трьох незалежних екосистем провайдерів. Це важливо для ланцюжків резервування: CVE, зміна ліцензії або збій провайдера в одному сімействі не виводять агента з ладу. Незалежність на рівні моделей — та сама властивість, що робить компонент IDMA надійним на рівні міркувань.
Моделі, які не відповідають п'яти критеріям — найчастіше ті, що виглядають привабливо за ціною токена, але провалюються на структурованому виводі та виклику інструментів.
Типовий режим збою (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Ця помилка неприйнятна для фреймворку, який залежить від 12–70 викликів інструментів за одну взаємодію. Навіть у 3–10 разів дешевша ціна токена не варта таких операційних збоїв.
CIRIS вбудовує повну Угоду і повний Всебічний Посібник у кожний запит. Не короткий виклад. Не стиснену версію. Весь текст управління.
Це гарантує, що оновлення Угоди або Посібника негайно впливають на поведінку всіх агентів, без очікування нового дообліку або стратегій стиснення запитів.
Агенти CIRIS — це насичені інструментами оркестратори, які водночас обробляють:
Цей сукупний контекст легко перевищує 32K–64K, особливо для тривалих сесій або складних розслідувань. Ось чому 128K — це мінімум, а 256K+ бажаний.
Підсумок:
CIRIS не обрізає свої цінності чи процедури, щоб вони вмістилися у модель. Натомість CIRIS обирає моделі, достатньо великі, щоб нести весь етичний і операційний фреймворк у кожному виклику. Моделі з меншими вікнами контексту (навіть якщо вони дешевші чи популярніші) виключені з виробничого використання.
CIRIS використовує у виробництві Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 і Gemma 4, бо разом вони задовольняють операційні та економічні обмеження, які накладає Угода: великий контекст, надійний виклик інструментів, поліглотське охоплення і досяжність до звичайного обладнання — у трьох незалежних сімействах моделей. Нові моделі безперервно відстежуються й тестуються; лінійка змінюється, коли щось краще справді відповідає п'яти критеріям.
Йдеться не про погоню за балами бенчмарків або слідування хайповим циклам. Йдеться про вибір моделей, які насправді працюють для підзвітних агентів із акцентом на інструменти у виробництві, і які достатньо серйозно сприймають Угоду, щоб нести її в кожному окремому виклику.