Які LLM ми використовуємо і чому

CIRIS Agent працює на невеликому наборі відкритих моделей, які відповідають п'яти обов'язковим критеріям. Поточна виробнича лінійка: Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 і Gemma 4, обрані для різних завдань агента.

Llama 4 Maverick

Основна модель для глибокого міркування. Вона тримає у пам'яті дуже великий контекст одразу, тому є стандартною для етапів, де важливо бачити всю картину цілком.

Провайдери: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Швидкий партнер у родині Llama 4. Менша і швидша за Maverick, зі стійким викликом інструментів. Використовується для інтерактивних рівнів, де важлива затримка і повний бюджет контексту Maverick не потрібен.

Провайдери: OpenRouter, Groq

Qwen 3.6

Багатомовна глибина і надійний структурований вивід. Бере на себе навантаження у нескоростійних шляхах міркування, яких вимагає поліглотська Угода; незалежна база провайдерів поза родиною Llama додає надмірність у ланцюжок резервування.

Провайдери: OpenRouter, DashScope, DeepInfra

Gemma 4

Достатньо маленька для звичайного обладнання. Використовується там, де охоплення важливіше за сирої потужності (розгортання на пристрої, за низької пропускної здатності та у мережах зі зниженою якістю), а також як резервна модель третьої родини поруч із Llama і Qwen.

Провайдери: OpenRouter, Google

Наші вимоги до моделей

П'ять обов'язкових вимог для CIRIS Agent

1. Структурований вивід і виклик інструментів

Модель має нативно підтримувати виклик функцій і повертати коректний JSON у 12–70 викликах інструментів за одну взаємодію. CIRIS — це оркестратор. Нам потрібна стабільна семантика інструментів, а не балакуча розмова.

2. Вікно контексту: мінімум 128K

CIRIS вбудовує повну Угоду та Посібник у кожний запит. 128K — абсолютний мінімум; 256K+ настійно рекомендовано для довгих розмов, виводів інструментів і журналів аудиту.

3. Економічна ефективність

Ціль: <$1.00 за 1М токенів у сукупності. Ми обираємо найдешевший робочий варіант, а не найдешевшого чемпіона бенчмарків. Надійна модель, яка ніколи не ламає JSON, краща за дешевшу, яка дає збій в одному з десяти викликів.

4. Доступність у кількох провайдерів

Модель має бути доступна принаймні від двох незалежних провайдерів для надійних ланцюжків резервування. CIRIS деградує плавно під час збоїв, а не зупиняється повністю.

5. Затримка і користувацький досвід

Швидкі відповіді тримають людей у процесі для робочих процесів етичного огляду. Для інтерактивних рівнів ми надаємо перевагу провайдерам із низькою затримкою, водночас приймаючи повільніші бекенди для фонових завдань.

Виробниче розгортання

Рівень за замовчуванням

Llama 4 Maverick через провайдера з оптимізацією вартості для кроків глибокого міркування, яким потрібний повний бюджет контексту.

Швидкий рівень

Llama 4 Scout через провайдера з оптимізацією швидкості (Groq) для інтерактивного використання, а Maverick на Groq — як альтернатива для важчого контексту.

Багатомовний рівень

Qwen 3.6 бере на себе навантаження у нескоростійних шляхах міркування, яких вимагає поліглотська Угода, і забезпечує резервний варіант поза родиною Llama.

Периферійний рівень

Gemma 4 для розгортання на пристрої, за низької пропускної здатності та у мережах зі зниженою якістю, де досяжність до користувача важливіша за розмір моделі.

Ланцюжок резервування

Maverick → Scout → Qwen 3.6 → Gemma 4 через кількох провайдерів, щоб агент деградував плавно між родинами моделей та інфраструктурними межами, а не зупинявся повністю.

Чому саме ця лінійка

Різні ролі, а не взаємозамінні частини

Maverick обробляє глибоке міркування, де важливий повний бюджет контексту. Scout забезпечує інтерактивний рівень, де домінує затримка. Qwen 3.6 охоплює поліглотські шляхи міркування, яких Угода вимагає у 29 мовах. Gemma 4 — малогабаритний варіант, який робить агента доступним на звичайному обладнанні. Лінійка обрана так, щоб різні рівні роботи передавалися моделі, яка підходить для них, а не одній моделі, що робить усе.

Три незалежних сімейства моделей

Llama (Maverick + Scout), Qwen і Gemma походять із трьох незалежних конвеєрів навчання і трьох незалежних екосистем провайдерів. Це важливо для ланцюжків резервування: CVE, зміна ліцензії або збій провайдера в одному сімействі не виводять агента з ладу. Незалежність на рівні моделей — та сама властивість, що робить компонент IDMA надійним на рівні міркувань.

Що залишається поза лінійкою

Моделі, які не відповідають п'яти критеріям — найчастіше ті, що виглядають привабливо за ціною токена, але провалюються на структурованому виводі та виклику інструментів.

Типовий режим збою (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Ця помилка неприйнятна для фреймворку, який залежить від 12–70 викликів інструментів за одну взаємодію. Навіть у 3–10 разів дешевша ціна токена не варта таких операційних збоїв.

Чому контекст 128K+ є обов'язковим

Постійна Угода та Посібник

CIRIS вбудовує повну Угоду і повний Всебічний Посібник у кожний запит. Не короткий виклад. Не стиснену версію. Весь текст управління.

Це гарантує, що оновлення Угоди або Посібника негайно впливають на поведінку всіх агентів, без очікування нового дообліку або стратегій стиснення запитів.

Повний етичний і процедурний стан

Агенти CIRIS — це насичені інструментами оркестратори, які водночас обробляють:

Багатокрокові робочі процеси
Стан системи та виводи інструментів
Повідомлення користувача та історію розмови
Повну Угоду та Посібник

Цей сукупний контекст легко перевищує 32K–64K, особливо для тривалих сесій або складних розслідувань. Ось чому 128K — це мінімум, а 256K+ бажаний.

Підсумок:

CIRIS не обрізає свої цінності чи процедури, щоб вони вмістилися у модель. Натомість CIRIS обирає моделі, достатньо великі, щоб нести весь етичний і операційний фреймворк у кожному виклику. Моделі з меншими вікнами контексту (навіть якщо вони дешевші чи популярніші) виключені з виробничого використання.

Як це підтримує Угоду CIRIS

Вибір моделей як етична інфраструктура

Прозорість та інспектованість

Великий контекст зберігає трасування міркувань, рішення та виклики інструментів видимими для перегляду людиною
Стабільний JSON і структурований вивід роблять кожен виклик інструменту підлягаючим аудиту
Повні артефакти управління у кожному виклику забезпечують відстеженість рішень до принципів

Стійкість та управління

Розгортання через кількох провайдерів уникає єдиних точок відмови в критичній етичній інфраструктурі
Вибір «достатньо хорошого і надійного» замість «ефектного, але крихкого» ставить безпеку й безперервність на перше місце
Плавна деградація під час збоїв підтримує доступність сервісу

Нагляд людини

Швидкі рівні тримають людей комфортно в процесі для огляду в режимі реального часу
Дешевші рівні дозволяють проводити обширний фоновий аналіз без надмірних витрат
Збалансований підхід підтримує як щоденне використання, так і періодичні аудити управління

Підсумок

CIRIS використовує у виробництві Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 і Gemma 4, бо разом вони задовольняють операційні та економічні обмеження, які накладає Угода: великий контекст, надійний виклик інструментів, поліглотське охоплення і досяжність до звичайного обладнання — у трьох незалежних сімействах моделей. Нові моделі безперервно відстежуються й тестуються; лінійка змінюється, коли щось краще справді відповідає п'яти критеріям.

Йдеться не про погоню за балами бенчмарків або слідування хайповим циклам. Йдеться про вибір моделей, які насправді працюють для підзвітних агентів із акцентом на інструменти у виробництві, і які достатньо серйозно сприймають Угоду, щоб нести її в кожному окремому виклику.