CIRIS Agent berjalan pada sejumlah kecil model terbuka yang memenuhi lima kriteria yang tidak bisa dikompromikan. Jajaran produksi saat ini adalah Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, dan Gemma 4, dipilih untuk peran yang berbeda dalam beban kerja agen.
Tulang punggung penalaran. Ia dapat menampung konteks yang sangat besar sekaligus, sehingga menjadi pilihan utama untuk langkah penalaran yang lebih dalam di mana melihat keseluruhan gambaran sangat penting.
Penyedia: OpenRouter, Groq, Together, DeepInfra
Pendamping cepat dalam keluarga Llama 4. Lebih kecil dan lebih cepat dari Maverick, dengan kemampuan pemanggilan alat yang kuat. Digunakan untuk tingkatan interaktif di mana latensi penting dan anggaran konteks penuh Maverick tidak diperlukan.
Penyedia: OpenRouter, Groq
Kedalaman multibahasa dan keluaran terstruktur yang kuat. Berperan besar dalam jalur penalaran non-Inggris yang diharuskan Accord poliglot; basis penyedia independen di luar keluarga Llama menambah redundansi dalam rantai fallback.
Penyedia: OpenRouter, DashScope, DeepInfra
Cukup kecil untuk berjalan pada perangkat keras biasa. Digunakan di mana jangkauan lebih penting dari kapasitas mentah (penerapan on-device, bandwidth rendah, dan jaringan terdegradasi) dan sebagai fallback keluarga ketiga bersama Llama dan Qwen.
Penyedia: OpenRouter, Google
Harus mendukung pemanggilan fungsi secara native dan mengembalikan JSON yang valid di 12-70 pemanggilan alat per interaksi. CIRIS adalah orkestrator. Kami memerlukan semantik alat yang stabil, bukan percakapan yang bertele-tele.
CIRIS menyematkan Accord dan Panduan lengkap ke setiap prompt. 128K adalah minimum mutlak; 256K+ sangat diutamakan untuk percakapan panjang, keluaran alat, dan jejak audit.
Target: <$1.00 per 1M token gabungan. Kami memilih opsi termurah yang berfungsi, bukan pemenang benchmark termurah. Model yang andal dan tidak pernah merusak JSON lebih baik dari model lebih murah yang gagal 1 dari 10 panggilan.
Harus tersedia dari setidaknya dua penyedia independen untuk rantai fallback yang tangguh. CIRIS terdegradasi dengan baik saat pemadaman, bukan gagal total.
Respons cepat membuat manusia tetap dalam putaran untuk alur kerja tinjauan etis. Kami mengutamakan penyedia latensi rendah untuk tingkatan interaktif sambil menerima backend lebih lambat untuk tugas latar belakang.
Llama 4 Maverick melalui penyedia berbiaya optimal untuk langkah penalaran mendalam yang memerlukan anggaran konteks penuh.
Llama 4 Scout melalui penyedia beroptimasi kecepatan (Groq) untuk penggunaan interaktif, dengan Maverick di Groq sebagai alternatif konteks lebih besar.
Qwen 3.6 berperan besar dalam jalur penalaran non-Inggris yang diharuskan Accord poliglot, dan menyediakan fallback non-Llama dalam rantai.
Gemma 4 untuk penerapan on-device, bandwidth rendah, dan jaringan terdegradasi di mana menjangkau pengguna lebih penting dari ukuran model.
Maverick โ Scout โ Qwen 3.6 โ Gemma 4 di berbagai penyedia, sehingga agen terdegradasi dengan baik di berbagai keluarga model dan batas infrastruktur, bukan gagal total.
Maverick menangani penalaran mendalam di mana anggaran konteks penuh penting. Scout membawa tingkatan interaktif di mana latensi mendominasi. Qwen 3.6 menjangkau jalur penalaran poliglot yang diharuskan Accord di 29 bahasa. Gemma 4 adalah opsi jejak kecil yang membawa agen ke jangkauan perangkat keras biasa. Jajaran ini dipilih agar berbagai tingkatan pekerjaan pergi ke model yang benar-benar cocok, bukan memaksa satu model untuk melakukan segalanya.
Llama (Maverick + Scout), Qwen, dan Gemma berasal dari tiga jalur pelatihan independen dan tiga ekosistem penyedia independen. Hal ini penting untuk rantai fallback: CVE, perubahan lisensi, atau pemadaman penyedia pada satu keluarga tidak akan mematikan agen. Independensi di lapisan model adalah properti yang sama yang membuat komponen IDMA tangguh di lapisan penalaran.
Model yang tidak dapat memenuhi lima kriteria, paling sering, model yang terlihat menarik dari segi harga token tetapi gagal pada keluaran terstruktur dan pemanggilan alat.
Mode kegagalan representatif (GPT-OSS-20B): "pemilihan alat diperlukan, tetapi model tidak memanggil alat"
Kesalahan ini tidak dapat diterima untuk kerangka kerja yang bergantung pada 12-70 pemanggilan alat per interaksi. Bahkan harga token 3-10x lebih murah pun tidak sepadan dengan kegagalan operasional.
CIRIS menyematkan Accord lengkap dan Panduan Komprehensif lengkap ke setiap prompt. Bukan ringkasan. Bukan versi yang sudah dipadatkan. Seluruh teks tata kelola.
Ini memastikan bahwa pembaruan pada Accord atau Panduan segera mempengaruhi perilaku di semua agen, tanpa menunggu fine-tune baru atau strategi kompresi prompt.
CIRIS Agent adalah orkestrator berbasis alat yang mengelola:
Konteks gabungan ini mudah melebihi 32K-64K, terutama untuk sesi yang berjalan lama atau penyelidikan kompleks. Itulah mengapa 128K adalah minimum dan 256K+ lebih diutamakan.
Intinya:
CIRIS tidak memangkas nilai atau prosedurnya agar sesuai dengan model. Sebaliknya, CIRIS memilih model yang cukup besar untuk membawa seluruh kerangka etis dan operasional pada setiap panggilan. Model dengan jendela konteks lebih kecil (meskipun lebih murah atau lebih populer) dikecualikan dari penggunaan produksi.
CIRIS menjalankan Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, dan Gemma 4 dalam produksi karena bersama-sama mereka memenuhi batasan operasional dan ekonomi yang dikenakan Accord: konteks panjang, pemanggilan alat yang andal, cakupan poliglot, dan jangkauan ke perangkat keras biasa, di tiga keluarga model independen. Model baru dipantau dan diuji secara terus-menerus; jajaran berubah ketika ada yang benar-benar memenuhi lima kriteria.
Ini bukan tentang mengejar skor benchmark atau mengikuti siklus hype. Ini tentang memilih model yang benar-benar bekerja untuk agen yang bertanggung jawab dan berbasis alat dalam produksi, dan yang cukup serius menanggapi Accord untuk membawanya di setiap panggilan.