LLM yang Kami Gunakan dan Alasannya

CIRIS Agent berjalan pada sejumlah kecil model terbuka yang memenuhi lima kriteria yang tidak bisa dikompromikan. Jajaran produksi saat ini adalah Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, dan Gemma 4, dipilih untuk peran yang berbeda dalam beban kerja agen.

Llama 4 Maverick

Tulang punggung penalaran. Ia dapat menampung konteks yang sangat besar sekaligus, sehingga menjadi pilihan utama untuk langkah penalaran yang lebih dalam di mana melihat keseluruhan gambaran sangat penting.

Penyedia: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Pendamping cepat dalam keluarga Llama 4. Lebih kecil dan lebih cepat dari Maverick, dengan kemampuan pemanggilan alat yang kuat. Digunakan untuk tingkatan interaktif di mana latensi penting dan anggaran konteks penuh Maverick tidak diperlukan.

Penyedia: OpenRouter, Groq

Qwen 3.6

Kedalaman multibahasa dan keluaran terstruktur yang kuat. Berperan besar dalam jalur penalaran non-Inggris yang diharuskan Accord poliglot; basis penyedia independen di luar keluarga Llama menambah redundansi dalam rantai fallback.

Penyedia: OpenRouter, DashScope, DeepInfra

Gemma 4

Cukup kecil untuk berjalan pada perangkat keras biasa. Digunakan di mana jangkauan lebih penting dari kapasitas mentah (penerapan on-device, bandwidth rendah, dan jaringan terdegradasi) dan sebagai fallback keluarga ketiga bersama Llama dan Qwen.

Penyedia: OpenRouter, Google

Kriteria Model Kami

Lima persyaratan yang tidak bisa dikompromikan untuk CIRIS Agent

1. Keluaran Terstruktur & Penggunaan Alat

Harus mendukung pemanggilan fungsi secara native dan mengembalikan JSON yang valid di 12-70 pemanggilan alat per interaksi. CIRIS adalah orkestrator. Kami memerlukan semantik alat yang stabil, bukan percakapan yang bertele-tele.

2. Jendela Konteks: Minimum 128K

CIRIS menyematkan Accord dan Panduan lengkap ke setiap prompt. 128K adalah minimum mutlak; 256K+ sangat diutamakan untuk percakapan panjang, keluaran alat, dan jejak audit.

3. Efisiensi Biaya

Target: <$1.00 per 1M token gabungan. Kami memilih opsi termurah yang berfungsi, bukan pemenang benchmark termurah. Model yang andal dan tidak pernah merusak JSON lebih baik dari model lebih murah yang gagal 1 dari 10 panggilan.

4. Ketersediaan Multi-Penyedia

Harus tersedia dari setidaknya dua penyedia independen untuk rantai fallback yang tangguh. CIRIS terdegradasi dengan baik saat pemadaman, bukan gagal total.

5. Latensi & Pengalaman Pengguna

Respons cepat membuat manusia tetap dalam putaran untuk alur kerja tinjauan etis. Kami mengutamakan penyedia latensi rendah untuk tingkatan interaktif sambil menerima backend lebih lambat untuk tugas latar belakang.

Penerapan Produksi

Tingkatan Default

Llama 4 Maverick melalui penyedia berbiaya optimal untuk langkah penalaran mendalam yang memerlukan anggaran konteks penuh.

Tingkatan Cepat

Llama 4 Scout melalui penyedia beroptimasi kecepatan (Groq) untuk penggunaan interaktif, dengan Maverick di Groq sebagai alternatif konteks lebih besar.

Tingkatan Multibahasa

Qwen 3.6 berperan besar dalam jalur penalaran non-Inggris yang diharuskan Accord poliglot, dan menyediakan fallback non-Llama dalam rantai.

Tingkatan Edge

Gemma 4 untuk penerapan on-device, bandwidth rendah, dan jaringan terdegradasi di mana menjangkau pengguna lebih penting dari ukuran model.

Rantai Fallback

Maverick → Scout → Qwen 3.6 → Gemma 4 di berbagai penyedia, sehingga agen terdegradasi dengan baik di berbagai keluarga model dan batas infrastruktur, bukan gagal total.

Mengapa Jajaran Ini

Peran berbeda, bukan bagian yang dapat dipertukarkan

Maverick menangani penalaran mendalam di mana anggaran konteks penuh penting. Scout membawa tingkatan interaktif di mana latensi mendominasi. Qwen 3.6 menjangkau jalur penalaran poliglot yang diharuskan Accord di 29 bahasa. Gemma 4 adalah opsi jejak kecil yang membawa agen ke jangkauan perangkat keras biasa. Jajaran ini dipilih agar berbagai tingkatan pekerjaan pergi ke model yang benar-benar cocok, bukan memaksa satu model untuk melakukan segalanya.

Tiga keluarga model independen

Llama (Maverick + Scout), Qwen, dan Gemma berasal dari tiga jalur pelatihan independen dan tiga ekosistem penyedia independen. Hal ini penting untuk rantai fallback: CVE, perubahan lisensi, atau pemadaman penyedia pada satu keluarga tidak akan mematikan agen. Independensi di lapisan model adalah properti yang sama yang membuat komponen IDMA tangguh di lapisan penalaran.

Yang tidak masuk jajaran

Model yang tidak dapat memenuhi lima kriteria, paling sering, model yang terlihat menarik dari segi harga token tetapi gagal pada keluaran terstruktur dan pemanggilan alat.

Mode kegagalan representatif (GPT-OSS-20B): "pemilihan alat diperlukan, tetapi model tidak memanggil alat"

Kesalahan ini tidak dapat diterima untuk kerangka kerja yang bergantung pada 12-70 pemanggilan alat per interaksi. Bahkan harga token 3-10x lebih murah pun tidak sepadan dengan kegagalan operasional.

Mengapa Konteks 128K+ Tidak Bisa Dikompromikan

Accord dan Panduan yang Selalu Aktif

CIRIS menyematkan Accord lengkap dan Panduan Komprehensif lengkap ke setiap prompt. Bukan ringkasan. Bukan versi yang sudah dipadatkan. Seluruh teks tata kelola.

Ini memastikan bahwa pembaruan pada Accord atau Panduan segera mempengaruhi perilaku di semua agen, tanpa menunggu fine-tune baru atau strategi kompresi prompt.

Status Etis dan Prosedural Penuh

CIRIS Agent adalah orkestrator berbasis alat yang mengelola:

Alur kerja multi-langkah
Status sistem dan keluaran alat
Pesan pengguna dan riwayat percakapan
Accord dan Panduan lengkap

Konteks gabungan ini mudah melebihi 32K-64K, terutama untuk sesi yang berjalan lama atau penyelidikan kompleks. Itulah mengapa 128K adalah minimum dan 256K+ lebih diutamakan.

Intinya:

CIRIS tidak memangkas nilai atau prosedurnya agar sesuai dengan model. Sebaliknya, CIRIS memilih model yang cukup besar untuk membawa seluruh kerangka etis dan operasional pada setiap panggilan. Model dengan jendela konteks lebih kecil (meskipun lebih murah atau lebih populer) dikecualikan dari penggunaan produksi.

Bagaimana Ini Mendukung CIRIS Accord

Pemilihan model sebagai infrastruktur etis

Transparansi dan Kemampuan Inspeksi

Konteks panjang menjaga jejak penalaran, keputusan, dan pemanggilan alat tetap terlihat untuk tinjauan manusia
JSON stabil dan keluaran terstruktur membuat setiap pemanggilan alat dapat diaudit
Artefak tata kelola lengkap di setiap panggilan memastikan keputusan dapat ditelusuri kembali ke prinsip-prinsip

Ketahanan dan Tata Kelola

Penerapan multi-penyedia menghindari titik kegagalan tunggal dalam infrastruktur etis yang kritis
Memilih "cukup baik dan andal" daripada "mencolok tapi rapuh" mengutamakan keamanan dan kelangsungan
Degradasi yang baik saat pemadaman menjaga ketersediaan layanan

Pengawasan Manusia

Tingkatan cepat membuat manusia tetap nyaman dalam putaran untuk tinjauan etis real-time
Tingkatan lebih murah memungkinkan analisis latar belakang yang luas tanpa biaya yang terlalu besar
Pendekatan seimbang mendukung penggunaan sehari-hari maupun audit tata kelola berkala

Intinya

CIRIS menjalankan Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, dan Gemma 4 dalam produksi karena bersama-sama mereka memenuhi batasan operasional dan ekonomi yang dikenakan Accord: konteks panjang, pemanggilan alat yang andal, cakupan poliglot, dan jangkauan ke perangkat keras biasa, di tiga keluarga model independen. Model baru dipantau dan diuji secara terus-menerus; jajaran berubah ketika ada yang benar-benar memenuhi lima kriteria.

Ini bukan tentang mengejar skor benchmark atau mengikuti siklus hype. Ini tentang memilih model yang benar-benar bekerja untuk agen yang bertanggung jawab dan berbasis alat dalam produksi, dan yang cukup serius menanggapi Accord untuk membawanya di setiap panggilan.