CIRIS Agent, beş vazgeçilmez ölçütü karşılayan küçük bir açık model setiyle çalışır. Mevcut üretim kadrosu Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 ve Gemma 4'ten oluşur; her biri ajanın iş yükünde farklı bir rol üstlenir.
Temel akıl yürütme motoru. Aynı anda çok büyük bir bağlamı bellekte tutabilir; bu nedenle tüm resmi göz önünde bulundurmanın en çok önem taşıdığı derin akıl yürütme adımlarında varsayılan seçenektir.
Sağlayıcılar: OpenRouter, Groq, Together, DeepInfra
Llama 4 ailesinin hızlı yardımcısı. Maverick'ten daha küçük ve hızlı olup güçlü araç çağırma desteğine sahiptir. Gecikmenin önemli olduğu ve Maverick'in tam bağlam kapasitesinin gerekli olmadığı etkileşimli kademelerde kullanılır.
Sağlayıcılar: OpenRouter, Groq
Çok dilli derinlik ve güçlü yapılandırılmış çıktı. Çok dilli Anlaşma'nın gerektirdiği İngilizce dışı akıl yürütme yollarında ağırlık taşır; Llama ailesinin dışındaki bağımsız bir sağlayıcı tabanı, yedek zincire fazladan bir güvenilirlik katmanı ekler.
Sağlayıcılar: OpenRouter, DashScope, DeepInfra
Sıradan donanımda çalışacak kadar küçük. Ham kapasiteden çok erişimin önem taşıdığı dağıtımlarda (cihaz üzeri, düşük bant genişliği ve bozuk ağ ortamları) ve Llama ile Qwen'in yanında üçüncü aileden yedek seçenek olarak kullanılır.
Sağlayıcılar: OpenRouter, Google
Her etkileşimde 12-70 araç çağrısı boyunca yerel fonksiyon çağırma desteği ve geçerli JSON döndürme zorunludur. CIRIS bir orkestratördür. Konuşma diline değil, kararlı araç semantiğine ihtiyacımız var.
CIRIS, tam Anlaşma ve Kılavuz metnini her istemde gömer. 128K mutlak asgari değerdir; uzun konuşmalar, araç çıktıları ve denetim izleri için 256K+ kesinlikle tercih edilir.
Hedef: birleşik olarak 1 Milyon token başına $1,00 altı. Benchmark kazananını değil, en ucuz çalışan seçeneği tercih ederiz. 10 çağrıdan birinde JSON üretemeyen daha ucuz bir modelden, her zaman düzgün çalışan güvenilir bir model daha değerlidir.
Sağlam yedek zincirleri için en az iki bağımsız sağlayıcıda bulunması gerekir. CIRIS, kesintilerde sert biçimde çökmek yerine kademeli olarak kapasitesini düşürür.
Hızlı yanıtlar, etik inceleme süreçlerinde insanları döngüde tutar. Arka plan görevleri için daha yavaş arka uçları kabul ederken etkileşimli kademeler için düşük gecikmeli sağlayıcıları önceliklendiririz.
Tam bağlam kapasitesinin gerektiği derin akıl yürütme adımları için maliyet açısından optimize edilmiş sağlayıcı üzerinden Llama 4 Maverick.
Etkileşimli kullanım için hız açısından optimize edilmiş sağlayıcı (Groq) üzerinden Llama 4 Scout; daha ağır bağlam gerektiren durumlarda Groq üzerinden Maverick.
Qwen 3.6, çok dilli Anlaşma'nın gerektirdiği İngilizce dışı akıl yürütme yollarında ağırlık taşır ve zincirde Llama dışı bir yedek seçenek sunar.
Kullanıcıya ulaşmanın model boyutundan daha önemli olduğu cihaz üzeri, düşük bant genişlikli ve bozuk ağ dağıtımları için Gemma 4.
Birden fazla sağlayıcı üzerinden Maverick → Scout → Qwen 3.6 → Gemma 4; böylece ajan, model aileleri ve altyapı sınırları genelinde sert çökmek yerine kademeli olarak kapasitesini düşürür.
Maverick, tam bağlam kapasitesinin önem taşıdığı derin akıl yürütmeyi üstlenir. Scout, gecikmenin belirleyici olduğu etkileşimli kademeyi taşır. Qwen 3.6, Anlaşma'nın 29 dilde gerektirdiği çok dilli akıl yürütme yollarına ulaşır. Gemma 4 ise ajanı sıradan donanımın erişim alanına sokan küçük ayak izli seçenektir. Kadro, farklı iş kademelerinin her şeyi tek bir modele yüklenmek yerine gerçekten uygun olan modele gitmesi amacıyla oluşturulmuştur.
Llama (Maverick + Scout), Qwen ve Gemma üç bağımsız eğitim hattından ve üç bağımsız sağlayıcı ekosisteminden gelir. Bu, yedek zincirleri için kritik bir özelliktir: bir ailede ortaya çıkan bir güvenlik açığı, lisans değişikliği veya sağlayıcı kesintisi ajanı çökertmez. Model katmanındaki bağımsızlık, IDMA bileşeninin akıl yürütme katmanında sağlam olmasını sağlayan özelliğin aynısıdır.
Beş ölçütü karşılayamayan modeller; çoğunlukla token fiyatı açısından cazip görünen ancak yapılandırılmış çıktı ve araç çağrısında başarısız olan modeller.
Temsili hata modu (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
Her etkileşimde 12-70 araç çağrısına dayanan bir çerçeve için bu hata kabul edilemez. 3-10 kat daha ucuz token fiyatı, operasyonel aksaklıkları karşılamaya yetmez.
CIRIS, her isteme tam Anlaşma ve eksiksiz Kapsamlı Kılavuz metnini gömer. Özet değil, damıtılmış sürüm değil, tam yönetişim metni.
Bu sayede Anlaşma veya Kılavuz'da yapılan güncellemeler, yeni ince ayarlar veya istem sıkıştırma stratejileri beklenmeksizin tüm ajanlarda hemen davranışı etkiler.
CIRIS Ajanları, aşağıdakileri bir arada yöneten araç ağırlıklı orkestratörlerdir:
Bu birleşik bağlam, özellikle uzun süreli oturumlar veya karmaşık araştırmalarda 32K-64K'yı kolayca aşar. 128K'nın asgari değer, 256K+'nın tercih edilen değer olmasının nedeni budur.
Sonuç:
CIRIS, değerlerini veya prosedürlerini modele sığdırmak için kırpmaz. Bunun yerine CIRIS, her çağrıda tam etik ve operasyonel çerçeveyi taşıyacak kadar geniş bağlam penceresine sahip modeller seçer. Daha küçük bağlam penceresine sahip modeller (daha ucuz veya daha popüler olsalar bile) üretim kullanımının dışında tutulur.
CIRIS, Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 ve Gemma 4'ü üretimde çalıştırır; çünkü bu dört model bir araya geldiğinde Anlaşma'nın getirdiği operasyonel ve ekonomik kısıtlamaları karşılar: geniş bağlam, güvenilir araç çağrısı, çok dilli kapsam ve üç bağımsız model ailesi genelinde sıradan donanıma erişim. Yeni modeller sürekli izlenir ve test edilir; beş ölçütü gerçekten karşılayan daha iyi bir seçenek çıktığında kadro değişir.
Bu, benchmark puanı peşinde koşmak veya moda akımlara uymakla ilgili değildir. Üretimde hesap verebilir, araç odaklı ajanlar için gerçekten işe yarayan ve Anlaşma'yı her çağrıda taşıyacak kadar ciddiye alan modeller seçmekle ilgilidir.