Kullandığımız Dil Modelleri ve Nedenleri

CIRIS Agent, beş vazgeçilmez ölçütü karşılayan küçük bir açık model setiyle çalışır. Mevcut üretim kadrosu Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 ve Gemma 4'ten oluşur; her biri ajanın iş yükünde farklı bir rol üstlenir.

Llama 4 Maverick

Temel akıl yürütme motoru. Aynı anda çok büyük bir bağlamı bellekte tutabilir; bu nedenle tüm resmi göz önünde bulundurmanın en çok önem taşıdığı derin akıl yürütme adımlarında varsayılan seçenektir.

Sağlayıcılar: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 ailesinin hızlı yardımcısı. Maverick'ten daha küçük ve hızlı olup güçlü araç çağırma desteğine sahiptir. Gecikmenin önemli olduğu ve Maverick'in tam bağlam kapasitesinin gerekli olmadığı etkileşimli kademelerde kullanılır.

Sağlayıcılar: OpenRouter, Groq

Qwen 3.6

Çok dilli derinlik ve güçlü yapılandırılmış çıktı. Çok dilli Anlaşma'nın gerektirdiği İngilizce dışı akıl yürütme yollarında ağırlık taşır; Llama ailesinin dışındaki bağımsız bir sağlayıcı tabanı, yedek zincire fazladan bir güvenilirlik katmanı ekler.

Sağlayıcılar: OpenRouter, DashScope, DeepInfra

Gemma 4

Sıradan donanımda çalışacak kadar küçük. Ham kapasiteden çok erişimin önem taşıdığı dağıtımlarda (cihaz üzeri, düşük bant genişliği ve bozuk ağ ortamları) ve Llama ile Qwen'in yanında üçüncü aileden yedek seçenek olarak kullanılır.

Sağlayıcılar: OpenRouter, Google

Model Ölçütlerimiz

CIRIS Agent için beş vazgeçilmez gereksinim

1. Yapılandırılmış Çıktılar ve Araç Kullanımı

Her etkileşimde 12-70 araç çağrısı boyunca yerel fonksiyon çağırma desteği ve geçerli JSON döndürme zorunludur. CIRIS bir orkestratördür. Konuşma diline değil, kararlı araç semantiğine ihtiyacımız var.

2. Bağlam Penceresi: En Az 128K

CIRIS, tam Anlaşma ve Kılavuz metnini her istemde gömer. 128K mutlak asgari değerdir; uzun konuşmalar, araç çıktıları ve denetim izleri için 256K+ kesinlikle tercih edilir.

3. Maliyet Verimliliği

Hedef: birleşik olarak 1 Milyon token başına $1,00 altı. Benchmark kazananını değil, en ucuz çalışan seçeneği tercih ederiz. 10 çağrıdan birinde JSON üretemeyen daha ucuz bir modelden, her zaman düzgün çalışan güvenilir bir model daha değerlidir.

4. Çoklu Sağlayıcı Kullanılabilirliği

Sağlam yedek zincirleri için en az iki bağımsız sağlayıcıda bulunması gerekir. CIRIS, kesintilerde sert biçimde çökmek yerine kademeli olarak kapasitesini düşürür.

5. Gecikme ve Kullanıcı Deneyimi

Hızlı yanıtlar, etik inceleme süreçlerinde insanları döngüde tutar. Arka plan görevleri için daha yavaş arka uçları kabul ederken etkileşimli kademeler için düşük gecikmeli sağlayıcıları önceliklendiririz.

Üretim Dağıtımı

Varsayılan Kademe

Tam bağlam kapasitesinin gerektiği derin akıl yürütme adımları için maliyet açısından optimize edilmiş sağlayıcı üzerinden Llama 4 Maverick.

Hızlı Kademe

Etkileşimli kullanım için hız açısından optimize edilmiş sağlayıcı (Groq) üzerinden Llama 4 Scout; daha ağır bağlam gerektiren durumlarda Groq üzerinden Maverick.

Çok Dilli Kademe

Qwen 3.6, çok dilli Anlaşma'nın gerektirdiği İngilizce dışı akıl yürütme yollarında ağırlık taşır ve zincirde Llama dışı bir yedek seçenek sunar.

Uç Kademe

Kullanıcıya ulaşmanın model boyutundan daha önemli olduğu cihaz üzeri, düşük bant genişlikli ve bozuk ağ dağıtımları için Gemma 4.

Yedek Zinciri

Birden fazla sağlayıcı üzerinden Maverick → Scout → Qwen 3.6 → Gemma 4; böylece ajan, model aileleri ve altyapı sınırları genelinde sert çökmek yerine kademeli olarak kapasitesini düşürür.

Bu Kadroyu Neden Seçtik

Birbirinin yerine geçmeyen, farklı roller

Maverick, tam bağlam kapasitesinin önem taşıdığı derin akıl yürütmeyi üstlenir. Scout, gecikmenin belirleyici olduğu etkileşimli kademeyi taşır. Qwen 3.6, Anlaşma'nın 29 dilde gerektirdiği çok dilli akıl yürütme yollarına ulaşır. Gemma 4 ise ajanı sıradan donanımın erişim alanına sokan küçük ayak izli seçenektir. Kadro, farklı iş kademelerinin her şeyi tek bir modele yüklenmek yerine gerçekten uygun olan modele gitmesi amacıyla oluşturulmuştur.

Üç bağımsız model ailesi

Llama (Maverick + Scout), Qwen ve Gemma üç bağımsız eğitim hattından ve üç bağımsız sağlayıcı ekosisteminden gelir. Bu, yedek zincirleri için kritik bir özelliktir: bir ailede ortaya çıkan bir güvenlik açığı, lisans değişikliği veya sağlayıcı kesintisi ajanı çökertmez. Model katmanındaki bağımsızlık, IDMA bileşeninin akıl yürütme katmanında sağlam olmasını sağlayan özelliğin aynısıdır.

Kadroya neler girmez

Beş ölçütü karşılayamayan modeller; çoğunlukla token fiyatı açısından cazip görünen ancak yapılandırılmış çıktı ve araç çağrısında başarısız olan modeller.

Temsili hata modu (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

Her etkileşimde 12-70 araç çağrısına dayanan bir çerçeve için bu hata kabul edilemez. 3-10 kat daha ucuz token fiyatı, operasyonel aksaklıkları karşılamaya yetmez.

128K+ Bağlam Neden Vazgeçilmezdir

Her Zaman Aktif Anlaşma ve Kılavuz

CIRIS, her isteme tam Anlaşma ve eksiksiz Kapsamlı Kılavuz metnini gömer. Özet değil, damıtılmış sürüm değil, tam yönetişim metni.

Bu sayede Anlaşma veya Kılavuz'da yapılan güncellemeler, yeni ince ayarlar veya istem sıkıştırma stratejileri beklenmeksizin tüm ajanlarda hemen davranışı etkiler.

Tam Etik ve Prosedürel Durum

CIRIS Ajanları, aşağıdakileri bir arada yöneten araç ağırlıklı orkestratörlerdir:

Çok adımlı iş akışları
Sistem durumu ve araç çıktıları
Kullanıcı mesajları ve konuşma geçmişi
Tam Anlaşma ve Kılavuz

Bu birleşik bağlam, özellikle uzun süreli oturumlar veya karmaşık araştırmalarda 32K-64K'yı kolayca aşar. 128K'nın asgari değer, 256K+'nın tercih edilen değer olmasının nedeni budur.

Sonuç:

CIRIS, değerlerini veya prosedürlerini modele sığdırmak için kırpmaz. Bunun yerine CIRIS, her çağrıda tam etik ve operasyonel çerçeveyi taşıyacak kadar geniş bağlam penceresine sahip modeller seçer. Daha küçük bağlam penceresine sahip modeller (daha ucuz veya daha popüler olsalar bile) üretim kullanımının dışında tutulur.

Bu CIRIS Anlaşma'sını Nasıl Destekler

Etik altyapı olarak model seçimi

Şeffaflık ve Denetlenebilirlik

Geniş bağlam, akıl yürütme izlerini, kararları ve araç çağrılarını insan incelemesine açık tutar
Kararlı JSON ve yapılandırılmış çıktılar her araç çağrısını denetlenebilir kılar
Her çağrıdaki eksiksiz yönetişim belgeleri, kararların ilkelere kadar izlenebilmesini sağlar

Dayanıklılık ve Yönetişim

Çoklu sağlayıcı dağıtımı, kritik etik altyapıda tek hata noktasını ortadan kaldırır
"Gösterişli ama kırılgan" yerine "yeterince iyi ve güvenilir" seçimi, güvenliği ve sürekliliği önceliklendirir
Kesintilerde kademeli bozulma, hizmet kullanılabilirliğini korur

İnsan Denetimi

Hızlı kademeler, gerçek zamanlı etik inceleme için insanları rahatlıkla döngüde tutar
Daha ucuz kademeler, aşırı maliyete yol açmadan kapsamlı arka plan analizini mümkün kılar
Dengeli yaklaşım, hem günlük kullanımı hem de periyodik yönetişim denetimlerini destekler

Sonuç

CIRIS, Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 ve Gemma 4'ü üretimde çalıştırır; çünkü bu dört model bir araya geldiğinde Anlaşma'nın getirdiği operasyonel ve ekonomik kısıtlamaları karşılar: geniş bağlam, güvenilir araç çağrısı, çok dilli kapsam ve üç bağımsız model ailesi genelinde sıradan donanıma erişim. Yeni modeller sürekli izlenir ve test edilir; beş ölçütü gerçekten karşılayan daha iyi bir seçenek çıktığında kadro değişir.

Bu, benchmark puanı peşinde koşmak veya moda akımlara uymakla ilgili değildir. Üretimde hesap verebilir, araç odaklı ajanlar için gerçekten işe yarayan ve Anlaşma'yı her çağrıda taşıyacak kadar ciddiye alan modeller seçmekle ilgilidir.