हम कौन से LLM उपयोग करते हैं और क्यों

CIRIS Agent एक छोटे से खुले मॉडलों के समूह पर चलता है जो पांच अनिवार्य मानदंडों को पूरा करते हैं। मौजूदा उत्पादन लाइनअप है Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, और Gemma 4, जिन्हें एजेंट के कार्यभार में अलग-अलग भूमिकाओं के लिए चुना गया है।

Llama 4 Maverick

तर्क का मुख्य आधार। यह एक साथ बहुत बड़ी मात्रा में संदर्भ रख सकता है, इसलिए यह उन गहरे तर्क चरणों के लिए डिफ़ॉल्ट है जहाँ पूरी तस्वीर सामने रखना सबसे ज़रूरी होता है।

प्रदाता: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 परिवार का तेज़ साथी। Maverick से छोटा और तेज़, मज़बूत टूल कॉलिंग के साथ। उन इंटरेक्टिव स्तरों के लिए उपयोग किया जाता है जहाँ विलंब मायने रखता है और पूरे Maverick संदर्भ बजट की ज़रूरत नहीं होती।

प्रदाता: OpenRouter, Groq

Qwen 3.6

बहुभाषी गहराई और मज़बूत संरचित आउटपुट। पॉलीग्लॉट Accord के लिए आवश्यक गैर-अंग्रेज़ी तर्क पथों में महत्वपूर्ण भूमिका निभाता है; Llama परिवार से बाहर एक स्वतंत्र प्रदाता आधार फ़ॉलबैक चेन में अनावश्यकता जोड़ता है।

प्रदाता: OpenRouter, DashScope, DeepInfra

Gemma 4

सामान्य हार्डवेयर पर चलने के लिए काफ़ी छोटा। जहाँ कच्ची क्षमता से ज़्यादा पहुँच मायने रखती है (ऑन-डिवाइस, कम बैंडविड्थ, और खराब नेटवर्क डिप्लॉयमेंट) वहाँ और Llama और Qwen के साथ तीसरे परिवार के फ़ॉलबैक के रूप में उपयोग किया जाता है।

प्रदाता: OpenRouter, Google

हमारे मॉडल मानदंड

CIRIS Agent के लिए पांच अनिवार्य आवश्यकताएं

1. संरचित आउटपुट और टूल उपयोग

प्रति इंटरैक्शन 12-70 टूल कॉल में फ़ंक्शन कॉलिंग को नेटिव रूप से सपोर्ट करना और वैध JSON लौटाना ज़रूरी है। CIRIS एक ऑर्केस्ट्रेटर है। हमें स्थिर टूल सिमेंटिक्स चाहिए, बातूनी बातचीत नहीं।

2. संदर्भ विंडो: कम से कम 128K

CIRIS हर प्रॉम्प्ट में पूरा Accord और Guide एम्बेड करता है। 128K न्यूनतम आवश्यकता है; लंबी बातचीत, टूल आउटपुट और ऑडिट ट्रेल के लिए 256K+ की दृढ़ता से प्राथमिकता है।

3. लागत दक्षता

लक्ष्य: प्रति 1M टोकन मिलाकर $1.00 से कम। हम सबसे सस्ता काम करने वाला विकल्प चुनते हैं, सबसे सस्ता बेंचमार्क विजेता नहीं। एक विश्वसनीय मॉडल जो JSON कभी नहीं तोड़ता, उस सस्ते मॉडल से बेहतर है जो 10 में से 1 बार विफल हो जाता है।

4. मल्टी-प्रोवाइडर उपलब्धता

मज़बूत फ़ॉलबैक चेन के लिए कम से कम दो स्वतंत्र प्रदाताओं से उपलब्ध होना ज़रूरी है। CIRIS आउटेज के दौरान सख्त विफलता के बजाय धीरे-धीरे डिग्रेड होता है।

5. विलंब और उपयोगकर्ता अनुभव

तेज़ प्रतिक्रियाएं नैतिक समीक्षा वर्कफ़्लो के लिए लोगों को लूप में रखती हैं। हम इंटरेक्टिव स्तरों के लिए कम-विलंब प्रदाताओं को प्राथमिकता देते हैं, जबकि पृष्ठभूमि कार्यों के लिए धीमे बैकएंड स्वीकार करते हैं।

उत्पादन डिप्लॉयमेंट

डिफ़ॉल्ट स्तर

लागत-अनुकूलित प्रदाता के माध्यम से Llama 4 Maverick, उन गहरे-तर्क चरणों के लिए जिन्हें पूरे संदर्भ बजट की ज़रूरत होती है।

तेज़ स्तर

इंटरेक्टिव उपयोग के लिए गति-अनुकूलित प्रदाता (Groq) के माध्यम से Llama 4 Scout, और भारी-संदर्भ विकल्प के रूप में Groq पर Maverick।

बहुभाषी स्तर

Qwen 3.6 पॉलीग्लॉट Accord के लिए आवश्यक गैर-अंग्रेज़ी तर्क पथों में महत्वपूर्ण भूमिका निभाता है, और चेन में नॉन-Llama फ़ॉलबैक प्रदान करता है।

एज स्तर

ऑन-डिवाइस, कम बैंडविड्थ, और खराब-नेटवर्क डिप्लॉयमेंट के लिए Gemma 4, जहाँ मॉडल के आकार से ज़्यादा उपयोगकर्ता तक पहुँचना मायने रखता है।

फ़ॉलबैक चेन

Maverick → Scout → Qwen 3.6 → Gemma 4 कई प्रदाताओं में, ताकि एजेंट सख्त विफलता के बजाय मॉडल परिवारों और बुनियादी ढांचे की सीमाओं के पार धीरे-धीरे डिग्रेड हो।

यह लाइनअप क्यों

अलग-अलग भूमिकाएं, अदला-बदली वाले हिस्से नहीं

Maverick गहरे तर्क को संभालता है जहाँ पूरा संदर्भ बजट मायने रखता है। Scout इंटरेक्टिव स्तर को संभालता है जहाँ विलंब प्रमुख होता है। Qwen 3.6 Accord के लिए 29 भाषाओं में पॉलीग्लॉट तर्क पथों तक पहुँचता है। Gemma 4 छोटे-फ़ुटप्रिंट विकल्प है जो एजेंट को सामान्य हार्डवेयर की पहुँच में लाता है। लाइनअप इस तरह चुना गया है कि काम के अलग-अलग स्तर उस मॉडल पर जाएं जो वास्तव में उपयुक्त है, बजाय एक मॉडल को सब कुछ करने के लिए मजबूर करने के।

तीन स्वतंत्र मॉडल परिवार

Llama (Maverick + Scout), Qwen, और Gemma तीन स्वतंत्र प्रशिक्षण पाइपलाइन और तीन स्वतंत्र प्रदाता पारिस्थितिकी तंत्र से आते हैं। यह फ़ॉलबैक चेन के लिए मायने रखता है: किसी एक परिवार पर CVE, लाइसेंसिंग बदलाव, या प्रदाता आउटेज एजेंट को नहीं गिराता। मॉडल स्तर पर स्वतंत्रता वही गुण है जो IDMA घटक को तर्क स्तर पर मज़बूत बनाता है।

लाइनअप से क्या बाहर रहता है

वे मॉडल जो पांच मानदंडों को पूरा नहीं कर सकते, अक्सर वे मॉडल जो टोकन मूल्य पर आकर्षक लगते हैं लेकिन संरचित आउटपुट और टूल कॉलिंग में विफल हो जाते हैं।

प्रतिनिधि विफलता मोड (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

यह त्रुटि उस फ़्रेमवर्क के लिए अस्वीकार्य है जो प्रति इंटरैक्शन 12-70 टूल कॉल पर निर्भर करता है। 3-10x सस्ता टोकन मूल्य भी परिचालन विफलताओं के लायक नहीं है।

128K+ संदर्भ क्यों अनिवार्य है

हमेशा चालू Accord और Guide

CIRIS हर प्रॉम्प्ट में पूरा Accord और संपूर्ण व्यापक Guide एम्बेड करता है। सारांश नहीं। संकुचित संस्करण नहीं। पूरा शासन पाठ।

यह सुनिश्चित करता है कि Accord या Guide के अपडेट नए फाइन-ट्यून या प्रॉम्प्ट संपीड़न रणनीतियों की प्रतीक्षा किए बिना सभी एजेंटों के व्यवहार को तुरंत प्रभावित करें।

पूर्ण नैतिक और प्रक्रियागत स्थिति

CIRIS Agents टूल-भारी ऑर्केस्ट्रेटर हैं जो संभालते हैं:

मल्टी-स्टेप वर्कफ़्लो
सिस्टम स्थिति और टूल आउटपुट
उपयोगकर्ता संदेश और बातचीत का इतिहास
पूरा Accord और Guide

यह संयुक्त संदर्भ आसानी से 32K-64K से अधिक हो जाता है, विशेष रूप से लंबे सत्रों या जटिल जांच के लिए। इसीलिए 128K न्यूनतम है और 256K+ पसंदीदा है।

मुख्य बात:

CIRIS अपने मूल्यों या प्रक्रियाओं को मॉडल के अनुकूल नहीं काटता। इसके बजाय, CIRIS ऐसे मॉडल चुनता है जो हर कॉल पर पूरे नैतिक और परिचालन ढांचे को वहन करने के लिए पर्याप्त बड़े हों। छोटी संदर्भ विंडो वाले मॉडल (भले ही सस्ते या अधिक लोकप्रिय हों) उत्पादन उपयोग से बाहर हैं।

यह CIRIS Accord को कैसे सपोर्ट करता है

नैतिक बुनियादी ढांचे के रूप में मॉडल चयन

पारदर्शिता और निरीक्षणयोग्यता

लंबा संदर्भ तर्क ट्रेस, निर्णयों और टूल कॉल को मानव समीक्षा के लिए दृश्यमान रखता है
स्थिर JSON और संरचित आउटपुट हर टूल आह्वान को ऑडिट योग्य बनाते हैं
हर कॉल में पूर्ण शासन सामग्री यह सुनिश्चित करती है कि निर्णय सिद्धांतों तक वापस ट्रेस किए जा सकें

लचीलापन और शासन

मल्टी-प्रोवाइडर डिप्लॉयमेंट महत्वपूर्ण नैतिक बुनियादी ढांचे में विफलता के एकल बिंदुओं से बचता है
"चमकदार लेकिन नाज़ुक" के बजाय "पर्याप्त अच्छा और विश्वसनीय" चुनना सुरक्षा और निरंतरता को प्राथमिकता देता है
आउटेज के दौरान धीरे-धीरे डिग्रेडेशन सेवा उपलब्धता बनाए रखता है

मानव निगरानी

तेज़ स्तर वास्तविक समय नैतिक समीक्षा के लिए लोगों को आराम से लूप में रखते हैं
सस्ते स्तर निषेधात्मक लागत के बिना व्यापक पृष्ठभूमि विश्लेषण को सक्षम बनाते हैं
संतुलित दृष्टिकोण रोज़मर्रा के उपयोग और आवधिक शासन ऑडिट दोनों को सपोर्ट करता है

मुख्य बात

CIRIS उत्पादन में Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, और Gemma 4 चलाता है क्योंकि मिलकर वे Accord द्वारा लगाई गई परिचालन और आर्थिक बाधाओं को पूरा करते हैं: लंबा संदर्भ, विश्वसनीय टूल कॉलिंग, पॉलीग्लॉट कवरेज, और तीन स्वतंत्र मॉडल परिवारों में सामान्य हार्डवेयर तक पहुँच। नए मॉडल लगातार निगरानी और परीक्षण किए जाते हैं; लाइनअप तब बदलता है जब कुछ बेहतर वास्तव में पांच मानदंडों को पूरा करे।

यह बेंचमार्क स्कोर के पीछे भागने या हाइप चक्रों के अनुसरण के बारे में नहीं है। यह ऐसे मॉडल चुनने के बारे में है जो उत्पादन में जवाबदेह, टूल-केंद्रित एजेंटों के लिए वास्तव में काम करते हैं, और जो Accord को हर एकल कॉल में वहन करने के लिए पर्याप्त गंभीरता से लेते हैं।