आम्ही कोणते LLM वापरतो आणि का

CIRIS Agent पाच अनिवार्य निकष पूर्ण करणाऱ्या काही निवडक open models वर चालतो. सध्याची production lineup म्हणजे Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 आणि Gemma 4 — प्रत्येक agent च्या कामात वेगळी भूमिका बजावण्यासाठी निवडलेले.

Llama 4 Maverick

विचार करण्याचा मुख्य आधारस्तंभ. हे एकाच वेळी खूप मोठ्या प्रमाणात संदर्भ धरू शकतो, त्यामुळे जिथे संपूर्ण चित्र डोळ्यांसमोर ठेवणे सर्वात महत्त्वाचे असते अशा खोल विचार-टप्प्यांसाठी हा default आहे.

Providers: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 कुटुंबातील वेगवान साथीदार. Maverick पेक्षा लहान आणि जलद, tool calling मध्ये सक्षम. जेव्हा latency महत्त्वाची असते आणि Maverick चा पूर्ण context budget आवश्यक नसतो अशा interactive टप्प्यांसाठी वापरला जातो.

Providers: OpenRouter, Groq

Qwen 3.6

बहुभाषिक खोली आणि सुसंरचित output मध्ये मजबूत. polyglot Accord ला आवश्यक असलेल्या इंग्रजीव्यतिरिक्त भाषांतील विचार-प्रक्रियेत याचा मोठा वाटा; Llama कुटुंबाबाहेरचा एक स्वतंत्र providers चा आधार fallback chain मध्ये redundancy देतो.

Providers: OpenRouter, DashScope, DeepInfra

Gemma 4

सामान्य hardware वर चालण्याइतपत लहान. जिथे क्षमतेपेक्षा पोहोच महत्त्वाची असते अशा (on-device, कमी bandwidth आणि कमकुवत network deployments) ठिकाणी, आणि Llama व Qwen बरोबरच तिसरा-कुटुंब fallback म्हणून वापरला जातो.

Providers: OpenRouter, Google

आमचे Model निकष

CIRIS Agent साठी पाच अनिवार्य आवश्यकता

1. Structured Outputs आणि Tool Use

प्रति interaction 12-70 tool calls मध्ये function calling चे native support आणि valid JSON परत करणे आवश्यक. CIRIS एक orchestrator आहे. आम्हाला बोलकी conversation नाही, तर stable tool semantics हवे आहेत.

2. Context Window: किमान 128K

CIRIS आपल्या प्रत्येक prompt मध्ये पूर्ण Accord आणि Guide embed करतो. 128K हे absolute किमान आहे; लांब conversations, tool outputs आणि audit trails साठी 256K+ जास्त पसंतीचे आहे.

3. किफायतशीर खर्च

लक्ष्य: एकत्रित 1M tokens साठी $1.00 पेक्षा कमी. आम्ही सर्वात स्वस्त benchmark विजेता नाही, तर सर्वात स्वस्त कार्यरत पर्याय निवडतो. 10 पैकी 1 वेळा JSON तुटणाऱ्या स्वस्त modelपेक्षा कधीही न तुटणारा reliable model बरा.

4. Multi-Provider उपलब्धता

मजबूत fallback chains साठी किमान दोन स्वतंत्र providers कडून उपलब्ध असणे आवश्यक. CIRIS बंद पडण्याच्या वेळी पूर्णपणे अयशस्वी होण्याऐवजी हळूहळू degradation सहन करतो.

5. Latency आणि User Experience

जलद प्रतिसाद ethical review workflows साठी माणसांना loop मध्ये ठेवतात. आम्ही background tasks साठी हळू backends स्वीकारत interactive टप्प्यांसाठी low-latency providers ला प्राधान्य देतो.

Production Deployment

Default Tier

पूर्ण context budget ची गरज असलेल्या खोल-विचार टप्प्यांसाठी cost-optimized provider द्वारे Llama 4 Maverick.

Fast Tier

Interactive वापरासाठी Llama 4 Scout speed-optimized provider (Groq) द्वारे, जड context साठी Groq वर Maverick पर्याय म्हणून.

Multilingual Tier

Qwen 3.6 polyglot Accord ला आवश्यक असलेल्या इंग्रजीव्यतिरिक्त भाषांतील विचार-प्रक्रियेत भार वाहतो, आणि chain मध्ये non-Llama fallback देतो.

Edge Tier

On-device, कमी bandwidth, आणि कमकुवत-network deployments साठी Gemma 4, जिथे model च्या आकारापेक्षा user पर्यंत पोहोचणे महत्त्वाचे असते.

Fallback Chain

Maverick → Scout → Qwen 3.6 → Gemma 4 अनेक providers मध्ये, जेणेकरून agent model families आणि infrastructure सीमांमध्ये hard failure ऐवजी gracefully degradation करतो.

ही Lineup का

वेगळ्या भूमिका, बदलण्याजोगे भाग नाहीत

Maverick पूर्ण context budget महत्त्वाच्या असलेल्या deep reasoning साठी काम करतो. Scout latency जिथे dominant असते त्या interactive tier वर काम करतो. Qwen 3.6 Accord ला 29 भाषांमध्ये आवश्यक असलेल्या polyglot reasoning paths पर्यंत पोहोचतो. Gemma 4 हा छोटा-footprint पर्याय आहे जो agent ला commodity hardware च्या आवाक्यात आणतो. lineup अशी निवडली आहे की वेगवेगळ्या टप्प्यांचे काम एकाच modelला सगळे करण्यास न सांगता, प्रत्यक्षात योग्य असलेल्या modelकडे जाते.

तीन स्वतंत्र model families

Llama (Maverick + Scout), Qwen, आणि Gemma तीन स्वतंत्र training pipelines आणि तीन स्वतंत्र provider ecosystems मधून येतात. हे fallback chains साठी महत्त्वाचे आहे: एका family वर CVE, परवाना बदल किंवा provider बंद पडणे agent खाली आणत नाही. model layer वरील स्वातंत्र्य म्हणजेच reasoning layer वर IDMA component मजबूत करणारी गुणधर्म.

Lineup मधून काय वगळले जाते

पाच निकष पूर्ण न करणारे models — बहुतेकदा, token किमतीवर आकर्षक वाटणारे पण structured output आणि tool calling मध्ये अयशस्वी होणारे models.

प्रातिनिधिक अपयश (GPT-OSS-20B): "tool choice आवश्यक आहे, पण modelने tool call केली नाही"

प्रति interaction 12-70 tool calls वर अवलंबून असलेल्या framework साठी हा error अस्वीकार्य आहे. 3-10x स्वस्त token किंमत operational failures च्या मोबदल्यात परवडत नाही.

128K+ Context का अनिवार्य आहे

नेहमी चालू असलेले Accord आणि Guide

CIRIS प्रत्येक prompt मध्ये पूर्ण Accord आणि संपूर्ण Comprehensive Guide embed करतो. सारांश नाही. distilled version नाही. संपूर्ण governance मजकूर.

यामुळे Accord किंवा Guide मधील अद्यतने नवीन fine-tunes किंवा prompt compression strategies ची वाट न पाहता सर्व agents च्या वर्तनावर लगेच परिणाम करतात.

संपूर्ण Ethical आणि Procedural State

CIRIS Agents खालील गोष्टी सांभाळणारे tool-heavy orchestrators आहेत:

Multi-step workflows
System state आणि tool outputs
User messages आणि conversation history
संपूर्ण Accord आणि Guide

हा एकत्रित context सहजपणे 32K-64K पेक्षा जास्त होतो, विशेषतः दीर्घकालीन sessions किंवा जटिल तपासांसाठी. म्हणूनच 128K हे किमान आहे आणि 256K+ पसंतीचे.

मुख्य मुद्दा:

CIRIS modelमध्ये बसवण्यासाठी आपले मूल्ये किंवा प्रक्रिया कापत नाही. उलट, CIRIS असे models निवडतो जे प्रत्येक call मध्ये संपूर्ण ethical आणि operational framework वाहण्याइतके मोठे आहेत. लहान context windows असलेले models (जरी ते स्वस्त किंवा जास्त लोकप्रिय असले तरी) production वापरातून वगळले जातात.

हे CIRIS Accord ला कसे सहाय्य करते

Model निवड ethical infrastructure म्हणून

पारदर्शकता आणि तपासणीयोग्यता

Long context reasoning traces, decisions आणि tool calls मानवी review साठी दृश्यमान ठेवतो
Stable JSON आणि structured outputs प्रत्येक tool invocation auditable बनवतात
प्रत्येक call मध्ये संपूर्ण governance artifacts निर्णय तत्त्वांपर्यंत traceable करतात

Resilience आणि Governance

Multi-provider deployment critical ethical infrastructure मध्ये single points of failure टाळतो
"चमकदार पण नाजूक" ऐवजी "पुरेसे चांगले आणि विश्वासार्ह" निवडणे safety आणि सातत्याला प्राधान्य देते
Outages दरम्यान graceful degradation सेवेची उपलब्धता राखते

Human Oversight

Fast tiers real-time ethical review साठी human oversight मध्ये मदत करतात
Cheaper tiers जास्त background analysis अवाजवी खर्चाशिवाय शक्य करतात
Balanced approach रोजच्या वापरासाठी आणि नियतकालीन governance audits दोन्हींसाठी उपयुक्त

मुख्य निष्कर्ष

CIRIS production मध्ये Llama 4 Maverick, Llama 4 Scout, Qwen 3.6 आणि Gemma 4 चालवतो कारण एकत्रितपणे ते Accord लादलेल्या operational आणि economic constraints पूर्ण करतात: long context, reliable tool calling, polyglot coverage, आणि commodity hardware पर्यंत पोहोच — तीन स्वतंत्र model families मध्ये. नवीन models सतत monitored आणि tested केले जातात; lineup बदलते जेव्हा काहीतरी चांगले प्रत्यक्षात पाच निकष पूर्ण करते.

हे benchmark scores च्या मागे धावण्याबद्दल किंवा hype cycles बद्दल नाही. हे production मध्ये accountable, tool-centric agents बद्दल आहे — आणि Accord ला प्रत्येक single call मध्ये गांभीर्याने घेण्याबद्दल.