CIRIS Agent چند منتخب اوپن ماڈلز پر چلتا ہے جو پانچ لازمی معیاروں پر پورا اترتے ہیں۔ موجودہ پروڈکشن لائن اپ Llama 4 Maverick، Llama 4 Scout، Qwen 3.6، اور Gemma 4 پر مشتمل ہے، جنہیں ایجنٹ کے کام کے مختلف حصوں کے لیے چنا گیا ہے۔
گہری سوچ کا مرکزی ستون۔ یہ بیک وقت بہت بڑا سیاق و سباق تھام سکتا ہے، اس لیے یہ انہی گہرے استدلال کے مراحل کے لیے پہلی پسند ہے جہاں پوری تصویر سامنے رکھنا سب سے زیادہ ضروری ہوتا ہے۔
فراہم کنندگان: OpenRouter, Groq, Together, DeepInfra
Llama 4 فیملی کا تیز رفتار ساتھی۔ Maverick سے چھوٹا اور تیز، مضبوط ٹول کالنگ کے ساتھ۔ ان انٹرایکٹو درجات کے لیے استعمال ہوتا ہے جہاں رفتار اہم ہے اور پورے Maverick سیاق بجٹ کی ضرورت نہیں ہوتی۔
فراہم کنندگان: OpenRouter, Groq
کثیر زبانی گہرائی اور مضبوط منظم آؤٹ پٹ۔ کثیر اللسانی Accord کے لیے درکار غیر انگریزی استدلالی راستوں میں اہم کردار ادا کرتا ہے؛ Llama فیملی سے باہر ایک آزاد فراہم کنندہ بنیاد فال بیک چین میں زائد استعداد فراہم کرتی ہے۔
فراہم کنندگان: OpenRouter, DashScope, DeepInfra
عام ہارڈویئر پر چلانے کے لیے کافی چھوٹا۔ جہاں خام صلاحیت سے زیادہ رسائی اہم ہو (آن ڈیوائس، کم بینڈ وڈتھ، اور کمزور نیٹ ورک تعیناتی) وہاں استعمال ہوتا ہے اور Llama اور Qwen کے ساتھ تیسری فیملی کے فال بیک کے طور پر بھی کام آتا ہے۔
فراہم کنندگان: OpenRouter, Google
فی تعامل 12-70 ٹول کالز میں فنکشن کالنگ کی مقامی حمایت اور درست JSON واپس کرنا ضروری ہے۔ CIRIS ایک آرکیسٹریٹر ہے۔ ہمیں مستحکم ٹول سیمنٹکس چاہیے، بات باتوں میں نہیں۔
CIRIS ہر پرامپٹ میں پورا Accord اور Guide شامل کرتا ہے۔ سادہ خلاصہ نہیں، پوری حکمرانی متن۔ 128K بالکل کم از کم ہے؛ لمبی گفتگو، ٹول آؤٹ پٹ، اور آڈٹ ٹریل کے لیے 256K+ بہت بہتر ہے۔
ہدف: مشترکہ طور پر فی 1M ٹوکن $1.00 سے کم۔ ہم سب سے سستا کام کرنے والا آپشن چنتے ہیں، نہ کہ سب سے سستا بینچ مارک جیتنے والا۔ ایک قابل اعتماد ماڈل جو کبھی JSON نہیں توڑتا، اس سستے ماڈل سے بہتر ہے جو 10 میں سے 1 بار ناکام ہو جائے۔
مضبوط فال بیک چین کے لیے کم از کم دو آزاد فراہم کنندگان سے دستیاب ہونا ضروری ہے۔ CIRIS بندش کے دوران ناکام ہونے کی بجائے آہستہ آہستہ سہولیات کم کرتا ہے۔
تیز جوابات اخلاقی جائزہ ورک فلو کے لیے انسانوں کو عمل میں شامل رکھتے ہیں۔ ہم انٹرایکٹو درجات کے لیے کم تاخیر والے فراہم کنندگان کو ترجیح دیتے ہیں، جبکہ پس منظر کے کاموں کے لیے سست بیک اینڈ قبول کرتے ہیں۔
لاگت کے لیے بہتر بنائے گئے فراہم کنندہ کے ذریعے Llama 4 Maverick، ان گہرے استدلالی مراحل کے لیے جن کے لیے پورے سیاق بجٹ کی ضرورت ہوتی ہے۔
انٹرایکٹو استعمال کے لیے رفتار کے لحاظ سے بہتر بنائے گئے فراہم کنندہ (Groq) کے ذریعے Llama 4 Scout، اور بھاری سیاق کے متبادل کے طور پر Groq پر Maverick۔
Qwen 3.6 کثیر اللسانی Accord کے لیے درکار غیر انگریزی استدلالی راستوں میں اہم کردار ادا کرتا ہے اور چین میں غیر Llama فال بیک فراہم کرتا ہے۔
Gemma 4 آن ڈیوائس، کم بینڈ وڈتھ، اور کمزور نیٹ ورک تعیناتی کے لیے جہاں ماڈل کی جسامت سے زیادہ صارف تک پہنچنا اہم ہو۔
Maverick → Scout → Qwen 3.6 → Gemma 4 متعدد فراہم کنندگان کے پار، تاکہ ایجنٹ ماڈل فیملیوں اور انفراسٹرکچر کی حدود کے پار سختی سے ناکام ہونے کی بجائے آہستہ آہستہ سہولیات کم کرے۔
Maverick گہرے استدلال کو سنبھالتا ہے جہاں پورا سیاق بجٹ اہم ہو۔ Scout انٹرایکٹو درجے کو چلاتا ہے جہاں رفتار اہم ہو۔ Qwen 3.6 Accord کے 29 زبانوں میں درکار کثیر اللسانی استدلالی راستوں تک پہنچتا ہے۔ Gemma 4 وہ چھوٹا آپشن ہے جو ایجنٹ کو عام ہارڈویئر کی رسائی میں لاتا ہے۔ لائن اپ اس طرح چنی گئی ہے کہ کام کے مختلف درجے اس ماڈل کو جاتے ہیں جو واقعی مناسب ہو، بجائے اس کے کہ ایک ماڈل سب کچھ کرے۔
Llama (Maverick + Scout)، Qwen، اور Gemma تین آزاد ٹریننگ پائپ لائنوں اور تین آزاد فراہم کنندہ ماحولیاتی نظاموں سے آتے ہیں۔ یہ فال بیک چین کے لیے اہم ہے: ایک CVE، لائسنسنگ کی تبدیلی، یا کسی ایک فیملی میں فراہم کنندہ کی بندش ایجنٹ کو نہیں گراتی۔ ماڈل کی سطح پر آزادی وہی خاصیت ہے جو استدلال کی سطح پر IDMA جزء کو مضبوط بناتی ہے۔
وہ ماڈل جو پانچ معیاروں پر پورا نہیں اترتے، عام طور پر وہ ماڈل جو ٹوکن قیمت پر پرکشش لگتے ہیں لیکن منظم آؤٹ پٹ اور ٹول کالنگ میں ناکام ہوتے ہیں۔
ناکامی کی نمائندہ مثال (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
یہ خرابی ایسے فریم ورک کے لیے ناقابل قبول ہے جو فی تعامل 12-70 ٹول کالز پر منحصر ہو۔ 3-10 گنا سستی ٹوکن قیمت بھی آپریشنل ناکامیوں کا متحمل نہیں۔
CIRIS ہر پرامپٹ میں پورا Accord اور مکمل Comprehensive Guide شامل کرتا ہے۔ خلاصہ نہیں۔ تلخیص نہیں۔ پوری حکمرانی متن۔
اس سے یہ یقینی ہوتا ہے کہ Accord یا Guide میں تبدیلیاں نئی فائن ٹیون یا پرامپٹ کمپریشن حکمت عملیوں کا انتظار کیے بغیر تمام ایجنٹس کے رویے پر فوری اثر ڈالیں۔
CIRIS Agents بھاری ٹول والے آرکیسٹریٹر ہیں جو ایک ساتھ سنبھالتے ہیں:
یہ مشترکہ سیاق آسانی سے 32K-64K سے زیادہ ہو جاتا ہے، خاص طور پر طویل سیشنز یا پیچیدہ تحقیقات کے لیے۔ اسی لیے 128K کم از کم ہے اور 256K+ بہتر ہے۔
خلاصہ:
CIRIS اپنی اقدار یا طریقہ کار کو ماڈل میں فٹ کرنے کے لیے نہیں کاٹتا۔ بلکہ CIRIS ایسے ماڈل چنتا ہے جو ہر کال پر پورے اخلاقی اور آپریشنل فریم ورک کو اٹھانے کے لیے کافی بڑے ہوں۔ چھوٹی سیاق ونڈو والے ماڈل (چاہے سستے یا مشہور ہوں) پروڈکشن استعمال سے باہر ہیں۔
CIRIS پروڈکشن میں Llama 4 Maverick، Llama 4 Scout، Qwen 3.6، اور Gemma 4 چلاتا ہے کیونکہ یہ مل کر Accord کے مسلط کردہ آپریشنل اور معاشی تقاضے پورے کرتے ہیں: لمبا سیاق، قابل اعتماد ٹول کالنگ، کثیر اللسانی کوریج، اور عام ہارڈویئر تک رسائی، تین آزاد ماڈل فیملیوں کے پار۔ نئے ماڈلوں کی مسلسل نگرانی اور جانچ ہوتی ہے؛ لائن اپ تبھی بدلتی ہے جب کوئی بہتر چیز پانچوں معیاروں پر واقعی پوری اترے۔
یہ بینچ مارک اسکور کا تعاقب یا ہائپ سائیکل کی پیروی کے بارے میں نہیں ہے۔ یہ ایسے ماڈل چننے کے بارے میں ہے جو پروڈکشن میں جوابدہ، ٹول پر مرکوز ایجنٹس کے لیے واقعی کام کریں، اور جو Accord کو اتنی سنجیدگی سے لیں کہ اسے ہر واحد کال میں اٹھائیں۔