ہم کون سے LLM استعمال کرتے ہیں اور کیوں

CIRIS Agent چند منتخب اوپن ماڈلز پر چلتا ہے جو پانچ لازمی معیاروں پر پورا اترتے ہیں۔ موجودہ پروڈکشن لائن اپ Llama 4 Maverick، Llama 4 Scout، Qwen 3.6، اور Gemma 4 پر مشتمل ہے، جنہیں ایجنٹ کے کام کے مختلف حصوں کے لیے چنا گیا ہے۔

Llama 4 Maverick

گہری سوچ کا مرکزی ستون۔ یہ بیک وقت بہت بڑا سیاق و سباق تھام سکتا ہے، اس لیے یہ انہی گہرے استدلال کے مراحل کے لیے پہلی پسند ہے جہاں پوری تصویر سامنے رکھنا سب سے زیادہ ضروری ہوتا ہے۔

فراہم کنندگان: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 فیملی کا تیز رفتار ساتھی۔ Maverick سے چھوٹا اور تیز، مضبوط ٹول کالنگ کے ساتھ۔ ان انٹرایکٹو درجات کے لیے استعمال ہوتا ہے جہاں رفتار اہم ہے اور پورے Maverick سیاق بجٹ کی ضرورت نہیں ہوتی۔

فراہم کنندگان: OpenRouter, Groq

Qwen 3.6

کثیر زبانی گہرائی اور مضبوط منظم آؤٹ پٹ۔ کثیر اللسانی Accord کے لیے درکار غیر انگریزی استدلالی راستوں میں اہم کردار ادا کرتا ہے؛ Llama فیملی سے باہر ایک آزاد فراہم کنندہ بنیاد فال بیک چین میں زائد استعداد فراہم کرتی ہے۔

فراہم کنندگان: OpenRouter, DashScope, DeepInfra

Gemma 4

عام ہارڈویئر پر چلانے کے لیے کافی چھوٹا۔ جہاں خام صلاحیت سے زیادہ رسائی اہم ہو (آن ڈیوائس، کم بینڈ وڈتھ، اور کمزور نیٹ ورک تعیناتی) وہاں استعمال ہوتا ہے اور Llama اور Qwen کے ساتھ تیسری فیملی کے فال بیک کے طور پر بھی کام آتا ہے۔

فراہم کنندگان: OpenRouter, Google

ہمارے ماڈل کے معیار

CIRIS Agent کے لیے پانچ لازمی تقاضے

1. منظم آؤٹ پٹ اور ٹول کا استعمال

فی تعامل 12-70 ٹول کالز میں فنکشن کالنگ کی مقامی حمایت اور درست JSON واپس کرنا ضروری ہے۔ CIRIS ایک آرکیسٹریٹر ہے۔ ہمیں مستحکم ٹول سیمنٹکس چاہیے، بات باتوں میں نہیں۔

2. سیاق ونڈو: کم از کم 128K

CIRIS ہر پرامپٹ میں پورا Accord اور Guide شامل کرتا ہے۔ سادہ خلاصہ نہیں، پوری حکمرانی متن۔ 128K بالکل کم از کم ہے؛ لمبی گفتگو، ٹول آؤٹ پٹ، اور آڈٹ ٹریل کے لیے 256K+ بہت بہتر ہے۔

3. لاگت کی کفایت

ہدف: مشترکہ طور پر فی 1M ٹوکن $1.00 سے کم۔ ہم سب سے سستا کام کرنے والا آپشن چنتے ہیں، نہ کہ سب سے سستا بینچ مارک جیتنے والا۔ ایک قابل اعتماد ماڈل جو کبھی JSON نہیں توڑتا، اس سستے ماڈل سے بہتر ہے جو 10 میں سے 1 بار ناکام ہو جائے۔

4. کثیر فراہم کنندہ دستیابی

مضبوط فال بیک چین کے لیے کم از کم دو آزاد فراہم کنندگان سے دستیاب ہونا ضروری ہے۔ CIRIS بندش کے دوران ناکام ہونے کی بجائے آہستہ آہستہ سہولیات کم کرتا ہے۔

5. رفتار اور صارف تجربہ

تیز جوابات اخلاقی جائزہ ورک فلو کے لیے انسانوں کو عمل میں شامل رکھتے ہیں۔ ہم انٹرایکٹو درجات کے لیے کم تاخیر والے فراہم کنندگان کو ترجیح دیتے ہیں، جبکہ پس منظر کے کاموں کے لیے سست بیک اینڈ قبول کرتے ہیں۔

پروڈکشن تعیناتی

ڈیفالٹ درجہ

لاگت کے لیے بہتر بنائے گئے فراہم کنندہ کے ذریعے Llama 4 Maverick، ان گہرے استدلالی مراحل کے لیے جن کے لیے پورے سیاق بجٹ کی ضرورت ہوتی ہے۔

تیز رفتار درجہ

انٹرایکٹو استعمال کے لیے رفتار کے لحاظ سے بہتر بنائے گئے فراہم کنندہ (Groq) کے ذریعے Llama 4 Scout، اور بھاری سیاق کے متبادل کے طور پر Groq پر Maverick۔

کثیر اللسانی درجہ

Qwen 3.6 کثیر اللسانی Accord کے لیے درکار غیر انگریزی استدلالی راستوں میں اہم کردار ادا کرتا ہے اور چین میں غیر Llama فال بیک فراہم کرتا ہے۔

ایج درجہ

Gemma 4 آن ڈیوائس، کم بینڈ وڈتھ، اور کمزور نیٹ ورک تعیناتی کے لیے جہاں ماڈل کی جسامت سے زیادہ صارف تک پہنچنا اہم ہو۔

فال بیک چین

Maverick → Scout → Qwen 3.6 → Gemma 4 متعدد فراہم کنندگان کے پار، تاکہ ایجنٹ ماڈل فیملیوں اور انفراسٹرکچر کی حدود کے پار سختی سے ناکام ہونے کی بجائے آہستہ آہستہ سہولیات کم کرے۔

یہ لائن اپ کیوں

مختلف کردار، بدلنے کے قابل پرزے نہیں

Maverick گہرے استدلال کو سنبھالتا ہے جہاں پورا سیاق بجٹ اہم ہو۔ Scout انٹرایکٹو درجے کو چلاتا ہے جہاں رفتار اہم ہو۔ Qwen 3.6 Accord کے 29 زبانوں میں درکار کثیر اللسانی استدلالی راستوں تک پہنچتا ہے۔ Gemma 4 وہ چھوٹا آپشن ہے جو ایجنٹ کو عام ہارڈویئر کی رسائی میں لاتا ہے۔ لائن اپ اس طرح چنی گئی ہے کہ کام کے مختلف درجے اس ماڈل کو جاتے ہیں جو واقعی مناسب ہو، بجائے اس کے کہ ایک ماڈل سب کچھ کرے۔

تین آزاد ماڈل فیملیاں

Llama (Maverick + Scout)، Qwen، اور Gemma تین آزاد ٹریننگ پائپ لائنوں اور تین آزاد فراہم کنندہ ماحولیاتی نظاموں سے آتے ہیں۔ یہ فال بیک چین کے لیے اہم ہے: ایک CVE، لائسنسنگ کی تبدیلی، یا کسی ایک فیملی میں فراہم کنندہ کی بندش ایجنٹ کو نہیں گراتی۔ ماڈل کی سطح پر آزادی وہی خاصیت ہے جو استدلال کی سطح پر IDMA جزء کو مضبوط بناتی ہے۔

لائن اپ سے باہر کیا رہتا ہے

وہ ماڈل جو پانچ معیاروں پر پورا نہیں اترتے، عام طور پر وہ ماڈل جو ٹوکن قیمت پر پرکشش لگتے ہیں لیکن منظم آؤٹ پٹ اور ٹول کالنگ میں ناکام ہوتے ہیں۔

ناکامی کی نمائندہ مثال (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

یہ خرابی ایسے فریم ورک کے لیے ناقابل قبول ہے جو فی تعامل 12-70 ٹول کالز پر منحصر ہو۔ 3-10 گنا سستی ٹوکن قیمت بھی آپریشنل ناکامیوں کا متحمل نہیں۔

128K+ سیاق کیوں لازمی ہے

ہمیشہ موجود Accord اور Guide

CIRIS ہر پرامپٹ میں پورا Accord اور مکمل Comprehensive Guide شامل کرتا ہے۔ خلاصہ نہیں۔ تلخیص نہیں۔ پوری حکمرانی متن۔

اس سے یہ یقینی ہوتا ہے کہ Accord یا Guide میں تبدیلیاں نئی فائن ٹیون یا پرامپٹ کمپریشن حکمت عملیوں کا انتظار کیے بغیر تمام ایجنٹس کے رویے پر فوری اثر ڈالیں۔

مکمل اخلاقی اور طریقہ کار کی حالت

CIRIS Agents بھاری ٹول والے آرکیسٹریٹر ہیں جو ایک ساتھ سنبھالتے ہیں:

کثیر مرحلہ ورک فلو
سسٹم کی حالت اور ٹول آؤٹ پٹ
صارف کے پیغامات اور گفتگو کی تاریخ
پورا Accord اور Guide

یہ مشترکہ سیاق آسانی سے 32K-64K سے زیادہ ہو جاتا ہے، خاص طور پر طویل سیشنز یا پیچیدہ تحقیقات کے لیے۔ اسی لیے 128K کم از کم ہے اور 256K+ بہتر ہے۔

خلاصہ:

CIRIS اپنی اقدار یا طریقہ کار کو ماڈل میں فٹ کرنے کے لیے نہیں کاٹتا۔ بلکہ CIRIS ایسے ماڈل چنتا ہے جو ہر کال پر پورے اخلاقی اور آپریشنل فریم ورک کو اٹھانے کے لیے کافی بڑے ہوں۔ چھوٹی سیاق ونڈو والے ماڈل (چاہے سستے یا مشہور ہوں) پروڈکشن استعمال سے باہر ہیں۔

یہ CIRIS Accord کو کیسے سہارا دیتا ہے

ماڈل کا انتخاب بطور اخلاقی بنیادی ڈھانچہ

شفافیت اور جانچ پذیری

لمبا سیاق استدلالی نشانات، فیصلوں، اور ٹول کالز کو انسانی جائزے کے لیے نظر میں رکھتا ہے
مستحکم JSON اور منظم آؤٹ پٹ ہر ٹول استعمال کو قابل جانچ بناتے ہیں
ہر کال میں مکمل حکمرانی دستاویزات اس بات کو یقینی بناتی ہیں کہ فیصلوں کا سراغ اصولوں تک لگایا جا سکے

لچک اور حکمرانی

کثیر فراہم کنندہ تعیناتی نازک اخلاقی بنیادی ڈھانچے میں ناکامی کے واحد نقاط سے بچاتی ہے
"کافی اچھا اور قابل اعتماد" کو "چمکدار لیکن کمزور" پر ترجیح دینا سلامتی اور تسلسل کو آگے رکھتا ہے
بندش کے دوران درجہ بدرجہ کمی سروس کی دستیابی برقرار رکھتی ہے

انسانی نگرانی

تیز رفتار درجے حقیقی وقت کے اخلاقی جائزے کے لیے انسانوں کو آسانی سے عمل میں شامل رکھتے ہیں
سستے درجے ممنوعہ اخراجات کے بغیر وسیع پس منظری تجزیہ ممکن بناتے ہیں
متوازن طریقہ کار روزمرہ استعمال اور وقتاً فوقتاً حکمرانی آڈٹ دونوں کو سہارا دیتا ہے

خلاصہ

CIRIS پروڈکشن میں Llama 4 Maverick، Llama 4 Scout، Qwen 3.6، اور Gemma 4 چلاتا ہے کیونکہ یہ مل کر Accord کے مسلط کردہ آپریشنل اور معاشی تقاضے پورے کرتے ہیں: لمبا سیاق، قابل اعتماد ٹول کالنگ، کثیر اللسانی کوریج، اور عام ہارڈویئر تک رسائی، تین آزاد ماڈل فیملیوں کے پار۔ نئے ماڈلوں کی مسلسل نگرانی اور جانچ ہوتی ہے؛ لائن اپ تبھی بدلتی ہے جب کوئی بہتر چیز پانچوں معیاروں پر واقعی پوری اترے۔

یہ بینچ مارک اسکور کا تعاقب یا ہائپ سائیکل کی پیروی کے بارے میں نہیں ہے۔ یہ ایسے ماڈل چننے کے بارے میں ہے جو پروڈکشن میں جوابدہ، ٹول پر مرکوز ایجنٹس کے لیے واقعی کام کریں، اور جو Accord کو اتنی سنجیدگی سے لیں کہ اسے ہر واحد کال میں اٹھائیں۔