আমরা কোন LLM ব্যবহার করি এবং কেন

CIRIS Agent চলে এমন কিছু ওপেন মডেলে যেগুলো পাঁচটি অবশ্যই-পূরণীয় মানদণ্ড মেটায়। বর্তমান প্রোডাকশন লাইনআপে রয়েছে Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, এবং Gemma 4 — এজেন্টের কাজের ভার অনুযায়ী আলাদা আলাদা ভূমিকায় বেছে নেওয়া।

Llama 4 Maverick

যুক্তি-বিশ্লেষণের মূল চালিকাশক্তি। এটি একসাথে অনেক বড় প্রেক্ষাপট ধারণ করতে পারে, তাই গভীর যুক্তি-প্রক্রিয়ার ধাপগুলোয় এটিই ডিফল্ট — যেখানে পুরো চিত্রটা চোখের সামনে রাখা সবচেয়ে জরুরি।

প্রোভাইডার: OpenRouter, Groq, Together, DeepInfra

Llama 4 Scout

Llama 4 পরিবারের দ্রুত সঙ্গী। Maverick-এর চেয়ে ছোট ও দ্রুততর, শক্তিশালী টুল কলিং সহ। ইন্টারঅ্যাক্টিভ স্তরে ব্যবহৃত হয় যেখানে লেটেন্সি গুরুত্বপূর্ণ এবং Maverick-এর পূর্ণ প্রেক্ষাপট বরাদ্দের প্রয়োজন নেই।

প্রোভাইডার: OpenRouter, Groq

Qwen 3.6

বহুভাষিক গভীরতা এবং শক্তিশালী কাঠামোবদ্ধ আউটপুট। পলিগ্লট Accord-এর প্রয়োজনীয় অ-ইংরেজি যুক্তি-পথগুলোতে ভার বহন করে; Llama পরিবারের বাইরে একটি স্বতন্ত্র প্রোভাইডার ভিত্তি ফলব্যাক চেইনে অতিরিক্ত নির্ভরযোগ্যতা যোগ করে।

প্রোভাইডার: OpenRouter, DashScope, DeepInfra

Gemma 4

সাধারণ হার্ডওয়্যারে চালানোর মতো ছোট। যেখানে সক্ষমতার চেয়ে পৌঁছানো বেশি গুরুত্বপূর্ণ সেখানে ব্যবহৃত হয় — অন-ডিভাইস, কম-ব্যান্ডউইথ এবং দুর্বল নেটওয়ার্ক পরিবেশে — এবং Llama ও Qwen-এর পাশাপাশি তৃতীয় পরিবারের ফলব্যাক হিসেবেও।

প্রোভাইডার: OpenRouter, Google

আমাদের মডেল নির্বাচনের মানদণ্ড

CIRIS Agent-এর জন্য পাঁচটি অবশ্যই-পূরণীয় শর্ত

১. কাঠামোবদ্ধ আউটপুট ও টুল ব্যবহার

প্রতিটি ইন্টারঅ্যাকশনে ১২ থেকে ৭০টি টুল কলে নেটিভভাবে ফাংশন কলিং সাপোর্ট করতে হবে এবং বৈধ JSON ফেরত দিতে হবে। CIRIS একটি অর্কেস্ট্রেটর। আমাদের দরকার স্থিতিশীল টুল সেমান্টিক্স, গল্পের মতো কথোপকথন নয়।

২. কনটেক্সট উইন্ডো: ন্যূনতম 128K

CIRIS প্রতিটি প্রম্পটে পূর্ণ Accord এবং Guide অন্তর্ভুক্ত করে। 128K হলো নিরঙ্কুশ ন্যূনতম; দীর্ঘ কথোপকথন, টুল আউটপুট এবং অডিট ট্রেইলের জন্য 256K+ দৃঢ়ভাবে পছন্দনীয়।

৩. খরচের কার্যকারিতা

লক্ষ্য: সম্মিলিতভাবে প্রতি ১০ লাখ টোকেনে $১.০০-এর কম। আমরা সবচেয়ে সস্তা বেঞ্চমার্ক বিজয়ী নয়, সবচেয়ে সস্তা কার্যকর বিকল্পটি বেছে নিই। একটি নির্ভরযোগ্য মডেল যা কখনো JSON ভাঙে না, সেটি এমন সস্তা মডেলের চেয়ে ভালো যা প্রতি ১০ কলে একবার ব্যর্থ হয়।

৪. একাধিক প্রোভাইডারে উপলব্ধতা

শক্তিশালী ফলব্যাক চেইনের জন্য কমপক্ষে দুটি স্বতন্ত্র প্রোভাইডারে পাওয়া যেতে হবে। বিভ্রাটের সময় CIRIS কঠিনভাবে ব্যর্থ না হয়ে মসৃণভাবে সক্ষমতা কমিয়ে চলে।

৫. লেটেন্সি ও ব্যবহারকারীর অভিজ্ঞতা

দ্রুত সাড়া নৈতিক পর্যালোচনা প্রক্রিয়ায় মানুষকে লুপে রাখে। আমরা ইন্টারঅ্যাক্টিভ স্তরে কম-লেটেন্সি প্রোভাইডারকে অগ্রাধিকার দিই, পাশাপাশি ব্যাকগ্রাউন্ড কাজের জন্য ধীর ব্যাকএন্ড গ্রহণ করি।

প্রোডাকশন পরিবেশে স্থাপনা

ডিফল্ট স্তর

পূর্ণ প্রেক্ষাপট বরাদ্দ প্রয়োজন এমন গভীর-যুক্তি ধাপগুলোর জন্য খরচ-সর্বোচ্চকারী প্রোভাইডারের মাধ্যমে Llama 4 Maverick।

দ্রুত স্তর

ইন্টারঅ্যাক্টিভ ব্যবহারের জন্য গতি-সর্বোচ্চকারী প্রোভাইডার (Groq) মাধ্যমে Llama 4 Scout, এবং ভারী-প্রেক্ষাপট বিকল্প হিসেবে Groq-এ Maverick।

বহুভাষিক স্তর

Qwen 3.6 পলিগ্লট Accord-এর প্রয়োজনীয় অ-ইংরেজি যুক্তি-পথগুলোতে ভার বহন করে এবং চেইনে একটি অ-Llama ফলব্যাক সরবরাহ করে।

এজ স্তর

অন-ডিভাইস, কম-ব্যান্ডউইথ এবং দুর্বল-নেটওয়ার্ক পরিবেশে Gemma 4 — যেখানে মডেলের আকারের চেয়ে ব্যবহারকারীর কাছে পৌঁছানো বেশি গুরুত্বপূর্ণ।

ফলব্যাক চেইন

একাধিক প্রোভাইডার জুড়ে Maverick → Scout → Qwen 3.6 → Gemma 4, যাতে এজেন্ট কঠিনভাবে ব্যর্থ না হয়ে মডেল পরিবার ও অবকাঠামোর সীমানা পেরিয়ে মসৃণভাবে সক্ষমতা কমিয়ে চলতে পারে।

এই লাইনআপ কেন

আলাদা ভূমিকা, বিনিময়যোগ্য যন্ত্রাংশ নয়

Maverick গভীর যুক্তি পরিচালনা করে যেখানে পূর্ণ প্রেক্ষাপট বরাদ্দ গুরুত্বপূর্ণ। Scout ইন্টারঅ্যাক্টিভ স্তর বহন করে যেখানে লেটেন্সি প্রধান। Qwen 3.6 Accord-এর প্রয়োজনীয় ২৯টি ভাষায় পলিগ্লট যুক্তি-পথে পৌঁছায়। Gemma 4 হলো ছোট-আকারের বিকল্প যা সাধারণ হার্ডওয়্যারে এজেন্টকে ব্যবহারযোগ্য করে তোলে। লাইনআপটি এমনভাবে বেছে নেওয়া হয়েছে যাতে বিভিন্ন স্তরের কাজ সত্যিকারের উপযুক্ত মডেলে যায়, একটি মডেলকে সব কিছু করতে বাধ্য না করে।

তিনটি স্বতন্ত্র মডেল পরিবার

Llama (Maverick + Scout), Qwen, এবং Gemma তিনটি স্বতন্ত্র ট্রেনিং পাইপলাইন এবং তিনটি স্বতন্ত্র প্রোভাইডার পরিবেশ থেকে আসে। ফলব্যাক চেইনের জন্য এটি গুরুত্বপূর্ণ: একটি পরিবারে CVE, লাইসেন্সিং পরিবর্তন বা প্রোভাইডার বিভ্রাট এজেন্টকে অচল করে না। মডেল স্তরে স্বাতন্ত্র্য হলো সেই একই বৈশিষ্ট্য যা যুক্তি স্তরে IDMA উপাদানকে শক্তিশালী করে।

লাইনআপ থেকে কী বাদ থাকে

যেসব মডেল পাঁচটি মানদণ্ড পূরণ করতে পারে না — বেশিরভাগ ক্ষেত্রে, যেসব মডেল টোকেন মূল্যে আকর্ষণীয় কিন্তু কাঠামোবদ্ধ আউটপুট এবং টুল কলিংয়ে ব্যর্থ।

প্রতিনিধিত্বমূলক ব্যর্থতার উদাহরণ (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

১২ থেকে ৭০টি টুল কলের উপর নির্ভরশীল একটি ফ্রেমওয়ার্কের জন্য এই ত্রুটি গ্রহণযোগ্য নয়। ৩ থেকে ১০ গুণ সস্তা টোকেন মূল্যও কার্যগত ব্যর্থতার জন্য মূল্য দেওয়ার যোগ্য নয়।

কেন 128K+ প্রেক্ষাপট অপরিহার্য

সর্বদা সক্রিয় Accord এবং Guide

CIRIS প্রতিটি প্রম্পটে পূর্ণ Accord এবং সম্পূর্ণ Comprehensive Guide অন্তর্ভুক্ত করে। সারসংক্ষেপ নয়। সংকুচিত সংস্করণ নয়। পুরো পরিচালনা পাঠ্যটি।

এটি নিশ্চিত করে যে Accord বা Guide-এ আপডেট সব এজেন্টের আচরণে তাৎক্ষণিকভাবে প্রভাব ফেলে, নতুন ফাইন-টিউন বা প্রম্পট সংকোচন কৌশলের অপেক্ষা না করে।

পূর্ণ নৈতিক ও প্রক্রিয়াগত অবস্থা

CIRIS Agents হলো টুল-নির্ভর অর্কেস্ট্রেটর যারা একসাথে সামলায়:

বহু-ধাপের কার্যপ্রবাহ
সিস্টেম অবস্থা এবং টুল আউটপুট
ব্যবহারকারীর বার্তা ও কথোপকথনের ইতিহাস
সম্পূর্ণ Accord এবং Guide

এই সম্মিলিত প্রেক্ষাপট সহজেই ৩২K-৬৪K ছাড়িয়ে যায়, বিশেষত দীর্ঘ সেশন বা জটিল তদন্তে। তাই 128K হলো ন্যূনতম এবং 256K+ পছন্দনীয়।

সারকথা:

CIRIS মডেলের উপযোগী করতে তার মূল্যবোধ বা প্রক্রিয়া ছাঁটাই করে না। বরং CIRIS এমন মডেল বেছে নেয় যা প্রতিটি কলে পুরো নৈতিক ও কার্যগত কাঠামো বহন করার মতো বড়। ছোট প্রেক্ষাপট উইন্ডোর মডেল (সস্তা বা বেশি জনপ্রিয় হলেও) প্রোডাকশন ব্যবহার থেকে বাদ দেওয়া হয়।

এটি কীভাবে CIRIS Accord-কে সমর্থন করে

নৈতিক অবকাঠামো হিসেবে মডেল নির্বাচন

স্বচ্ছতা ও পরীক্ষাযোগ্যতা

দীর্ঘ প্রেক্ষাপট মানুষের পর্যালোচনার জন্য যুক্তি-ট্রেস, সিদ্ধান্ত এবং টুল কল দৃশ্যমান রাখে
স্থিতিশীল JSON এবং কাঠামোবদ্ধ আউটপুট প্রতিটি টুল ব্যবহারকে অডিটযোগ্য করে
প্রতিটি কলে সম্পূর্ণ পরিচালনা দলিল নিশ্চিত করে যে সিদ্ধান্তগুলো নীতির দিকে ট্রেস করা যায়

স্থিতিস্থাপকতা ও পরিচালনা

বহু-প্রোভাইডার স্থাপনা গুরুত্বপূর্ণ নৈতিক অবকাঠামোতে একক ব্যর্থতার বিন্দু এড়ায়
'চকচকে কিন্তু ভঙ্গুর'-এর চেয়ে 'যথেষ্ট ভালো ও নির্ভরযোগ্য' বেছে নেওয়া নিরাপত্তা ও ধারাবাহিকতাকে অগ্রাধিকার দেয়
বিভ্রাটের সময় মসৃণ সক্ষমতা হ্রাস সেবার উপলব্ধতা বজায় রাখে

মানব তদারকি

দ্রুত স্তর রিয়েল-টাইম নৈতিক পর্যালোচনার জন্য মানুষকে স্বাচ্ছন্দ্যে লুপে রাখে
সস্তা স্তর অত্যধিক খরচ ছাড়াই ব্যাপক ব্যাকগ্রাউন্ড বিশ্লেষণ সক্ষম করে
সুষম পদ্ধতি দৈনন্দিন ব্যবহার এবং পর্যায়ক্রমিক পরিচালনা অডিট উভয়কেই সমর্থন করে

সারকথা

CIRIS প্রোডাকশনে Llama 4 Maverick, Llama 4 Scout, Qwen 3.6, এবং Gemma 4 চালায় কারণ এগুলো একসাথে Accord যে কার্যগত ও অর্থনৈতিক সীমাবদ্ধতা আরোপ করে তা পূরণ করে: দীর্ঘ প্রেক্ষাপট, নির্ভরযোগ্য টুল কলিং, বহুভাষিক কভারেজ, এবং তিনটি স্বতন্ত্র মডেল পরিবার জুড়ে সাধারণ হার্ডওয়্যারে পৌঁছানো। নতুন মডেল ক্রমাগত পর্যবেক্ষণ ও পরীক্ষা করা হয়; যখন কোনো কিছু সত্যিকারের পাঁচটি মানদণ্ড পূরণ করে তখন লাইনআপ পরিবর্তিত হয়।

এটি বেঞ্চমার্ক স্কোর তাড়া করা বা হাইপ সাইকেল অনুসরণ করার বিষয়ে নয়। এটি এমন মডেল বেছে নেওয়ার বিষয়ে যা প্রোডাকশনে দায়বদ্ধ, টুল-কেন্দ্রিক এজেন্টের জন্য আসলে কাজ করে — এবং Accord-কে যথেষ্ট গুরুত্ব দেয় যে প্রতিটি একক কলে তা বহন করে।