CIRIS Agent روی مجموعهای کوچک از مدلهای باز اجرا میشود که پنج معیار غیرقابل مذاکره را دارند. خط تولید فعلی شامل Llama 4 Maverick، Llama 4 Scout، Qwen 3.6 و Gemma 4 است که هر کدام برای نقشهای متفاوتی در حجم کار عامل انتخاب شدهاند.
موتور استدلال اصلی. حجم بسیار زیادی از متن را بهطور همزمان نگه میدارد، پس گزینه پیشفرض برای مراحل استدلال عمیقتر است که نگهداشتن کل تصویر اهمیت دارد.
ارائهدهندگان: OpenRouter، Groq، Together، DeepInfra
همراه سریع در خانواده Llama 4. کوچکتر و سریعتر از Maverick، با قابلیت فراخوانی ابزار قوی. برای سطوح تعاملی استفاده میشود که تأخیر اهمیت دارد و بودجه کامل متن Maverick لازم نیست.
ارائهدهندگان: OpenRouter، Groq
عمق چندزبانه و خروجی ساختاریافته قوی. در مسیرهای استدلال غیرانگلیسی که پیمان چندزبانه نیاز دارد وزن میکشد؛ پایگاه ارائهدهنده مستقل خارج از خانواده Llama به زنجیره بازگشتی تکرارپذیری میافزاید.
ارائهدهندگان: OpenRouter، DashScope، DeepInfra
بهاندازه کافی کوچک که روی سختافزار معمولی اجرا شود. جایی استفاده میشود که دسترسی بیشتر از ظرفیت خام اهمیت دارد (استقرار روی دستگاه، پهنای باند پایین، و شبکههای ضعیف) و بهعنوان بازگشتی خانواده سوم کنار Llama و Qwen.
ارائهدهندگان: OpenRouter، Google
باید بهطور بومی از فراخوانی تابع پشتیبانی کند و JSON معتبر در ۱۲ تا ۷۰ فراخوانی ابزار در هر تعامل بازگرداند. CIRIS یک هماهنگساز است. به معناشناسی پایدار ابزار نیاز داریم، نه مکالمه پرحرف.
CIRIS کل Accord و Guide را در هر پرامپت جاسازی میکند. 128K حداقل مطلق است؛ 256K+ برای مکالمههای طولانی، خروجیهای ابزار و مسیرهای حسابرسی بهشدت ترجیح داده میشود.
هدف: کمتر از $1.00 در هر 1M توکن ترکیبی. ارزانترین گزینه کارآمد را انتخاب میکنیم، نه برنده ارزانترین معیار. مدلی که JSON را هرگز خراب نمیکند بهتر از مدلی است که هر ۱۰ فراخوانی یکبار شکست میخورد.
باید از حداقل دو ارائهدهنده مستقل در دسترس باشد تا زنجیرههای بازگشتی قوی داشته باشیم. CIRIS در زمان قطعی بهجای شکست کامل، بهآرامی کاهش کیفیت میدهد.
پاسخهای سریع انسانها را در حلقه برای گردشهای کاری بررسی اخلاقی نگه میدارد. ارائهدهندگان با تأخیر پایین را برای سطوح تعاملی اولویت میدهیم و پشتیبانهای کندتر را برای وظایف پسزمینه قبول میکنیم.
Llama 4 Maverick از طریق ارائهدهنده بهینهشده هزینه برای مراحل استدلال عمیق که به بودجه کامل متن نیاز دارند.
Llama 4 Scout از طریق ارائهدهنده بهینهشده سرعت (Groq) برای استفاده تعاملی، با Maverick روی Groq بهعنوان گزینه با متن سنگینتر.
Qwen 3.6 در مسیرهای استدلال غیرانگلیسی که پیمان چندزبانه نیاز دارد وزن میکشد و یک بازگشتی غیر-Llama در زنجیره فراهم میکند.
Gemma 4 برای استقرارهای روی دستگاه، با پهنای باند پایین، و شبکههای ضعیف که دسترسی به کاربر مهمتر از اندازه مدل است.
Maverick → Scout → Qwen 3.6 → Gemma 4 در چند ارائهدهنده، تا عامل بهجای شکست کامل، در خانوادههای مدل و مرزهای زیرساختی بهآرامی کاهش کیفیت دهد.
Maverick استدلال عمیق را که بودجه کامل متن اهمیت دارد مدیریت میکند. Scout سطح تعاملی را که تأخیر غالب است پوشش میدهد. Qwen 3.6 به مسیرهای استدلال چندزبانه که Accord در ۲۹ زبان نیاز دارد میرسد. Gemma 4 گزینه کمحجم است که عامل را در دسترس سختافزار معمولی قرار میدهد. خطبندی طوری انتخاب شده که سطوح مختلف کار به مدلی بروند که واقعاً مناسب است، بهجای اینکه یک مدل همه کارها را انجام دهد.
Llama (Maverick + Scout)، Qwen و Gemma از سه خط آموزشی مستقل و سه اکوسیستم ارائهدهنده مستقل میآیند. این برای زنجیرههای بازگشتی اهمیت دارد: یک CVE، تغییر مجوز، یا قطعی ارائهدهنده در یک خانواده، عامل را از کار نمیاندازد. استقلال در لایه مدل همان ویژگی است که مؤلفه IDMA را در لایه استدلال قوی میکند.
مدلهایی که نمیتوانند پنج معیار را برآورده کنند، بیشتر اوقات مدلهایی که در قیمت توکن جذاب به نظر میرسند اما در خروجی ساختاریافته و فراخوانی ابزار شکست میخورند.
حالت شکست نمونه (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"
این خطا برای یک فریمورک که به ۱۲ تا ۷۰ فراخوانی ابزار در هر تعامل وابسته است، غیرقابل قبول است. حتی قیمت توکن ۳ تا ۱۰ برابر ارزانتر، ارزش شکستهای عملیاتی را ندارد.
CIRIS کل Accord و Comprehensive Guide کامل را در هر پرامپت جاسازی میکند. نه خلاصه. نه نسخه فشرده. کل متن حاکمیتی.
این تضمین میکند که بهروزرسانیهای Accord یا Guide فوراً رفتار همه عاملها را تحت تأثیر قرار میدهد، بدون انتظار برای تنظیمهای دقیق جدید یا استراتژیهای فشردهسازی پرامپت.
CIRIS Agents هماهنگسازهای سنگین ابزار هستند که این موارد را مدیریت میکنند:
این متن ترکیبی بهراحتی از 32K تا 64K فراتر میرود، بهخصوص برای جلسات طولانی یا تحقیقات پیچیده. به همین دلیل است که 128K حداقل است و 256K+ ترجیح داده میشود.
نتیجه نهایی:
CIRIS ارزشها یا رویههایش را برای جا گرفتن در مدل کوتاه نمیکند. در عوض، CIRIS مدلهایی را انتخاب میکند که بهاندازه کافی بزرگ هستند تا کل چارچوب اخلاقی و عملیاتی را در هر فراخوانی حمل کنند. مدلهایی با پنجره متن کوچکتر (حتی اگر ارزانتر یا محبوبتر باشند) از استفاده تولیدی حذف میشوند.
CIRIS، Llama 4 Maverick، Llama 4 Scout، Qwen 3.6 و Gemma 4 را در تولید اجرا میکند زیرا با هم محدودیتهای عملیاتی و اقتصادی که Accord تحمیل میکند را برآورده میکنند: متن بلند، فراخوانی ابزار قابل اعتماد، پوشش چندزبانه، و دسترسی به سختافزار معمولی، در سه خانواده مدل مستقل. مدلهای جدید بهطور مداوم پایش و آزمایش میشوند؛ خطبندی تغییر میکند وقتی چیزی بهتر واقعاً پنج معیار را برآورده کند.
این درباره دنبالکردن امتیازهای معیار یا پیروی از چرخههای هایپ نیست. درباره انتخاب مدلهایی است که برای عاملهای پاسخگو و ابزارمحور در تولید واقعاً کار میکنند و Accord را بهاندازه کافی جدی میگیرند تا آن را در هر فراخوانی حمل کنند.