چه مدل‌های زبانی استفاده می‌کنیم و چرا

CIRIS Agent روی مجموعه‌ای کوچک از مدل‌های باز اجرا می‌شود که پنج معیار غیرقابل مذاکره را دارند. خط تولید فعلی شامل Llama 4 Maverick، Llama 4 Scout، Qwen 3.6 و Gemma 4 است که هر کدام برای نقش‌های متفاوتی در حجم کار عامل انتخاب شده‌اند.

Llama 4 Maverick

موتور استدلال اصلی. حجم بسیار زیادی از متن را به‌طور همزمان نگه می‌دارد، پس گزینه پیش‌فرض برای مراحل استدلال عمیق‌تر است که نگه‌داشتن کل تصویر اهمیت دارد.

ارائه‌دهندگان: OpenRouter، Groq، Together، DeepInfra

Llama 4 Scout

همراه سریع در خانواده Llama 4. کوچک‌تر و سریع‌تر از Maverick، با قابلیت فراخوانی ابزار قوی. برای سطوح تعاملی استفاده می‌شود که تأخیر اهمیت دارد و بودجه کامل متن Maverick لازم نیست.

ارائه‌دهندگان: OpenRouter، Groq

Qwen 3.6

عمق چندزبانه و خروجی ساختاریافته قوی. در مسیرهای استدلال غیرانگلیسی که پیمان چندزبانه نیاز دارد وزن می‌کشد؛ پایگاه ارائه‌دهنده مستقل خارج از خانواده Llama به زنجیره بازگشتی تکرارپذیری می‌افزاید.

ارائه‌دهندگان: OpenRouter، DashScope، DeepInfra

Gemma 4

به‌اندازه کافی کوچک که روی سخت‌افزار معمولی اجرا شود. جایی استفاده می‌شود که دسترسی بیشتر از ظرفیت خام اهمیت دارد (استقرار روی دستگاه، پهنای باند پایین، و شبکه‌های ضعیف) و به‌عنوان بازگشتی خانواده سوم کنار Llama و Qwen.

ارائه‌دهندگان: OpenRouter، Google

معیارهای مدل ما

پنج الزام غیرقابل مذاکره برای CIRIS Agent

۱. خروجی ساختاریافته و استفاده از ابزار

باید به‌طور بومی از فراخوانی تابع پشتیبانی کند و JSON معتبر در ۱۲ تا ۷۰ فراخوانی ابزار در هر تعامل بازگرداند. CIRIS یک هماهنگ‌ساز است. به معناشناسی پایدار ابزار نیاز داریم، نه مکالمه پرحرف.

۲. پنجره متن: حداقل 128K

CIRIS کل Accord و Guide را در هر پرامپت جاسازی می‌کند. 128K حداقل مطلق است؛ 256K+ برای مکالمه‌های طولانی، خروجی‌های ابزار و مسیرهای حسابرسی به‌شدت ترجیح داده می‌شود.

۳. کارایی هزینه

هدف: کمتر از $1.00 در هر 1M توکن ترکیبی. ارزان‌ترین گزینه کارآمد را انتخاب می‌کنیم، نه برنده ارزان‌ترین معیار. مدلی که JSON را هرگز خراب نمی‌کند بهتر از مدلی است که هر ۱۰ فراخوانی یک‌بار شکست می‌خورد.

۴. دسترسی چندارائه‌دهنده

باید از حداقل دو ارائه‌دهنده مستقل در دسترس باشد تا زنجیره‌های بازگشتی قوی داشته باشیم. CIRIS در زمان قطعی به‌جای شکست کامل، به‌آرامی کاهش کیفیت می‌دهد.

۵. تأخیر و تجربه کاربری

پاسخ‌های سریع انسان‌ها را در حلقه برای گردش‌های کاری بررسی اخلاقی نگه می‌دارد. ارائه‌دهندگان با تأخیر پایین را برای سطوح تعاملی اولویت می‌دهیم و پشتیبان‌های کندتر را برای وظایف پس‌زمینه قبول می‌کنیم.

استقرار تولیدی

سطح پیش‌فرض

Llama 4 Maverick از طریق ارائه‌دهنده بهینه‌شده هزینه برای مراحل استدلال عمیق که به بودجه کامل متن نیاز دارند.

سطح سریع

Llama 4 Scout از طریق ارائه‌دهنده بهینه‌شده سرعت (Groq) برای استفاده تعاملی، با Maverick روی Groq به‌عنوان گزینه با متن سنگین‌تر.

سطح چندزبانه

Qwen 3.6 در مسیرهای استدلال غیرانگلیسی که پیمان چندزبانه نیاز دارد وزن می‌کشد و یک بازگشتی غیر-Llama در زنجیره فراهم می‌کند.

سطح لبه

Gemma 4 برای استقرارهای روی دستگاه، با پهنای باند پایین، و شبکه‌های ضعیف که دسترسی به کاربر مهم‌تر از اندازه مدل است.

زنجیره بازگشتی

Maverick → Scout → Qwen 3.6 → Gemma 4 در چند ارائه‌دهنده، تا عامل به‌جای شکست کامل، در خانواده‌های مدل و مرزهای زیرساختی به‌آرامی کاهش کیفیت دهد.

چرا این خط‌بندی

نقش‌های متفاوت، نه قطعات قابل تعویض

Maverick استدلال عمیق را که بودجه کامل متن اهمیت دارد مدیریت می‌کند. Scout سطح تعاملی را که تأخیر غالب است پوشش می‌دهد. Qwen 3.6 به مسیرهای استدلال چندزبانه که Accord در ۲۹ زبان نیاز دارد می‌رسد. Gemma 4 گزینه کم‌حجم است که عامل را در دسترس سخت‌افزار معمولی قرار می‌دهد. خط‌بندی طوری انتخاب شده که سطوح مختلف کار به مدلی بروند که واقعاً مناسب است، به‌جای اینکه یک مدل همه کارها را انجام دهد.

سه خانواده مدل مستقل

Llama (Maverick + Scout)، Qwen و Gemma از سه خط آموزشی مستقل و سه اکوسیستم ارائه‌دهنده مستقل می‌آیند. این برای زنجیره‌های بازگشتی اهمیت دارد: یک CVE، تغییر مجوز، یا قطعی ارائه‌دهنده در یک خانواده، عامل را از کار نمی‌اندازد. استقلال در لایه مدل همان ویژگی است که مؤلفه IDMA را در لایه استدلال قوی می‌کند.

چه چیزی از خط‌بندی خارج می‌ماند

مدل‌هایی که نمی‌توانند پنج معیار را برآورده کنند، بیشتر اوقات مدل‌هایی که در قیمت توکن جذاب به نظر می‌رسند اما در خروجی ساختاریافته و فراخوانی ابزار شکست می‌خورند.

حالت شکست نمونه (GPT-OSS-20B): "tool choice is required, but the model did not call a tool"

این خطا برای یک فریم‌ورک که به ۱۲ تا ۷۰ فراخوانی ابزار در هر تعامل وابسته است، غیرقابل قبول است. حتی قیمت توکن ۳ تا ۱۰ برابر ارزان‌تر، ارزش شکست‌های عملیاتی را ندارد.

چرا متن بیش از 128K غیرقابل مذاکره است

Accord و Guide همیشه فعال

CIRIS کل Accord و Comprehensive Guide کامل را در هر پرامپت جاسازی می‌کند. نه خلاصه. نه نسخه فشرده. کل متن حاکمیتی.

این تضمین می‌کند که به‌روزرسانی‌های Accord یا Guide فوراً رفتار همه عامل‌ها را تحت تأثیر قرار می‌دهد، بدون انتظار برای تنظیم‌های دقیق جدید یا استراتژی‌های فشرده‌سازی پرامپت.

حالت اخلاقی و رویه‌ای کامل

CIRIS Agents هماهنگ‌سازهای سنگین ابزار هستند که این موارد را مدیریت می‌کنند:

گردش‌های کاری چندمرحله‌ای
حالت سیستم و خروجی‌های ابزار
پیام‌های کاربر و تاریخچه مکالمه
کل Accord و Guide

این متن ترکیبی به‌راحتی از 32K تا 64K فراتر می‌رود، به‌خصوص برای جلسات طولانی یا تحقیقات پیچیده. به همین دلیل است که 128K حداقل است و 256K+ ترجیح داده می‌شود.

نتیجه نهایی:

CIRIS ارزش‌ها یا رویه‌هایش را برای جا گرفتن در مدل کوتاه نمی‌کند. در عوض، CIRIS مدل‌هایی را انتخاب می‌کند که به‌اندازه کافی بزرگ هستند تا کل چارچوب اخلاقی و عملیاتی را در هر فراخوانی حمل کنند. مدل‌هایی با پنجره متن کوچک‌تر (حتی اگر ارزان‌تر یا محبوب‌تر باشند) از استفاده تولیدی حذف می‌شوند.

چگونه این از CIRIS Accord پشتیبانی می‌کند

انتخاب مدل به‌عنوان زیرساخت اخلاقی

شفافیت و قابلیت بازرسی

متن بلند، مسیرهای استدلال، تصمیمات و فراخوانی‌های ابزار را برای بررسی انسانی قابل مشاهده نگه می‌دارد
خروجی‌های JSON پایدار و ساختاریافته، هر فراخوانی ابزار را قابل حسابرسی می‌کنند
اسناد حاکمیتی کامل در هر فراخوانی، تضمین می‌کنند تصمیمات به اصول قابل ردیابی هستند

تاب‌آوری و حاکمیت

استقرار چندارائه‌دهنده از نقاط تکین شکست در زیرساخت اخلاقی حیاتی جلوگیری می‌کند
انتخاب «به‌اندازه کافی خوب و قابل اعتماد» به‌جای «چشمگیر اما شکننده»، ایمنی و تداوم را اولویت می‌دهد
کاهش کیفیت تدریجی در زمان قطعی، دسترسی به سرویس را حفظ می‌کند

نظارت انسانی

سطوح سریع انسان‌ها را به‌راحتی در حلقه بررسی اخلاقی بلادرنگ نگه می‌دارند
سطوح ارزان‌تر، تحلیل پس‌زمینه گسترده را بدون هزینه‌های گزاف امکان‌پذیر می‌کنند
رویکرد متوازن از استفاده روزمره و حسابرسی‌های دوره‌ای حاکمیتی پشتیبانی می‌کند

نتیجه نهایی

CIRIS، Llama 4 Maverick، Llama 4 Scout، Qwen 3.6 و Gemma 4 را در تولید اجرا می‌کند زیرا با هم محدودیت‌های عملیاتی و اقتصادی که Accord تحمیل می‌کند را برآورده می‌کنند: متن بلند، فراخوانی ابزار قابل اعتماد، پوشش چندزبانه، و دسترسی به سخت‌افزار معمولی، در سه خانواده مدل مستقل. مدل‌های جدید به‌طور مداوم پایش و آزمایش می‌شوند؛ خط‌بندی تغییر می‌کند وقتی چیزی بهتر واقعاً پنج معیار را برآورده کند.

این درباره دنبال‌کردن امتیازهای معیار یا پیروی از چرخه‌های هایپ نیست. درباره انتخاب مدل‌هایی است که برای عامل‌های پاسخ‌گو و ابزارمحور در تولید واقعاً کار می‌کنند و Accord را به‌اندازه کافی جدی می‌گیرند تا آن را در هر فراخوانی حمل کنند.