يعمل CIRISAgent على مجموعة صغيرة من النماذج المفتوحة التي تستوفي خمسة معايير غير قابلة للتفاوض. خط الإنتاج الحالي هو Llama 4 Maverick وLlama 4 Scout وQwen 3.6 وGemma 4، وقد اختيرت لأدوار مختلفة في عبء عمل الوكيل.
قوة العمل الاستدلالية. يستوعب كمية كبيرة جدًا من السياق في آنٍ واحد، لذا يُعدّ الخيار الافتراضي لخطوات التفكير العميق التي تستلزم رؤية الصورة كاملة.
المزودون: OpenRouter، Groq، Together، DeepInfra
الرفيق السريع في عائلة Llama 4. أصغر حجمًا وأسرع من Maverick، مع دعم قوي لاستدعاء الأدوات. يُستخدم في المستويات التفاعلية حيث تهم زمن الاستجابة ولا تكون الميزانية الكاملة لسياق Maverick ضرورية.
المزودون: OpenRouter، Groq
عمق متعدد اللغات وإخراج منظم قوي. يحمل ثقلًا في مسارات التفكير غير الإنجليزية التي يتطلبها الميثاق متعدد اللغات؛ وتُضيف قاعدة مزودين مستقلة خارج عائلة Llama تكرارًا في سلسلة التحويل الاحتياطي.
المزودون: OpenRouter، DashScope، DeepInfra
صغير بما يكفي للعمل على الأجهزة الاعتيادية. يُستخدم حيث يكون الوصول أهم من القدرة الخام (النشر على الجهاز، وذو النطاق الترددي المنخفض، وبيئات الشبكات المتدهورة) وكبديل احتياطي من عائلة ثالثة إلى جانب Llama وQwen.
المزودون: OpenRouter، Google
يجب أن يدعم النموذج استدعاء الوظائف بشكل أصلي ويُعيد JSON صالحًا عبر 12 إلى 70 استدعاء أداة في كل تفاعل. CIRIS منسّق بالأساس؛ نحتاج إلى دلالات أدوات ثابتة، لا محادثة ثرثارة.
تُضمّن CIRIS الميثاق والدليل الكاملين في كل طلب. 128K هو الحد الأدنى المطلق؛ و256K أو أكثر يُفضَّل بشدة للمحادثات الطويلة ومخرجات الأدوات ومسارات التدقيق.
الهدف: أقل من $1.00 لكل مليون رمز مشترك. نختار أرخص خيار يعمل فعلًا، لا أرخص فائز في المعيار. النموذج الموثوق الذي لا يُفشل JSON أبدًا يتفوق على نموذج أرخص يفشل في استدعاء من كل عشرة.
يجب أن يكون النموذج متاحًا من مزودَين مستقلَّين على الأقل لبناء سلاسل احتياطية قوية. تتدهور CIRIS بشكل سلس خلال الانقطاعات بدلًا من الفشل الكامل.
تُبقي الردود السريعة البشر في الحلقة لمراجعة سير عمل الأخلاقيات. نُعطي أولوية لمزودي الزمن المنخفض في المستويات التفاعلية مع قبول الواجهات الخلفية الأبطأ للمهام الخلفية.
Llama 4 Maverick عبر مزود محسَّن من حيث التكلفة لخطوات التفكير العميق التي تحتاج إلى ميزانية السياق الكاملة.
Llama 4 Scout عبر مزود محسَّن من حيث السرعة (Groq) للاستخدام التفاعلي، مع Maverick على Groq كبديل لسياق أثقل.
يحمل Qwen 3.6 ثقلًا في مسارات التفكير غير الإنجليزية التي يتطلبها الميثاق متعدد اللغات، ويوفر احتياطيًا من عائلة غير Llama في السلسلة.
Gemma 4 للنشر على الجهاز وذو النطاق الترددي المنخفض وبيئات الشبكات المتدهورة حيث يكون الوصول إلى المستخدم أهم من حجم النموذج.
Maverick ← Scout ← Qwen 3.6 ← Gemma 4 عبر مزودين متعددين، بحيث يتدهور الوكيل بشكل سلس عبر عائلات النماذج وحدود البنية التحتية بدلًا من الفشل الكامل.
يتولى Maverick التفكير العميق حيث تهم ميزانية السياق الكاملة. يحمل Scout المستوى التفاعلي حيث يسود زمن الاستجابة. يصل Qwen 3.6 إلى مسارات التفكير متعدد اللغات التي يتطلبها الميثاق عبر 29 لغة. Gemma 4 هو الخيار ذو البصمة الصغيرة الذي يُقرّب الوكيل من الأجهزة الاعتيادية. اختيرت التشكيلة بحيث تذهب مستويات العمل المختلفة إلى النموذج المناسب فعلًا، بدلًا من إجبار نموذج واحد على فعل كل شيء.
تأتي Llama (Maverick + Scout) وQwen وGemma من ثلاث خطوط تدريب مستقلة وثلاثة نُظُم مزودين مستقلة. هذا مهم لسلاسل الاحتياط: ثغرة CVE أو تغيير في الترخيص أو انقطاع مزوّد في إحدى العائلات لا يُسقط الوكيل. الاستقلالية على مستوى النموذج هي نفس الخاصية التي تجعل مكوّن IDMA متينًا على مستوى التفكير.
النماذج التي لا تستوفي المعايير الخمسة، وغالبًا ما تكون نماذج تبدو جذابة من حيث سعر الرمز لكنها تفشل في المخرجات المنظمة واستدعاء الأدوات.
نمط الفشل النموذجي (GPT-OSS-20B): "اختيار الأداة مطلوب، لكن النموذج لم يستدعِ أداة"
هذا الخطأ غير مقبول لإطار عمل يعتمد على 12 إلى 70 استدعاء أداة في كل تفاعل. حتى سعر رمز أرخص بمقدار 3 إلى 10 أضعاف لا يستحق الأعطال التشغيلية.
تُضمّن CIRIS الميثاق الكامل والدليل الشامل الكامل في كل طلب. ليس ملخصًا. ليس نسخة مقطّرة. نص الحوكمة بأكمله.
هذا يضمن أن تحديثات الميثاق أو الدليل تؤثر فورًا على السلوك عبر جميع الوكلاء، دون انتظار ضبط دقيق جديد أو استراتيجيات ضغط للطلبات.
وكلاء CIRIS منسّقون ثقيلو الأدوات يتوازنون بين:
هذا السياق المدمج يتجاوز بسهولة 32K إلى 64K، لا سيما في الجلسات الطويلة أو التحقيقات المعقدة. لهذا السبب 128K هو الحد الأدنى و256K أو أكثر هو المفضّل.
الخلاصة:
لا تُقلّص CIRIS قيمها أو إجراءاتها لتتناسب مع النموذج. بدلًا من ذلك، تختار CIRIS نماذج كبيرة بما يكفي لحمل الإطار الأخلاقي والتشغيلي الكامل في كل استدعاء. النماذج ذات نوافذ السياق الأصغر (حتى لو كانت أرخص أو أكثر شعبية) مستبعدة من الاستخدام الإنتاجي.
تشغّل CIRIS Llama 4 Maverick وLlama 4 Scout وQwen 3.6 وGemma 4 في الإنتاج لأنها مجتمعةً تستوفي القيود التشغيلية والاقتصادية التي يفرضها الميثاق: سياق طويل، واستدعاء أدوات موثوق، وتغطية متعددة اللغات، ووصول إلى الأجهزة الاعتيادية، عبر ثلاث عائلات نماذج مستقلة. تخضع النماذج الجديدة للمراقبة والاختبار المستمرَّين؛ وتتغير التشكيلة حين يستوفي شيء أفضل المعايير الخمسة فعلًا.
لا يتعلق الأمر بمطاردة درجات المعايير أو متابعة موجات الضجيج. بل يتعلق باختيار نماذج تعمل فعلًا لوكلاء مساءلين ومحوريهم الأدوات في الإنتاج، وتأخذ الميثاق بجدية كافية لحمله في كل استدعاء.