نماذج LLM التي نستخدمها ولماذا

يعمل CIRISAgent على مجموعة صغيرة من النماذج المفتوحة التي تستوفي خمسة معايير غير قابلة للتفاوض. خط الإنتاج الحالي هو Llama 4 Maverick وLlama 4 Scout وQwen 3.6 وGemma 4، وقد اختيرت لأدوار مختلفة في عبء عمل الوكيل.

Llama 4 Maverick

قوة العمل الاستدلالية. يستوعب كمية كبيرة جدًا من السياق في آنٍ واحد، لذا يُعدّ الخيار الافتراضي لخطوات التفكير العميق التي تستلزم رؤية الصورة كاملة.

المزودون: OpenRouter، Groq، Together، DeepInfra

Llama 4 Scout

الرفيق السريع في عائلة Llama 4. أصغر حجمًا وأسرع من Maverick، مع دعم قوي لاستدعاء الأدوات. يُستخدم في المستويات التفاعلية حيث تهم زمن الاستجابة ولا تكون الميزانية الكاملة لسياق Maverick ضرورية.

المزودون: OpenRouter، Groq

Qwen 3.6

عمق متعدد اللغات وإخراج منظم قوي. يحمل ثقلًا في مسارات التفكير غير الإنجليزية التي يتطلبها الميثاق متعدد اللغات؛ وتُضيف قاعدة مزودين مستقلة خارج عائلة Llama تكرارًا في سلسلة التحويل الاحتياطي.

المزودون: OpenRouter، DashScope، DeepInfra

Gemma 4

صغير بما يكفي للعمل على الأجهزة الاعتيادية. يُستخدم حيث يكون الوصول أهم من القدرة الخام (النشر على الجهاز، وذو النطاق الترددي المنخفض، وبيئات الشبكات المتدهورة) وكبديل احتياطي من عائلة ثالثة إلى جانب Llama وQwen.

المزودون: OpenRouter، Google

معاييرنا لاختيار النماذج

خمسة متطلبات غير قابلة للتفاوض لـ CIRISAgent

1. المخرجات المنظمة واستخدام الأدوات

يجب أن يدعم النموذج استدعاء الوظائف بشكل أصلي ويُعيد JSON صالحًا عبر 12 إلى 70 استدعاء أداة في كل تفاعل. CIRIS منسّق بالأساس؛ نحتاج إلى دلالات أدوات ثابتة، لا محادثة ثرثارة.

2. نافذة السياق: 128K كحد أدنى

تُضمّن CIRIS الميثاق والدليل الكاملين في كل طلب. 128K هو الحد الأدنى المطلق؛ و256K أو أكثر يُفضَّل بشدة للمحادثات الطويلة ومخرجات الأدوات ومسارات التدقيق.

3. الكفاءة في التكلفة

الهدف: أقل من $1.00 لكل مليون رمز مشترك. نختار أرخص خيار يعمل فعلًا، لا أرخص فائز في المعيار. النموذج الموثوق الذي لا يُفشل JSON أبدًا يتفوق على نموذج أرخص يفشل في استدعاء من كل عشرة.

4. التوفر عبر مزودين متعددين

يجب أن يكون النموذج متاحًا من مزودَين مستقلَّين على الأقل لبناء سلاسل احتياطية قوية. تتدهور CIRIS بشكل سلس خلال الانقطاعات بدلًا من الفشل الكامل.

5. زمن الاستجابة وتجربة المستخدم

تُبقي الردود السريعة البشر في الحلقة لمراجعة سير عمل الأخلاقيات. نُعطي أولوية لمزودي الزمن المنخفض في المستويات التفاعلية مع قبول الواجهات الخلفية الأبطأ للمهام الخلفية.

النشر في الإنتاج

المستوى الافتراضي

Llama 4 Maverick عبر مزود محسَّن من حيث التكلفة لخطوات التفكير العميق التي تحتاج إلى ميزانية السياق الكاملة.

المستوى السريع

Llama 4 Scout عبر مزود محسَّن من حيث السرعة (Groq) للاستخدام التفاعلي، مع Maverick على Groq كبديل لسياق أثقل.

المستوى متعدد اللغات

يحمل Qwen 3.6 ثقلًا في مسارات التفكير غير الإنجليزية التي يتطلبها الميثاق متعدد اللغات، ويوفر احتياطيًا من عائلة غير Llama في السلسلة.

مستوى الحافة

Gemma 4 للنشر على الجهاز وذو النطاق الترددي المنخفض وبيئات الشبكات المتدهورة حيث يكون الوصول إلى المستخدم أهم من حجم النموذج.

سلسلة الاحتياط

Maverick ← Scout ← Qwen 3.6 ← Gemma 4 عبر مزودين متعددين، بحيث يتدهور الوكيل بشكل سلس عبر عائلات النماذج وحدود البنية التحتية بدلًا من الفشل الكامل.

لماذا هذا التشكيل

أدوار مختلفة، لا أجزاء قابلة للتبادل

يتولى Maverick التفكير العميق حيث تهم ميزانية السياق الكاملة. يحمل Scout المستوى التفاعلي حيث يسود زمن الاستجابة. يصل Qwen 3.6 إلى مسارات التفكير متعدد اللغات التي يتطلبها الميثاق عبر 29 لغة. Gemma 4 هو الخيار ذو البصمة الصغيرة الذي يُقرّب الوكيل من الأجهزة الاعتيادية. اختيرت التشكيلة بحيث تذهب مستويات العمل المختلفة إلى النموذج المناسب فعلًا، بدلًا من إجبار نموذج واحد على فعل كل شيء.

ثلاث عائلات نماذج مستقلة

تأتي Llama (Maverick + Scout) وQwen وGemma من ثلاث خطوط تدريب مستقلة وثلاثة نُظُم مزودين مستقلة. هذا مهم لسلاسل الاحتياط: ثغرة CVE أو تغيير في الترخيص أو انقطاع مزوّد في إحدى العائلات لا يُسقط الوكيل. الاستقلالية على مستوى النموذج هي نفس الخاصية التي تجعل مكوّن IDMA متينًا على مستوى التفكير.

ما يبقى خارج التشكيلة

النماذج التي لا تستوفي المعايير الخمسة، وغالبًا ما تكون نماذج تبدو جذابة من حيث سعر الرمز لكنها تفشل في المخرجات المنظمة واستدعاء الأدوات.

نمط الفشل النموذجي (GPT-OSS-20B): "اختيار الأداة مطلوب، لكن النموذج لم يستدعِ أداة"

هذا الخطأ غير مقبول لإطار عمل يعتمد على 12 إلى 70 استدعاء أداة في كل تفاعل. حتى سعر رمز أرخص بمقدار 3 إلى 10 أضعاف لا يستحق الأعطال التشغيلية.

لماذا 128K+ من السياق أمر غير قابل للتفاوض

الميثاق والدليل دائما مُضمَّنان

تُضمّن CIRIS الميثاق الكامل والدليل الشامل الكامل في كل طلب. ليس ملخصًا. ليس نسخة مقطّرة. نص الحوكمة بأكمله.

هذا يضمن أن تحديثات الميثاق أو الدليل تؤثر فورًا على السلوك عبر جميع الوكلاء، دون انتظار ضبط دقيق جديد أو استراتيجيات ضغط للطلبات.

الحالة الأخلاقية والإجرائية الكاملة

وكلاء CIRIS منسّقون ثقيلو الأدوات يتوازنون بين:

سير عمل متعددة الخطوات
حالة النظام ومخرجات الأدوات
رسائل المستخدم وسجل المحادثة
الميثاق والدليل الكاملان

هذا السياق المدمج يتجاوز بسهولة 32K إلى 64K، لا سيما في الجلسات الطويلة أو التحقيقات المعقدة. لهذا السبب 128K هو الحد الأدنى و256K أو أكثر هو المفضّل.

الخلاصة:

لا تُقلّص CIRIS قيمها أو إجراءاتها لتتناسب مع النموذج. بدلًا من ذلك، تختار CIRIS نماذج كبيرة بما يكفي لحمل الإطار الأخلاقي والتشغيلي الكامل في كل استدعاء. النماذج ذات نوافذ السياق الأصغر (حتى لو كانت أرخص أو أكثر شعبية) مستبعدة من الاستخدام الإنتاجي.

كيف يدعم هذا ميثاق CIRIS

اختيار النموذج كبنية تحتية أخلاقية

الشفافية وقابلية الفحص

يُبقي السياق الطويل آثار التفكير والقرارات واستدعاءات الأدوات مرئيةً للمراجعة البشرية
تجعل JSON الثابتة والمخرجات المنظمة كل استدعاء أداة قابلًا للتدقيق
تضمن مصنوعات الحوكمة الكاملة في كل استدعاء إمكانية تتبع القرارات حتى المبادئ

المرونة والحوكمة

يتجنب النشر متعدد المزودين نقاط الفشل الفردية في البنية التحتية الأخلاقية الحيوية
تُرجّح عبارة "جيد بما يكفي وموثوق" على "مبهر لكن هش" السلامة والاستمرارية
يحافظ التدهور السلس أثناء الانقطاعات على توافر الخدمة

الإشراف البشري

تُبقي المستويات السريعة البشر بارتياح في الحلقة للمراجعة الأخلاقية في الوقت الفعلي
تتيح المستويات الأرخص تحليلًا خلفيًا واسعًا دون تكاليف باهظة
يدعم النهج المتوازن الاستخدام اليومي ومراجعات الحوكمة الدورية

الخلاصة

تشغّل CIRIS Llama 4 Maverick وLlama 4 Scout وQwen 3.6 وGemma 4 في الإنتاج لأنها مجتمعةً تستوفي القيود التشغيلية والاقتصادية التي يفرضها الميثاق: سياق طويل، واستدعاء أدوات موثوق، وتغطية متعددة اللغات، ووصول إلى الأجهزة الاعتيادية، عبر ثلاث عائلات نماذج مستقلة. تخضع النماذج الجديدة للمراقبة والاختبار المستمرَّين؛ وتتغير التشكيلة حين يستوفي شيء أفضل المعايير الخمسة فعلًا.

لا يتعلق الأمر بمطاردة درجات المعايير أو متابعة موجات الضجيج. بل يتعلق باختيار نماذج تعمل فعلًا لوكلاء مساءلين ومحوريهم الأدوات في الإنتاج، وتأخذ الميثاق بجدية كافية لحمله في كل استدعاء.