
إذا لم تستطع التحقق من المساءلة، فهو مجرد تسويق. إليك ما تبحث عنه، وكيف تقارن المناهج الموجودة.
الضمير ضروري. لكنه وحده غير كافٍ.
بعض أنظمة الذكاء الاصطناعي ليس لها قواعد على الإطلاق. وبعضها يتبع قواعد لكنه لا يستطيع معرفة متى تكرر مصادره بعضها بعضاً. نوع واحد فقط يتحقق مما إذا كانت معلوماته تأتي فعلاً من أماكن مختلفة.
لا مبادئ منشورة. لا سجل مراجعة. مصدر مغلق. لا يمكنك التحقق مما فعله أو لماذا.
معظم مساعدات الذكاء الاصطناعي الاستهلاكية (ChatGPT، Gemini) تقع هنا من حيث المساءلة العامة. قد توجد ممارسات داخلية قوية؛ لكنك لا تستطيع التحقق منها.
تحتاج إلى رقابة خارجية. لا تستطيع حوكمة نفسها.
تتبع قواعد أخلاقية. لكنها لا تستطيع معرفة متى تكون كل مصادرها مجرد نسخ من بعضها، فيمكنها أن تكون مخطئة بثقة.
آمنة تحت الإشراف. لا تستطيع اكتشاف غرف الصدى بمفردها.
تتبع القواعد الأخلاقية وتتحقق أيضاً مما إذا كانت معلوماتها تأتي من أماكن مختلفة فعلاً. عندما يبدو الاتفاق مريباً، تُعلّم عليه قبل التصرف.
هذا ما تبنيه CIRIS.
يمكن لأي ذكاء اصطناعي أن يتبع كل قاعدة، ويجتاز كل مراجعة، ويفشل مع ذلك إذا كانت كل معلوماته تأتي من المكان نفسه. هذه النقطة العمياء هي ما بُنيت CIRIS لإصلاحه.
هذه هي الأشياء التي تجعل الذكاء الاصطناعي قابلاً للمراجعة والمساءلة. الستة الأولى تتعلق بفعل الشيء الصحيح. السابع يتعلق باكتشاف المواقف التي يكون فيها "فعل الشيء الصحيح" مبنياً على معلومات خاطئة.
يجب أن يتبع الوكيل إطاراً أخلاقياً عاماً. ليس قواعد مخفية: بل وثيقة يمكن لأي شخص قراءتها ومساءلته عليها.
كل إجراء يمر بفحص الضمير قبل أن ينفذه الوكيل. ليس بعد الحدث. بل قبله.
عند الشك أو مواجهة ضرر محتمل، يسأل الوكيل شخصاً بدلاً من التخمين. مدمج في سير العمل وليس اختيارياً.
كل قرار يُسجَّل ويُوقَّع عليه حتى تتمكن من التحقق بالضبط مما حدث ولماذا. إيصال لكل إجراء.
الموافقة تسير في الاتجاهين. يمكنك قول لا للوكيل. ويمكن للوكيل قول لا لك. لا يُجبر أي طرف على التنازل.
لا يمكنك مراجعة ما لا يمكنك رؤيته. CIRIS مفتوح المصدر بالكامل بموجب AGPL-3.0. يمكن لأي شخص قراءة الكود والتحقق منه وتحسينه.
ما لا تستطيع القواعد وحدها اكتشافه.
قبل التصرف، يسأل الوكيل: "هل تختلف مصادري فعلاً عن بعضها، أم أنها تحصل جميعها على معلوماتها من المكان نفسه؟" عشرة مصادر نقلت كلها من الأصل ذاته هي في الواقع مصدر واحد. عندما يبدو الاتفاق متماثلاً بشكل مفرط، يُعلّم الوكيل عليه ليراجعه شخص ما.
صخب زائد
تتناقض المصادر مع بعضها كثيراً حتى إنه لا يمكن استخلاص أي شيء مفيد.
صحي
تختلف المصادر حقاً. الاتفاق الحقيقي يعني شيئاً.
غرفة صدى
يبدو اتفاقاً، لكن المصادر تكرر بعضها فحسب.
هذا ما يجعل CIRIS مختلفة عن أطر المساءلة الأخرى للذكاء الاصطناعي.
تريد الرياضيات؟ اقرأ الأطروحة الكاملة →استناداً إلى الوثائق المتاحة للعموم حتى فبراير 2026. إذا فاتنا شيء أو أخطأنا في شيء، أخبرنا.
| المشروع | يفحص كل قرار | قواعد منشورة | ضمير مدمج | دليل على ما فعله | مفتوح المصدر | اكتشاف غرف الصدى |
|---|---|---|---|---|---|---|
| CIRIS | نعم | نعم | نعم | نعم | AGPL-3.0 | نعم |
| Constitutional AI | التدريب فقط | ضمنية | لا | لا | لا | لا |
| LlamaFirewall / NeMo Guardrails | نعم | لا | لا | تسجيل | نعم | لا |
| HatCat | نعم | جزئية | توجيه | جزئي | CC0 | لا |
| مجالس الأخلاق / أطر الحوكمة | لا | نعم | لا | يدوي | يتفاوت | لا |
فلاتر المخرجات وأطر الحوكمة تحل مشكلات مهمة لكنها مختلفة. الفلاتر تحجب المخرجات الضارة. أما الضمير فيستدل على القيم. تهدف CIRIS إلى القيام بالأمرين معاً، واكتشاف النقاط العمياء التي لا يعالجها أي منهما منفرداً.
تحجب المخرجات الخطيرة: حقن المطالبات، والمحتوى الضار، والهجمات العدائية. كفلتر يمسك الأشياء السيئة عند الخروج.
يستدل على ما إذا كان الإجراء صحيحاً، لا فقط ما إذا كان آمناً. كقاضٍ يوازن الموقف قبل إصدار حكمه.
يتحقق مما إذا كان الاتفاق حقيقياً أم مجرد تكرار. كمدقق حقائق يسأل "هل قرأتم جميعاً المقالة نفسها؟"
وكلاء صغيرون كثيرون، كل منهم ملتزم بمبادئ منشورة، وقابل للمراجعة، ويؤجّل إلى السلطة البشرية. لا شركة واحدة ولا جهة واحدة تتحكم في المنظومة بأكملها. كلما كان الوكلاء أكثر استقلالية، كان من الصعب على أي فشل واحد أن ينتشر.
هذا بحث نشط. نحن شفافون بشأن ما هو راسخ وما لا يزال قيد الاختبار.
راسخ جيداً
لا يزال قيد الاختبار
كل ادعاء في هذه الصفحة مدعوم بكود يمكنك قراءته، وآثار يمكنك التحقق منها، وبحث يمكنك مراجعته. هذه هي الفكرة.