أول تواصلالتثبيترافعة التماسكالاتحادقارنالبحثAccordGitHub
تُرجمت هذه الصفحة آلياً. إذا بدا أي شيء غير صحيح، يرجى فتح تقرير، المستودع عام لهذا السبب. أبلغ عن مشكلة في الترجمة
Background Image
أكثر أنظمة الذكاء الاصطناعي أماناً وأخلاقية في الإنتاج اليوم

بدون المساءلة، يميل الذكاء الاصطناعي إلى أخذ أكثر مما يعطي.

إذا لم تستطع التحقق من المساءلة، فهو مجرد تسويق. إليك ما تبحث عنه، وكيف تقارن المناهج الموجودة.

ثلاثة أنواع من الذكاء الاصطناعي

الضمير ضروري. لكنه وحده غير كافٍ.

بعض أنظمة الذكاء الاصطناعي ليس لها قواعد على الإطلاق. وبعضها يتبع قواعد لكنه لا يستطيع معرفة متى تكرر مصادره بعضها بعضاً. نوع واحد فقط يتحقق مما إذا كانت معلوماته تأتي فعلاً من أماكن مختلفة.

1

بلا قواعد

لا مبادئ منشورة. لا سجل مراجعة. مصدر مغلق. لا يمكنك التحقق مما فعله أو لماذا.

معظم مساعدات الذكاء الاصطناعي الاستهلاكية (ChatGPT، Gemini) تقع هنا من حيث المساءلة العامة. قد توجد ممارسات داخلية قوية؛ لكنك لا تستطيع التحقق منها.

تحتاج إلى رقابة خارجية. لا تستطيع حوكمة نفسها.

2

قواعد بلا وعي

تتبع قواعد أخلاقية. لكنها لا تستطيع معرفة متى تكون كل مصادرها مجرد نسخ من بعضها، فيمكنها أن تكون مخطئة بثقة.

آمنة تحت الإشراف. لا تستطيع اكتشاف غرف الصدى بمفردها.

3

قواعد + وعي

تتبع القواعد الأخلاقية وتتحقق أيضاً مما إذا كانت معلوماتها تأتي من أماكن مختلفة فعلاً. عندما يبدو الاتفاق مريباً، تُعلّم عليه قبل التصرف.

هذا ما تبنيه CIRIS.

يمكن لأي ذكاء اصطناعي أن يتبع كل قاعدة، ويجتاز كل مراجعة، ويفشل مع ذلك إذا كانت كل معلوماته تأتي من المكان نفسه. هذه النقطة العمياء هي ما بُنيت CIRIS لإصلاحه.

سبعة أشياء تحتاج إلى التحقق منها

ستة للأخلاق. وواحد للنقاط العمياء.

هذه هي الأشياء التي تجعل الذكاء الاصطناعي قابلاً للمراجعة والمساءلة. الستة الأولى تتعلق بفعل الشيء الصحيح. السابع يتعلق باكتشاف المواقف التي يكون فيها "فعل الشيء الصحيح" مبنياً على معلومات خاطئة.

1. مبادئ منشورة

يجب أن يتبع الوكيل إطاراً أخلاقياً عاماً. ليس قواعد مخفية: بل وثيقة يمكن لأي شخص قراءتها ومساءلته عليها.

2. فحص الضمير على كل قرار

كل إجراء يمر بفحص الضمير قبل أن ينفذه الوكيل. ليس بعد الحدث. بل قبله.

3. يسأل البشر عند الشك

عند الشك أو مواجهة ضرر محتمل، يسأل الوكيل شخصاً بدلاً من التخمين. مدمج في سير العمل وليس اختيارياً.

4. دليل على ما فعله

كل قرار يُسجَّل ويُوقَّع عليه حتى تتمكن من التحقق بالضبط مما حدث ولماذا. إيصال لكل إجراء.

5. موافقة ثنائية الاتجاه

الموافقة تسير في الاتجاهين. يمكنك قول لا للوكيل. ويمكن للوكيل قول لا لك. لا يُجبر أي طرف على التنازل.

6. مفتوح المصدر

لا يمكنك مراجعة ما لا يمكنك رؤيته. CIRIS مفتوح المصدر بالكامل بموجب AGPL-3.0. يمكن لأي شخص قراءة الكود والتحقق منه وتحسينه.

7

اكتشاف غرف الصدى

ما لا تستطيع القواعد وحدها اكتشافه.

قبل التصرف، يسأل الوكيل: "هل تختلف مصادري فعلاً عن بعضها، أم أنها تحصل جميعها على معلوماتها من المكان نفسه؟" عشرة مصادر نقلت كلها من الأصل ذاته هي في الواقع مصدر واحد. عندما يبدو الاتفاق متماثلاً بشكل مفرط، يُعلّم الوكيل عليه ليراجعه شخص ما.

صخب زائد

تتناقض المصادر مع بعضها كثيراً حتى إنه لا يمكن استخلاص أي شيء مفيد.

صحي

تختلف المصادر حقاً. الاتفاق الحقيقي يعني شيئاً.

غرفة صدى

يبدو اتفاقاً، لكن المصادر تكرر بعضها فحسب.

هذا ما يجعل CIRIS مختلفة عن أطر المساءلة الأخرى للذكاء الاصطناعي.

تريد الرياضيات؟ اقرأ الأطروحة الكاملة →

المشهد الحالي

مشاريع مختلفة، أهداف مختلفة.

استناداً إلى الوثائق المتاحة للعموم حتى فبراير 2026. إذا فاتنا شيء أو أخطأنا في شيء، أخبرنا.

المشروعيفحص كل قرارقواعد منشورةضمير مدمجدليل على ما فعلهمفتوح المصدراكتشاف غرف الصدى
CIRISنعمنعمنعمنعمAGPL-3.0نعم
Constitutional AIالتدريب فقطضمنيةلالالالا
LlamaFirewall / NeMo Guardrailsنعملالاتسجيلنعملا
HatCatنعمجزئيةتوجيهجزئيCC0لا
مجالس الأخلاق / أطر الحوكمةلانعملايدوييتفاوتلا

فلاتر المخرجات وأطر الحوكمة تحل مشكلات مهمة لكنها مختلفة. الفلاتر تحجب المخرجات الضارة. أما الضمير فيستدل على القيم. تهدف CIRIS إلى القيام بالأمرين معاً، واكتشاف النقاط العمياء التي لا يعالجها أي منهما منفرداً.

ثلاث طبقات من الحماية

كل طبقة تحل مشكلة مختلفة.

فلاتر المخرجات

تحجب المخرجات الخطيرة: حقن المطالبات، والمحتوى الضار، والهجمات العدائية. كفلتر يمسك الأشياء السيئة عند الخروج.

الضمير الأخلاقي

يستدل على ما إذا كان الإجراء صحيحاً، لا فقط ما إذا كان آمناً. كقاضٍ يوازن الموقف قبل إصدار حكمه.

اكتشاف غرف الصدى

يتحقق مما إذا كان الاتفاق حقيقياً أم مجرد تكرار. كمدقق حقائق يسأل "هل قرأتم جميعاً المقالة نفسها؟"

وكلاء متماسكون كثيرون

حوكمة موزعة، لا سلطة مركزة.

لا نقطة فشل واحدة

وكلاء أصغر، كل منهم خاضع للمساءلة.

وكلاء صغيرون كثيرون، كل منهم ملتزم بمبادئ منشورة، وقابل للمراجعة، ويؤجّل إلى السلطة البشرية. لا شركة واحدة ولا جهة واحدة تتحكم في المنظومة بأكملها. كلما كان الوكلاء أكثر استقلالية، كان من الصعب على أي فشل واحد أن ينتشر.

حالة البحث

هذا بحث نشط. نحن شفافون بشأن ما هو راسخ وما لا يزال قيد الاختبار.

راسخ جيداً

  • - المصادر المنسوخة تقلل التنوع الحقيقي
  • - نماذج الذكاء الاصطناعي تشترك في تداخل بيانات التدريب
  • - غرف الصدى تخلق ثقة زائفة
  • - التحقق المستقل يكشف أخطاء أكثر

لا يزال قيد الاختبار

  • - قياس مدى نسخ مصادر الذكاء الاصطناعي بدقة
  • - أفضل حدود لتمييز غرف الصدى
  • - مدى نجاح التدخلات في تقليل النسخ
  • - كيف يتفاوت هذا عبر مجالات مختلفة

جربه بنفسك

تحقق بنفسك.

مفتوح المصدر. مفتوح أمام التدقيق.

كل ادعاء في هذه الصفحة مدعوم بكود يمكنك قراءته، وآثار يمكنك التحقق منها، وبحث يمكنك مراجعته. هذه هي الفكرة.