الثقة بالأوزان، أم فحص السلوك

الخط الرئيسي في سلامة الذكاء الاصطناعي يحاول جعل النموذج جيدًا من الداخل: تدريب قيمه، ودراسة أفكاره، وجعله يناقش نفسه. هذا العمل مهم. CIRIS يراهن على الطريق الآخر. افترض أن نموذجًا قادرًا قد يكون غير محاذٍ، وبدلًا من الثقة بعقله، اجعل أفعاله المؤثرة خاضعة للمساءلة أمام أشخاص وأنظمة أخرى يمكنها التحقق منها.

بمصطلحات المجال نفسها، يقع CIRIS في الفرع المؤسسي وفرع التحكم، إلى جانب التحكم في الذكاء الاصطناعي والذكاء الاصطناعي المضمون الأمان (GS-AI)، لا في الخط الرئيسي لترسيخ القيم الذي يضم RLHF والذكاء الاصطناعي الدستوري والنقاش والتفسيرية. إجابته على مسألة الرقابة القابلة للتوسع، أي كيف تشرف على شيء أذكى منك، هي التحقق من غلاف المساءلة لا من التفكير ذاته. التوقيع والنصاب وسجل التدقيق المتسلسل يظل التحقق منها رخيصًا حتى حين يكون القرار خلفها فوق طاقة البشر. إنه ينسق أنظمة من وكلاء قادرين كثيرين عبر الزمن، لا قيم عقل واحد.

الخط الذي نحافظ عليه

لا يحاول محاذاة ذكاء اصطناعي واحد كلي القدرة. وهذا مقصود.

المساءلة تحتاج إلى أكثر من طرف واحد. شخص تُحاسَب أمامه. طريقة للتحقق لا يمكن ابتلاعها بهدوء. توازن للقوى لا تستطيع أي جهة الاستيلاء عليه. ذكاء اصطناعي فائق واحد لا يملك أيًا من هذه الأشياء، لذا لا توجد طريقة صادقة لمحاسبته. CIRIS مبني للمستقبل الآخر: وكلاء كثيرون قادرون وأشخاص ومنظمات تخضع قراراتهم المؤثرة جميعها للتحقق المستقل.

لذا فإن الموقف صريح. ASI منفرد ليس نظامًا يجب محاذاته بل حالة يجب منعها. تركيز قدرة فوق بشرية في مكان واحد غير خاضع للمساءلة، في هذه المرحلة من تطور المؤسسات البشرية، أمر غير مشروع، لأن لا مؤسسات ناضجة بما يكفي لمحاسبته، وهذا هو الخطر بالضبط. بمصطلحات الإطار نفسه، المنفرد هو انهيار الصوت الواحد ρ→1 الذي يسميه نموذج الممر فشلًا في التنسيق، لا نجاحًا. أن ضماناتنا تصمد عبر اتحاد وتتآكل أمام منفرد ليس فجوة نرقعها. إنه النظام الذي نرفض إضفاء الشرعية عليه، محفوظًا كالتزام لا كتنبؤ فحسب.

الأعمال ذات الصلة، بصدق

كل جار قريب يملأ بعض الخانات. صف واحد يملأها جميعًا.

لدى CIRIS أقران فكريون جادون، كل منهم قوي في مجاله. الهدف من هذا الجدول ليس أن الأفكار غير مسبوقة. بل أن كاد أحد قد بنى وشحن المجموعة الكاملة كنظام واحد خاضع للمساءلة. كل صف أدناه سلالة حقيقية تستحق القراءة. الصف الأخير فقط يضع علامة على كل عمود، وهذا التكامل هو الادعاء.

النهج	أقرب الأعمال	الآلية	وقت التشغيل، لا التدريب	يوقع على القرار	دستور وقت التشغيل	تحقق موزع	مطابقة قابلة للتنفيذ	مُشحون
الأطروحة المؤسسية	Gillian Hadfield	البنية التحتية المعيارية وأسواق التنظيم، كنظرية وسياسة	نظرية	لا	نظرية	نظرية	لا	لا
مخططات الحوكمة	الذكاء الاصطناعي المؤسسي (Pierucci وآخرون)	مخططات عامة للحالات القانونية والعقوبات، كنموذج أولي بحثي	بحث	لا	بحث	لا	لا	لا
الحوكمة الدستورية على السلسلة	AgentCity (Ruan, Zhang)	الفصل بين السلطات كعقود ذكية، مسجلة مسبقًا على شبكة اختبار	بحث	جزئي	بحث	لا	لا	لا
افترض أن النموذج غير محاذٍ	Redwood Research (التحكم في الذكاء الاصطناعي)	المراقبة واختبار الاختراق داخل نشر واحد	نعم	لا	لا	لا	بحث	بحث
آمن بشكل مثبت، خارجي	davidad, Bengio، سلالة GS-AI	براهين رسمية على نماذج العالم	جزئي	لا	نظرية	نظرية	بحث	لا
الدستور في وقت التدريب	Anthropic Constitutional AI	قيم مدربة في الأوزان، منظمة واحدة	لا	لا	لا	لا	لا	نعم
الإثبات التشفيري للمصدر	C2PA, zkML (EZKL, Giza)	توقيع مصدر الوسائط، وإثبات أن الاستنتاج جرى	نعم	جزئي	لا	جزئي	جزئي	نعم
رسم بياني موقع للتفكير	Proof of Insight (Arclio)	رسم بياني موقع لخطوات اشتقاق الذكاء الاصطناعي، كمسودة مواصفات	لا	جزئي	لا	نظرية	نظرية	لا
استنتاج مصادق عليه بالعتاد	Phala, Marlin, Attestable Audits	يشغل الاستنتاج في بيئة آمنة معزولة تُوقع على الناتج	نعم	جزئي	لا	جزئي	لا	جزئي
الهوية اللامركزية والاتحاد	atproto, Bittensor	اتحاد اجتماعي أو حسابي، بلا طبقة ضمير	جزئي	لا	لا	جزئي	جزئي	نعم
بروتوكولات الوكيل	MCP, A2A	تشغيل بيني للأدوات والوكلاء، بلا حوكمة	نعم	لا	لا	لا	جزئي	نعم
مجموعات تقييم السلامة والمطابقة	MLCommons, METR, HarmBench	معايير قابلة للتنفيذ تُقيِّم سلوك النموذج، لا القرارات	لا	لا	لا	لا	جزئي	نعم
تدقيق موزع من طرف ثالث	AISI Network, GovAI	معاهد مستقلة تختبر الأنظمة المنشورة بشكل مشترك	جزئي	لا	لا	نعم	لا	جزئي
CIRIS	هذا النظام	خط أنابيب الضمير إلى مخرجات موقعة، دستور وقت التشغيل، اتحاد ما بعد الكم	نعم	نعم	نعم	نعم	نعم	نعم

مُعدٌّ من أعمال عامة حتى يونيو 2026، كل صف مُستشهد به أدناه. إن أخطأنا في وصف جار قريب، أخبرنا وسنصحح الصف.

المصادر

Gillian HadfieldNormative Modules: A Generative Agent Architecture for Learning Norms that Supports Mult · Regulatory Markets: The Future of AI Governance (arXiv 2304.04914) · Interview: Normative infrastructure for AI alignment - AIhub (2025)
الذكاء الاصطناعي المؤسسي (Pierucci وآخرون)Institutional AI: Governing LLM Collusion in Multi-Agent Cournot Markets via Public Gove · Institutional AI: A Governance Framework for Distributional AGI Safety (arXiv:2601.10599
AgentCity (Ruan, Zhang)AgentCity: Constitutional Governance for Autonomous Agent Economies via Separation of Po · AgentCity HTML full paper (arXiv 2604.07007v1)
Redwood Research (التحكم في الذكاء الاصطناعي)AI Control: Improving Safety Despite Intentional Subversion (Greenblatt et al., ICML 202 · AXRP Episode 27 - AI Control with Buck Shlegeris and Ryan Greenblatt · Redwood Research AI Control research page
davidad, Bengio، سلالة GS-AITowards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems (arX · ARIA Safeguarded AI Programme · LawZero - Yoshua Bengio's safe-by-design AI nonprofit (launched June 2025)
Anthropic Constitutional AIConstitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) · Collective Constitutional AI: Aligning a Language Model with Public Input (Anthropic / C · Claude's Constitution — Anthropic
C2PA, zkML (EZKL, Giza)C2PA and Content Credentials Explainer · EZKL Documentation — The EZKL System · C2PA Conformance Program — Trust Over IP
Proof of Insight (Arclio)Proof of Insight — working draft v0.7.0 (proofofinsight.org) · Arclio — Talk To Your Data. Built for Regulated Industries.
Phala, Marlin, Attestable AuditsProof-of-Guardrail in AI Agents and What (Not) to Trust from It (arXiv 2603.05786) · Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments · Phala 2025 Year in Review
atproto, BittensorAT Protocol Identity Guide · AT Protocol Spring 2026 Roadmap · ActivityPub W3C Recommendation
MCP, A2AA2A Protocol v1.0 Announcement · Agent2Agent (A2A) Protocol Specification · MCP Specification 2025-11-25 (official)
MLCommons, METR, HarmBenchAILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons (ar · MLCommons AILuminate GitHub Repository · METR Task Standard (blog post, 2024-02-29)
AISI Network, GovAIInternational Joint Testing Exercise: Agentic Testing (AISI, 2025) · Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Prac · INESIA - Results of an AI agent evaluation exercise by the International Network of AI S
هذا النظامCIRIS — Accountability Infrastructure for Autonomous AI · CIRIS How It Works — Runtime Conscience Pipeline · CIRIS Federation Page — Shipping Status

02الذكاء الاصطناعي الاستهلاكي

كيف يقارن بالذكاء الاصطناعي الذي تستخدمه فعلاً

المساعدون اليوميون أقوياء وسهلون الاستخدام. لكنهم يعملون على خوادم شخص آخر، ولا يحتفظون بسجل يمكنك مراجعته، ولا يخضعون لأحد يمكنك تسميته. إليك نفس اختبار المساءلة، مطبقاً على الذكاء الاصطناعي الذي يفتحه معظم الناس كل يوم.

المساعد	مبادئ منشورة	دليل على ما فعله	يسأل إنساناً عند الشك	مفتوح المصدر	فحص غرفة الصدى
ChatGPT	نعم	لا	لا	لا	لا
Gemini	نعم	لا	لا	لا	لا
Claude	نعم	لا	لا	لا	لا
CIRIS	نعم	نعم	نعم	نعم	نعم

المقارنة مبنية على سلوك المنتج العام اعتباراً من يونيو 2026. كل رابط للمبادئ يؤدي إلى المواصفات المنشورة من الشركة نفسها.

معظم المجال يعمل على محاذاة النموذج. CIRIS يبني المؤسسات من حوله.

الثقة بالأوزان، أم فحص السلوك

لا يحاول محاذاة ذكاء اصطناعي واحد كلي القدرة. وهذا مقصود.

كيف يقارن بالذكاء الاصطناعي الذي تستخدمه فعلاً

جربه بنفسك

شاهده يفكر

تحقق من هويته

ابدأ الآن