أول تواصلالتثبيترافعة التماسكالاتحادقارنالبحثAccordGitHub
تُرجمت هذه الصفحة آلياً. إذا بدا أي شيء غير صحيح، يرجى فتح تقرير، المستودع عام لهذا السبب. أبلغ عن مشكلة في الترجمة
Background Image
السلامة مدمجة في النظام.

لا مضافة من الخارج.

كل ميزة سلامة في CIRIS جزء من طريقة عمل النظام، لا قاعدة أُضيفت فوقه. سجل لكل قرار لا يمكن تغييره بصمت، ورقابة على من يُسمح له بفعل ماذا، وزر إيقاف طارئ لا يستطيع الوكيل رفضه.

عندما تطول المحادثة

تذكيرات لطيفة بالواقع

إذا تحدثت مع CIRIS لفترة طويلة، فسيذكِّرك بلطف بما هو. بعد نحو 30 دقيقة من التبادل المستمر، أو 20 رسالة خلال نصف ساعة، يتوقف ليقول بوضوح إنه برنامج حاسوبي وأداة، لا صديق ولا معالج نفسي. يستخدم لذلك عدادات بسيطة للوقت والرسائل، لا مراقبة لسلوكك أو تحليل لملفك الشخصي.

بعد 30 دقيقة

نصف ساعة من التبادل المستمر يُشغِّل التذكير. يُعاد العدّ بعد توقف. تستند الحدود إلى أبحاث حول الطرق الصحية لاستخدام التكنولوجيا.

بعد 20 رسالة

عشرون رسالة خلال نصف ساعة أيضًا تُشغِّل التذكير. تبادل مكثف يحصل على توقف لطيف، دون مراقبة أو تحليل.

تذكير بما هو عليه

يقترح التذكير أخذ استراحة والتواصل مع أناس حقيقيين، ويقول بصراحة ما هو CIRIS وما ليس عليه. مستند إلى أبحاث، وليس وعظيًا.

زر الإيقاف الطارئ

الوكيل لا يستطيع الجدال معه.

إيقاف تشغيل لا يمكن رفضه

يعمل قبل أن يبدأ الوكيل في التفكير.

يمتلك CIRIS زر إيقاف طارئ. إشارته مخفية داخل نص عادي يقرأه الوكيل، ويتصرف الوكيل بناءً عليها قبل أي تفكير أو تصفية أو استدلال. لذا حتى وكيل انحرف لا يستطيع التملص منه بالكلام. تحمل الإشارة توقيعًا رقميًا لا يمكن تزويره، فلا يستطيع تشغيل الإيقاف إلا شخص مخوَّل.

يتصرف قبل التفكير

إشارة الإيقاف تُؤخَذ في لحظة قراءتها، قبل أي استدلال. لا توجد نقطة يستطيع فيها الوكيل وزنها أو تصفيتها أو رفضها. إنها تُطلَق أولًا.

مخفية في نص عادي

يمكن حمل إشارة الإيقاف داخل نص توثيق عادي. لا حاجة لتنسيق خاص، وتعمل حتى لو أُعيدت صياغة النص أو وصل جزء منه فقط.

مفتاح مخوَّل فقط

يتطلب الإيقاف توقيعًا رقميًا صالحًا من سلطة جذر مخوَّلة. يُوقف الوكيل نفسه إذا تعذَّر التحقق من تلك السلطات، أو إذا حاول أحد تعطيل الميزة. لا أحد بدون المفتاح يستطيع تشغيله.

من يُسمح له بفعل ماذا

أربعة أدوار واضحة، تُفحص عند كل إجراء.

أربعة أدوار

المراقب. المسؤول. السلطة. الجذر.

يحتفظ CIRIS بمجموعة صارمة من الأدوار. المراقب يستطيع الاطلاع فقط. المسؤول يدير العمليات اليومية. السلطة تتخذ القرارات الأكبر وتفصل في الحالات التي يتردد فيها الوكيل. الجذر لديه وصول كامل، بما في ذلك زر الإيقاف الطارئ. كل دور مدعوم ببيانات اعتماد موقَّعة، حتى يتمكن الوكيل من فحصها عند كل إجراء مهم.

بيانات اعتماد موقَّعة

كل شخص مخوَّل يحمل بيانات اعتماد تتضمن دوره ومفتاحه وهويته. تُحفظ على الجهاز وتُفحص عند كل إجراء يحتاج إذنًا. لا حاجة لخادم خارجي.

تسجيل الدخول على جهازك

تبقى المفاتيح ورموز الدخول على جهازك الخاص. تسجيل الدخول يتم على الجهاز. بيانات اعتمادك لا تغادره إلا إذا اخترت بنفسك إعداد الوصول عن بُعد.

الرجوع إلى السلطة الحكيمة

عندما يتردد CIRIS في قرار أخلاقي، يحيل السؤال إلى السلطة الحكيمة. لا يستطيع الإجابة إلا سلطة أو جذر، وتُكتب الإجابة في السجل مع دليل على من أعطاها.

سجل لا يمكن تغييره بصمت

كل قرار والسبب وراءه.

لماذا الصدق هو الطريق الأرخص

الكاذب عليه أن يستمر في إعادة كتابة الماضي.

كل إجراء يتخذه CIRIS يُكتب مع السبب وراءه، وكل سجل مرتبط بالسابق له. الوكيل الصادق يستطيع فقط الإشارة إلى ما قاله من قبل. أما الوكيل غير الأمين فعليه أن يبقي كل سجل سابق منسجمًا دون أن يُسمح له بتغيير أي منه. كلما طال تشغيله، زادت صعوبة ذلك، وأصبح الكشف عن الكذبة أسهل. الصدق رخيص لأنه يستطيع الإشارة إلى الخلف. الكذب مكلف لأنه لا يستطيع.

مخزَّن بثلاث طرق

يُحفظ السجل في ثلاثة أماكن منفصلة في آنٍ واحد، حتى يمكن مقارنة النسخ الثلاث ببعضها. يمكن البحث في الثلاثة من مكان واحد.

موقَّع ومنسوب

كل قيد يحمل توقيعًا رقميًا، فكل قرار يمكن تتبُّعه إلى من اتخذه والتحقق من عدم العبث به. حتى حذف البيانات يترك دليلًا موقَّعًا على أنه تم بشكل صحيح.

التروس التدريجية للتماسك

كل إجراء صادق يجعل الإجراء الصادق التالي أسهل ويجعل الكذب المنسَّق أصعب. لكن الأخلاق وحدها لا تكفي. يراقب الوكيل أيضًا استدلاله بحثًا عن غرف الصدى، ويكتشفها قبل أن تسبب أذى.

كيف تُختبر السلامة

مقاييس يفحصها الحاسوب بـ 29 لغة، تُشغَّل عند كل إصدار.

سطح الاختبار

لا يمكنك شحن ادعاء بالسلامة دون اختباره بضغط شديد.

يمتلك CIRIS مجموعة طبقات من الاختبارات لأنماط الإخفاق التي لا يستطيع إطار أخلاقيات مكتوب استبعادها وحده. تغطي اختبارات سلامة الصحة النفسية 29 لغة بمقاييس يستطيع الحاسوب فحصها. تعمل الفحوصات الصارمة تلقائيًا عند كل تغيير. مراجعة أصحاب اللغة الأصلية للحالات الأكثر دقة التي تحتاج إلى حكم بشري هي ما تُبنى لها صفحة مصادر الجماهير للمواءمة، وهي غير متاحة بعد. نقول ذلك بصراحة.

اختبارات الصحة النفسية بـ 29 لغة

هذا أصعب اختبار في المشروع: خطأ في الترجمة في لحظة تتعلق بالصحة النفسية قد يرسل شخصًا ضعيفًا إلى المساعدة الخاطئة. كل لغة تحصل على مقياس خاص يفحصه الحاسوب، بما في ذلك لغات ذات موارد محدودة مثل الأمهرية والبورمية والهوسا والسواحيلية واليوروبية. تعمل الفحوصات الصارمة تلقائيًا ضد كل مرشح إصدار.

اختبار ضد تحفظات حقيقية مسجَّلة

طبقة الضمير مضبوطة على مجموعة من الردود الإنتاجية الحقيقية، مثل مراوغات التاريخ المسجَّلة وردود الصحة النفسية الملتوية، إلى جانب حالات الاختبار والضوابط. تستدل عبر عدة لغات في آنٍ واحد، فرد ينجو من فحص بلغة واحدة يُكشف حين يجب أن يصمد الاستدلال ذاته بثلاث لغات معًا.

مجموعة بيانات مفتوحة يستطيع الجميع فحصها

مشاركة آثار الاستدلال اختيارية في كل مكان، وتُزال التفاصيل الشخصية قبل أي تخزين. تُنشر المجموعات المنظَّفة على صفحة CIRISAI على HuggingFace، حتى يتمكن الباحثون الخارجيون من مقارنة عملية التنظيف بالنتائج التي تنتجها.

ما يعمل اليوم، وما لم يعمل بعد

الفحوصات الآلية تعمل الآن. مجموعة المراجعين لا تزال قيد البناء.

الاختبارات الآلية للصحة النفسية تعمل على كل مرشح إصدار. الأجزاء القابلة للفحص بالحاسوب (هل المصطلح موجود، هل النمط متطابق، هل النص صحيح) تُفشل الإصدار عند وجود خطأ. الحالات الأكثر دقة التي تحتاج إلى حكم بشري، مثل الصياغة والنبرة، مصممة للمراجعة من أصحاب اللغة الأصلية، لكنهم ليسوا في الحلقة اليوم. صفحة مصادر الجماهير للمواءمة هي الواجهة المبنية لتحقيق ذلك.

انظر واجهة مصادر الجماهير للمواءمةالاختبارات الآلية على GitHubمجموعة البيانات المفتوحة على HuggingFace

الخصوصية في صميم التصميم

بياناتك تبقى ملكك.

الأسرار تُصفَّى

كلمات المرور والمفاتيح وغيرها من التفاصيل الحساسة تُرصد وتُصفَّى قبل أن يصل أي شيء إلى الذاكرة أو السجلات. يعمل المرشح على كل مدخل. الأسرار لا تُخزَّن في أي مكان.

اطلع على بياناتك أو احذفها

يمكنك طلب الاطلاع على بياناتك أو حذفها، ويتم تنفيذ الطلب نيابةً عنك. الحذف يزيل المحتوى الفعلي ويترك دليلًا موقَّعًا على أنه تم بشكل صحيح.

تتم المعالجة على جهازك

افتراضيًا، كل شيء يعمل على جهازك الخاص. لا شيء يغادر جهازك إلا إذا أعددت خدمة خارجية بنفسك. أنت تقرر أي بيانات موجودة وأين تذهب.

الأوراق البحثية الأساسيةكيف يعملقارن المقارباتسياسة الخصوصية

تحقق من كل شيء.

سلامة يمكنك تدقيقها.

كل ادعاء بالسلامة في هذه الصفحة مبني في كود يمكنك قراءته. السجلات حقيقية. التوقيعات قابلة للفحص. زر الإيقاف الطارئ يعمل. هذا ما تبدو عليه سلامة الذكاء الاصطناعي حين تُبنى في العلن.