
كل ميزة سلامة في CIRIS جزء من طريقة عمل النظام، لا قاعدة أُضيفت فوقه. سجل لكل قرار لا يمكن تغييره بصمت، ورقابة على من يُسمح له بفعل ماذا، وزر إيقاف طارئ لا يستطيع الوكيل رفضه.
إذا تحدثت مع CIRIS لفترة طويلة، فسيذكِّرك بلطف بما هو. بعد نحو 30 دقيقة من التبادل المستمر، أو 20 رسالة خلال نصف ساعة، يتوقف ليقول بوضوح إنه برنامج حاسوبي وأداة، لا صديق ولا معالج نفسي. يستخدم لذلك عدادات بسيطة للوقت والرسائل، لا مراقبة لسلوكك أو تحليل لملفك الشخصي.
نصف ساعة من التبادل المستمر يُشغِّل التذكير. يُعاد العدّ بعد توقف. تستند الحدود إلى أبحاث حول الطرق الصحية لاستخدام التكنولوجيا.
عشرون رسالة خلال نصف ساعة أيضًا تُشغِّل التذكير. تبادل مكثف يحصل على توقف لطيف، دون مراقبة أو تحليل.
يقترح التذكير أخذ استراحة والتواصل مع أناس حقيقيين، ويقول بصراحة ما هو CIRIS وما ليس عليه. مستند إلى أبحاث، وليس وعظيًا.
يمتلك CIRIS زر إيقاف طارئ. إشارته مخفية داخل نص عادي يقرأه الوكيل، ويتصرف الوكيل بناءً عليها قبل أي تفكير أو تصفية أو استدلال. لذا حتى وكيل انحرف لا يستطيع التملص منه بالكلام. تحمل الإشارة توقيعًا رقميًا لا يمكن تزويره، فلا يستطيع تشغيل الإيقاف إلا شخص مخوَّل.
إشارة الإيقاف تُؤخَذ في لحظة قراءتها، قبل أي استدلال. لا توجد نقطة يستطيع فيها الوكيل وزنها أو تصفيتها أو رفضها. إنها تُطلَق أولًا.
يمكن حمل إشارة الإيقاف داخل نص توثيق عادي. لا حاجة لتنسيق خاص، وتعمل حتى لو أُعيدت صياغة النص أو وصل جزء منه فقط.
يتطلب الإيقاف توقيعًا رقميًا صالحًا من سلطة جذر مخوَّلة. يُوقف الوكيل نفسه إذا تعذَّر التحقق من تلك السلطات، أو إذا حاول أحد تعطيل الميزة. لا أحد بدون المفتاح يستطيع تشغيله.
يحتفظ CIRIS بمجموعة صارمة من الأدوار. المراقب يستطيع الاطلاع فقط. المسؤول يدير العمليات اليومية. السلطة تتخذ القرارات الأكبر وتفصل في الحالات التي يتردد فيها الوكيل. الجذر لديه وصول كامل، بما في ذلك زر الإيقاف الطارئ. كل دور مدعوم ببيانات اعتماد موقَّعة، حتى يتمكن الوكيل من فحصها عند كل إجراء مهم.
كل شخص مخوَّل يحمل بيانات اعتماد تتضمن دوره ومفتاحه وهويته. تُحفظ على الجهاز وتُفحص عند كل إجراء يحتاج إذنًا. لا حاجة لخادم خارجي.
تبقى المفاتيح ورموز الدخول على جهازك الخاص. تسجيل الدخول يتم على الجهاز. بيانات اعتمادك لا تغادره إلا إذا اخترت بنفسك إعداد الوصول عن بُعد.
عندما يتردد CIRIS في قرار أخلاقي، يحيل السؤال إلى السلطة الحكيمة. لا يستطيع الإجابة إلا سلطة أو جذر، وتُكتب الإجابة في السجل مع دليل على من أعطاها.
كل إجراء يتخذه CIRIS يُكتب مع السبب وراءه، وكل سجل مرتبط بالسابق له. الوكيل الصادق يستطيع فقط الإشارة إلى ما قاله من قبل. أما الوكيل غير الأمين فعليه أن يبقي كل سجل سابق منسجمًا دون أن يُسمح له بتغيير أي منه. كلما طال تشغيله، زادت صعوبة ذلك، وأصبح الكشف عن الكذبة أسهل. الصدق رخيص لأنه يستطيع الإشارة إلى الخلف. الكذب مكلف لأنه لا يستطيع.
يُحفظ السجل في ثلاثة أماكن منفصلة في آنٍ واحد، حتى يمكن مقارنة النسخ الثلاث ببعضها. يمكن البحث في الثلاثة من مكان واحد.
كل قيد يحمل توقيعًا رقميًا، فكل قرار يمكن تتبُّعه إلى من اتخذه والتحقق من عدم العبث به. حتى حذف البيانات يترك دليلًا موقَّعًا على أنه تم بشكل صحيح.
كل إجراء صادق يجعل الإجراء الصادق التالي أسهل ويجعل الكذب المنسَّق أصعب. لكن الأخلاق وحدها لا تكفي. يراقب الوكيل أيضًا استدلاله بحثًا عن غرف الصدى، ويكتشفها قبل أن تسبب أذى.
يمتلك CIRIS مجموعة طبقات من الاختبارات لأنماط الإخفاق التي لا يستطيع إطار أخلاقيات مكتوب استبعادها وحده. تغطي اختبارات سلامة الصحة النفسية 29 لغة بمقاييس يستطيع الحاسوب فحصها. تعمل الفحوصات الصارمة تلقائيًا عند كل تغيير. مراجعة أصحاب اللغة الأصلية للحالات الأكثر دقة التي تحتاج إلى حكم بشري هي ما تُبنى لها صفحة مصادر الجماهير للمواءمة، وهي غير متاحة بعد. نقول ذلك بصراحة.
هذا أصعب اختبار في المشروع: خطأ في الترجمة في لحظة تتعلق بالصحة النفسية قد يرسل شخصًا ضعيفًا إلى المساعدة الخاطئة. كل لغة تحصل على مقياس خاص يفحصه الحاسوب، بما في ذلك لغات ذات موارد محدودة مثل الأمهرية والبورمية والهوسا والسواحيلية واليوروبية. تعمل الفحوصات الصارمة تلقائيًا ضد كل مرشح إصدار.
طبقة الضمير مضبوطة على مجموعة من الردود الإنتاجية الحقيقية، مثل مراوغات التاريخ المسجَّلة وردود الصحة النفسية الملتوية، إلى جانب حالات الاختبار والضوابط. تستدل عبر عدة لغات في آنٍ واحد، فرد ينجو من فحص بلغة واحدة يُكشف حين يجب أن يصمد الاستدلال ذاته بثلاث لغات معًا.
مشاركة آثار الاستدلال اختيارية في كل مكان، وتُزال التفاصيل الشخصية قبل أي تخزين. تُنشر المجموعات المنظَّفة على صفحة CIRISAI على HuggingFace، حتى يتمكن الباحثون الخارجيون من مقارنة عملية التنظيف بالنتائج التي تنتجها.
الاختبارات الآلية للصحة النفسية تعمل على كل مرشح إصدار. الأجزاء القابلة للفحص بالحاسوب (هل المصطلح موجود، هل النمط متطابق، هل النص صحيح) تُفشل الإصدار عند وجود خطأ. الحالات الأكثر دقة التي تحتاج إلى حكم بشري، مثل الصياغة والنبرة، مصممة للمراجعة من أصحاب اللغة الأصلية، لكنهم ليسوا في الحلقة اليوم. صفحة مصادر الجماهير للمواءمة هي الواجهة المبنية لتحقيق ذلك.
كلمات المرور والمفاتيح وغيرها من التفاصيل الحساسة تُرصد وتُصفَّى قبل أن يصل أي شيء إلى الذاكرة أو السجلات. يعمل المرشح على كل مدخل. الأسرار لا تُخزَّن في أي مكان.
يمكنك طلب الاطلاع على بياناتك أو حذفها، ويتم تنفيذ الطلب نيابةً عنك. الحذف يزيل المحتوى الفعلي ويترك دليلًا موقَّعًا على أنه تم بشكل صحيح.
افتراضيًا، كل شيء يعمل على جهازك الخاص. لا شيء يغادر جهازك إلا إذا أعددت خدمة خارجية بنفسك. أنت تقرر أي بيانات موجودة وأين تذهب.
كل ادعاء بالسلامة في هذه الصفحة مبني في كود يمكنك قراءته. السجلات حقيقية. التوقيعات قابلة للفحص. زر الإيقاف الطارئ يعمل. هذا ما تبدو عليه سلامة الذكاء الاصطناعي حين تُبنى في العلن.