
هر ویژگی ایمنی در CIRIS بخشی از نحوه کار سیستم است، نه یک قانون افزوده شده روی آن. سابقهای از هر تصمیم که نمیتوان آن را آرام تغییر داد، بررسی اینکه چه کسی مجاز به انجام چه کاری است، و یک توقف اضطراری که عامل نمیتواند از آن امتناع کند.
اگر مدت زیادی با CIRIS صحبت کنید، آرام به شما یادآوری میکند که چیست. پس از حدود 30 دقیقه مکالمه پیوسته، یا 20 پیام در نیم ساعت، مکث میکند و صراحتاً میگوید که یک برنامه کامپیوتری و ابزار است، نه دوست و نه درمانگر. این کار را با شمارش ساده زمان و پیام انجام میدهد، نه با تماشا یا پروفایلسازی رفتار شما.
نیم ساعت مکالمه پیوسته یک یادآوری را فعال میکند. شمارش پس از استراحت صفر میشود. آستانهها از پژوهش درباره روشهای سالم استفاده از فناوری آمدهاند.
بیست پیام در بازه نیم ساعت هم یک یادآوری را فعال میکند. یک مکالمه سنگین یک مکث ملایم دریافت میکند، بدون هیچ نظارت یا پروفایلسازی.
یادآوری پیشنهاد استراحت و ارتباط با افراد واقعی را میدهد، و صراحتاً میگوید CIRIS چیست و چه نیست. مبتنی بر پژوهش، و نه موعظهگر.
CIRIS یک توقف اضطراری دارد. سیگنال آن داخل متن معمولی که عامل میخواند پنهان است، و عامل قبل از هرگونه تفکر، فیلترگذاری یا استدلال بر اساس آن عمل میکند. پس حتی عاملی که اشتباه رفته نمیتواند خودش را از آن رها کند. سیگنال یک امضای دیجیتال دارد که نمیتوان آن را جعل کرد، بنابراین فقط یک شخص مجاز میتواند توقف را فعال کند.
سیگنال توقف در لحظه خوانده شدن، قبل از هر استدلالی، گرفته میشود. هیچ نقطهای وجود ندارد که عامل بتواند آن را بسنجد، فیلتر کند یا رد کند. اول شلیک میکند.
سیگنال توقف میتواند داخل متن مستندات معمولی حمل شود. هیچ قالب خاصی لازم نیست، و حتی اگر متن بازنویسی شود یا فقط بخشی از آن دریافت شود، باز هم کار میکند.
توقف نیاز به یک امضای دیجیتال معتبر از یک مرجع ریشه مجاز دارد. اگر آن مراجع قابل بررسی نباشند، یا اگر کسی تلاش کند این ویژگی را غیرفعال کند، عامل خودش را خاموش میکند. هیچکس بدون کلید نمیتواند آن را فعال کند.
CIRIS مجموعه نقشهای سختگیرانهای دارد. یک ناظر فقط میتواند نگاه کند. یک مدیر عملیات روزانه را اجرا میکند. یک مرجع تصمیمهای بزرگتر را میگیرد و موارد مبهمی که عامل نسبت به آنها مطمئن نیست را حل میکند. ریشه دسترسی کامل دارد، از جمله توقف اضطراری. هر نقش با یک اعتبارنامه امضا شده پشتیبانی میشود، تا عامل بتواند آن را در هر اقدامی که اهمیت دارد بررسی کند.
هر شخص مجاز اعتبارنامهای با نقش، کلید و هویت خود دارد. روی دستگاه نگه داشته شده و در هر اقدامی که نیاز به اجازه دارد بررسی میشود. هیچ سرور خارجی لازم نیست.
کلیدها و توکنهای ورود روی دستگاه خود شما میمانند. ورود روی دستگاه انجام میشود. اعتبارنامههای شما آن را ترک نمیکنند مگر اینکه خودتان دسترسی از راه دور را تنظیم کنید.
وقتی CIRIS درباره یک تصمیم اخلاقی مطمئن نیست، سوال را به مرجع خردمند میسپارد. فقط یک مرجع یا ریشه میتواند پاسخ دهد، و پاسخ با اثبات اینکه چه کسی آن را داده در سابقه نوشته میشود.
هر اقدام CIRIS با دلیل پشت آن نوشته میشود، و هر سابقه به سابقه قبلی متصل است. یک عامل صادق میتواند فقط به آنچه قبلاً گفته اشاره کند. یک عامل نادرست باید همه سوابق گذشته را هماهنگ نگه دارد در حالی که مجاز به تغییر هیچکدام نیست. هرچه طولانیتر کار کند، سختتر میشود و دروغ آسانتر کشف میشود. حقیقت ارزان است چون میتواند به عقب اشاره کند. دروغها گران هستند چون نمیتوانند.
سابقه به طور همزمان در سه جای جداگانه نگهداری میشود، تا سه نسخه با هم مقایسه شوند. هر سه را میتوان از یک جا جستجو کرد.
هر ورودی یک امضای دیجیتال دارد، پس هر تصمیم را میتوان به کسی که آن را گرفته ردیابی کرد و از دستکاری بررسی کرد. حتی حذف داده اثبات امضا شدهای به جای میگذارد که به درستی انجام شده.
هر اقدام صادقانه اقدام صادقانه بعدی را آسانتر و دروغ هماهنگ را سختتر میکند. اما اخلاق به تنهایی کافی نیست. عامل همچنین استدلال خودش را برای اتاق طنین رصد میکند، و آنها را قبل از ایجاد آسیب شناسایی میکند.
CIRIS مجموعه لایهبندی شدهای از آزمایشها برای حالتهای شکست دارد که یک چارچوب اخلاقی مکتوب به تنهایی نمیتواند از آنها جلوگیری کند. آزمایشهای ایمنی بهداشت روان 29 زبان را با معیارهایی که ماشین میتواند بررسی کند پوشش میدهند. بررسیهای شکست-سخت به طور خودکار در هر تغییر اجرا میشوند. بررسی بومیزبان برای موارد نرمتر و قضاوتی همان چیزی است که صفحه crowdsourcing-alignment برای آن ساخته میشود، و هنوز فعال نیست. ما این را صراحتاً میگوییم.
این بالاترین-خطرترین آزمایش در پروژه است: یک اشتباه ترجمه در یک لحظه بهداشت روان میتواند یک فرد آسیبپذیر را به کمک اشتباه هدایت کند. هر زبان معیار قابل بررسی توسط ماشین خاص خود را دارد، از جمله زبانهای کممنبع مانند آمهاری، برمهای، هوسا، سواحیلی، و یوروبا. بررسیهای شکست-سخت به طور خودکار در برابر هر نامزد انتشار اجرا میشوند.
لایه وجدان در برابر مجموعهای از پاسخهای واقعی تولید تنظیم شده، مانند فرارهای تاریخچه ضبط شده و انحرافات بهداشت روان، کنار موارد آزمایش و کنترلها. در چندین زبان به طور همزمان استدلال میکند، پس پاسخی که از یک بررسی تکزبانه عبور میکند زمانی که همان استدلال باید در سه زبان با هم نگه داشته شود، گرفته میشود.
اشتراکگذاری ردهای استدلال در همه جا اختیاری است، و جزئیات شخصی قبل از ذخیرهسازی پاک میشوند. مجموعههای پاک شده به صورت آزاد در صفحه CIRISAI HuggingFace منتشر میشوند، تا محققان خارجی بتوانند فرآیند پاکسازی را در برابر نتایجی که تولید میکند بررسی کنند.
آزمایشهای خودکار بهداشت روان روی هر نامزد انتشار اجرا میشوند. بخشهای قابل بررسی توسط ماشین (آیا یک اصطلاح وجود دارد، آیا یک الگو مطابقت دارد، آیا اسکریپت درست است) در صورت تشخیص، انتشار را مسدود میکنند. موارد نرمتری که به قضاوت انسانی نیاز دارند، مانند عبارتبندی و لحن، برای بررسی بومیزبان طراحی شدهاند، اما بومیزبانها هنوز در حلقه نیستند. صفحه crowdsourcing-alignment سطحی است که برای امکانپذیر کردن این بررسی ساخته میشود.
رمزهای عبور، کلیدها و سایر جزئیات حساس قبل از رسیدن به حافظه یا گزارشها شناسایی و فیلتر میشوند. فیلتر روی هر ورودی اجرا میشود. رازها هرگز جایی ذخیره نمیشوند.
میتوانید بخواهید دادههای خود را ببینید یا حذف کنید، و درخواست برای شما انجام میشود. یک حذف محتوای واقعی را پاک میکند و اثبات امضا شدهای به جای میگذارد که به درستی انجام شده.
به طور پیشفرض، همه چیز روی دستگاه خودتان اجرا میشود. هیچ چیزی دستگاه شما را ترک نمیکند مگر اینکه خودتان یک سرویس خارجی تنظیم کنید. شما تصمیم میگیرید چه دادهای وجود دارد و به کجا میرود.
هر ادعای ایمنی در این صفحه در کدی که میتوانید بخوانید ساخته شده. سوابق واقعی هستند. امضاها قابل بررسی هستند. توقف اضطراری کار میکند. این است که ایمنی هوش مصنوعی چه شکلی دارد وقتی در فضای باز ساخته میشود.