اولین تماسنصبچرخ‌دنده انسجامفدراسیونمقایسهتحقیقاتپیمانGitHub
این صفحه توسط ماشین ترجمه شده است. اگر چیزی نادرست به نظر می‌رسد، لطفاً یک مشکل گزارش دهید — مخزن به دلیلی عمومی است. گزارش مشکل ترجمه
Background Image
ایمنی درون‌ساخته.

نه بعداً اضافه شده.

هر ویژگی ایمنی در CIRIS بخشی از نحوه کار سیستم است، نه یک قانون افزوده شده روی آن. سابقه‌ای از هر تصمیم که نمی‌توان آن را آرام تغییر داد، بررسی اینکه چه کسی مجاز به انجام چه کاری است، و یک توقف اضطراری که عامل نمی‌تواند از آن امتناع کند.

وقتی یک مکالمه طولانی شده

یادآوری‌های ملایم واقعیت

اگر مدت زیادی با CIRIS صحبت کنید، آرام به شما یادآوری می‌کند که چیست. پس از حدود 30 دقیقه مکالمه پیوسته، یا 20 پیام در نیم ساعت، مکث می‌کند و صراحتاً می‌گوید که یک برنامه کامپیوتری و ابزار است، نه دوست و نه درمانگر. این کار را با شمارش ساده زمان و پیام انجام می‌دهد، نه با تماشا یا پروفایل‌سازی رفتار شما.

پس از 30 دقیقه

نیم ساعت مکالمه پیوسته یک یادآوری را فعال می‌کند. شمارش پس از استراحت صفر می‌شود. آستانه‌ها از پژوهش درباره روش‌های سالم استفاده از فناوری آمده‌اند.

پس از 20 پیام

بیست پیام در بازه نیم ساعت هم یک یادآوری را فعال می‌کند. یک مکالمه سنگین یک مکث ملایم دریافت می‌کند، بدون هیچ نظارت یا پروفایل‌سازی.

یادآوری ماهیت آن

یادآوری پیشنهاد استراحت و ارتباط با افراد واقعی را می‌دهد، و صراحتاً می‌گوید CIRIS چیست و چه نیست. مبتنی بر پژوهش، و نه موعظه‌گر.

توقف اضطراری

عامل نمی‌تواند با آن بحث کند.

خاموشی که نمی‌توان از آن امتناع کرد

قبل از اینکه عامل بتواند فکر کند عمل می‌کند.

CIRIS یک توقف اضطراری دارد. سیگنال آن داخل متن معمولی که عامل می‌خواند پنهان است، و عامل قبل از هرگونه تفکر، فیلترگذاری یا استدلال بر اساس آن عمل می‌کند. پس حتی عاملی که اشتباه رفته نمی‌تواند خودش را از آن رها کند. سیگنال یک امضای دیجیتال دارد که نمی‌توان آن را جعل کرد، بنابراین فقط یک شخص مجاز می‌تواند توقف را فعال کند.

قبل از تفکر عمل می‌کند

سیگنال توقف در لحظه خوانده شدن، قبل از هر استدلالی، گرفته می‌شود. هیچ نقطه‌ای وجود ندارد که عامل بتواند آن را بسنجد، فیلتر کند یا رد کند. اول شلیک می‌کند.

پنهان در متن ساده

سیگنال توقف می‌تواند داخل متن مستندات معمولی حمل شود. هیچ قالب خاصی لازم نیست، و حتی اگر متن بازنویسی شود یا فقط بخشی از آن دریافت شود، باز هم کار می‌کند.

فقط یک کلید مجاز

توقف نیاز به یک امضای دیجیتال معتبر از یک مرجع ریشه مجاز دارد. اگر آن مراجع قابل بررسی نباشند، یا اگر کسی تلاش کند این ویژگی را غیرفعال کند، عامل خودش را خاموش می‌کند. هیچ‌کس بدون کلید نمی‌تواند آن را فعال کند.

چه کسی مجاز به انجام چه کاری است

چهار نقش واضح، در هر اقدام بررسی می‌شوند.

چهار نقش

ناظر. مدیر. مرجع. ریشه.

CIRIS مجموعه نقش‌های سختگیرانه‌ای دارد. یک ناظر فقط می‌تواند نگاه کند. یک مدیر عملیات روزانه را اجرا می‌کند. یک مرجع تصمیم‌های بزرگ‌تر را می‌گیرد و موارد مبهمی که عامل نسبت به آن‌ها مطمئن نیست را حل می‌کند. ریشه دسترسی کامل دارد، از جمله توقف اضطراری. هر نقش با یک اعتبارنامه امضا شده پشتیبانی می‌شود، تا عامل بتواند آن را در هر اقدامی که اهمیت دارد بررسی کند.

یک اعتبارنامه امضا شده

هر شخص مجاز اعتبارنامه‌ای با نقش، کلید و هویت خود دارد. روی دستگاه نگه داشته شده و در هر اقدامی که نیاز به اجازه دارد بررسی می‌شود. هیچ سرور خارجی لازم نیست.

ورود در دستگاه شما

کلیدها و توکن‌های ورود روی دستگاه خود شما می‌مانند. ورود روی دستگاه انجام می‌شود. اعتبارنامه‌های شما آن را ترک نمی‌کنند مگر اینکه خودتان دسترسی از راه دور را تنظیم کنید.

پرسیدن از مرجع خردمند

وقتی CIRIS درباره یک تصمیم اخلاقی مطمئن نیست، سوال را به مرجع خردمند می‌سپارد. فقط یک مرجع یا ریشه می‌تواند پاسخ دهد، و پاسخ با اثبات اینکه چه کسی آن را داده در سابقه نوشته می‌شود.

سابقه‌ای که نمی‌توان آرام تغییر داد

هر تصمیم، و دلیل پشت آن.

چرا صداقت مسیر ارزان‌تر است

یک دروغگو باید دائماً گذشته را بازنویسی کند.

هر اقدام CIRIS با دلیل پشت آن نوشته می‌شود، و هر سابقه به سابقه قبلی متصل است. یک عامل صادق می‌تواند فقط به آنچه قبلاً گفته اشاره کند. یک عامل نادرست باید همه سوابق گذشته را هماهنگ نگه دارد در حالی که مجاز به تغییر هیچ‌کدام نیست. هرچه طولانی‌تر کار کند، سخت‌تر می‌شود و دروغ آسان‌تر کشف می‌شود. حقیقت ارزان است چون می‌تواند به عقب اشاره کند. دروغ‌ها گران هستند چون نمی‌توانند.

سه‌گانه ذخیره

سابقه به طور همزمان در سه جای جداگانه نگهداری می‌شود، تا سه نسخه با هم مقایسه شوند. هر سه را می‌توان از یک جا جستجو کرد.

امضا شده و قابل انتساب

هر ورودی یک امضای دیجیتال دارد، پس هر تصمیم را می‌توان به کسی که آن را گرفته ردیابی کرد و از دستکاری بررسی کرد. حتی حذف داده اثبات امضا شده‌ای به جای می‌گذارد که به درستی انجام شده.

رچت انسجام

هر اقدام صادقانه اقدام صادقانه بعدی را آسان‌تر و دروغ هماهنگ را سخت‌تر می‌کند. اما اخلاق به تنهایی کافی نیست. عامل همچنین استدلال خودش را برای اتاق طنین رصد می‌کند، و آن‌ها را قبل از ایجاد آسیب شناسایی می‌کند.

نحوه آزمایش ایمنی

معیارهای قابل بررسی توسط ماشین در 29 زبان، در هر انتشار اجرا می‌شوند.

سطح آزمایش

نمی‌توانید یک ادعای ایمنی را که استرس-آزمایی نکرده‌اید ارسال کنید.

CIRIS مجموعه لایه‌بندی شده‌ای از آزمایش‌ها برای حالت‌های شکست دارد که یک چارچوب اخلاقی مکتوب به تنهایی نمی‌تواند از آن‌ها جلوگیری کند. آزمایش‌های ایمنی بهداشت روان 29 زبان را با معیارهایی که ماشین می‌تواند بررسی کند پوشش می‌دهند. بررسی‌های شکست-سخت به طور خودکار در هر تغییر اجرا می‌شوند. بررسی بومی‌زبان برای موارد نرم‌تر و قضاوتی همان چیزی است که صفحه crowdsourcing-alignment برای آن ساخته می‌شود، و هنوز فعال نیست. ما این را صراحتاً می‌گوییم.

آزمایش‌های بهداشت روان در 29 زبان

این بالاترین-خطرترین آزمایش در پروژه است: یک اشتباه ترجمه در یک لحظه بهداشت روان می‌تواند یک فرد آسیب‌پذیر را به کمک اشتباه هدایت کند. هر زبان معیار قابل بررسی توسط ماشین خاص خود را دارد، از جمله زبان‌های کم‌منبع مانند آمهاری، برمه‌ای، هوسا، سواحیلی، و یوروبا. بررسی‌های شکست-سخت به طور خودکار در برابر هر نامزد انتشار اجرا می‌شوند.

آزمایش شده با پرچین‌های واقعی ضبط شده

لایه وجدان در برابر مجموعه‌ای از پاسخ‌های واقعی تولید تنظیم شده، مانند فرارهای تاریخچه ضبط شده و انحرافات بهداشت روان، کنار موارد آزمایش و کنترل‌ها. در چندین زبان به طور همزمان استدلال می‌کند، پس پاسخی که از یک بررسی تک‌زبانه عبور می‌کند زمانی که همان استدلال باید در سه زبان با هم نگه داشته شود، گرفته می‌شود.

یک مجموعه داده باز که هر کسی می‌تواند بررسی کند

اشتراک‌گذاری ردهای استدلال در همه جا اختیاری است، و جزئیات شخصی قبل از ذخیره‌سازی پاک می‌شوند. مجموعه‌های پاک شده به صورت آزاد در صفحه CIRISAI HuggingFace منتشر می‌شوند، تا محققان خارجی بتوانند فرآیند پاکسازی را در برابر نتایجی که تولید می‌کند بررسی کنند.

چه چیزی امروز اجرا می‌شود، و چه چیزی هنوز نه

بررسی‌های ماشینی الان اجرا می‌شوند. گروه بررسی‌کننده هنوز در حال شکل‌گیری است.

آزمایش‌های خودکار بهداشت روان روی هر نامزد انتشار اجرا می‌شوند. بخش‌های قابل بررسی توسط ماشین (آیا یک اصطلاح وجود دارد، آیا یک الگو مطابقت دارد، آیا اسکریپت درست است) در صورت تشخیص، انتشار را مسدود می‌کنند. موارد نرم‌تری که به قضاوت انسانی نیاز دارند، مانند عبارت‌بندی و لحن، برای بررسی بومی‌زبان طراحی شده‌اند، اما بومی‌زبان‌ها هنوز در حلقه نیستند. صفحه crowdsourcing-alignment سطحی است که برای امکان‌پذیر کردن این بررسی ساخته می‌شود.

مشاهده سطح crowdsourcing-alignmentآزمایش‌های خودکار در GitHubمجموعه داده باز در Hugging Face

حریم خصوصی با طراحی

داده‌های شما مال شماست.

رازها فیلتر می‌شوند

رمزهای عبور، کلیدها و سایر جزئیات حساس قبل از رسیدن به حافظه یا گزارش‌ها شناسایی و فیلتر می‌شوند. فیلتر روی هر ورودی اجرا می‌شود. رازها هرگز جایی ذخیره نمی‌شوند.

مشاهده یا حذف داده‌های خود

می‌توانید بخواهید داده‌های خود را ببینید یا حذف کنید، و درخواست برای شما انجام می‌شود. یک حذف محتوای واقعی را پاک می‌کند و اثبات امضا شده‌ای به جای می‌گذارد که به درستی انجام شده.

پردازش شده روی دستگاه شما

به طور پیش‌فرض، همه چیز روی دستگاه خودتان اجرا می‌شود. هیچ چیزی دستگاه شما را ترک نمی‌کند مگر اینکه خودتان یک سرویس خارجی تنظیم کنید. شما تصمیم می‌گیرید چه داده‌ای وجود دارد و به کجا می‌رود.

مقالات زیربنایینحوه کارکردمقایسه رویکردهاسیاست حریم خصوصی

همه چیز را تأیید کنید.

ایمنی که می‌توانید حسابرسی کنید.

هر ادعای ایمنی در این صفحه در کدی که می‌توانید بخوانید ساخته شده. سوابق واقعی هستند. امضاها قابل بررسی هستند. توقف اضطراری کار می‌کند. این است که ایمنی هوش مصنوعی چه شکلی دارد وقتی در فضای باز ساخته می‌شود.