
اگر نتوانید پاسخگویی را بررسی کنید، فقط بازاریابی است. اینجا ببینید چه چیزی را باید دنبال کنید و رویکردهای موجود چگونه مقایسه میشوند.
وجدان لازم است. اما کافی نیست.
برخی هوش مصنوعیها اصلاً قانونی ندارند. برخی قوانین را دنبال میکنند اما نمیتوانند بفهمند که منابعشان فقط یکدیگر را تکرار میکنند. فقط یک نوع بررسی میکند که آیا اطلاعاتش واقعاً از جاهای مختلف میآید.
اصولی منتشر نشده. بدون مسیر حسابرسی. منبع بسته. نمیتوانید بررسی کنید چه کرده یا چرا.
اکثر دستیارهای مصنوعی مصرفی (ChatGPT، Gemini) از نظر پاسخگویی عمومی اینجا قرار دارند. ممکن است شیوههای داخلی خوبی وجود داشته باشد؛ اما نمیتوانید آن را تأیید کنید.
به نظارت خارجی نیاز دارد. نمیتواند خودش را کنترل کند.
قوانین اخلاقی را دنبال میکند. اما نمیتواند بفهمد که همه منابعش دارند از هم کپی میکنند، پس میتواند با اطمینان اشتباه کند.
زیر نظارت امن است. نمیتواند اتاق پژواک را بهتنهایی تشخیص دهد.
قوانین اخلاقی را دنبال میکند و بررسی میکند که آیا اطلاعاتش از جاهای واقعاً متفاوت میآید. وقتی توافق مشکوک به نظر میرسد، قبل از اقدام علامت میزند.
این همان چیزی است که CIRIS میسازد.
هوش مصنوعی میتواند هر قانونی را دنبال کند، هر حسابرسی را پشت سر بگذارد، و هنوز شکست بخورد اگر همه اطلاعاتش از یک جا بیاید. این نقطه کور همان چیزی است که CIRIS برای رفع آن ساخته شده.
اینها چیزهایی هستند که هوش مصنوعی را قابل حسابرسی و پاسخگو میکنند. شش مورد اول درباره انجام کار درست است. هفتمی درباره شناسایی موقعیتهایی است که «انجام کار درست» بر اساس اطلاعات نادرست است.
عامل باید از یک چارچوب اخلاقی عمومی پیروی کند. نه قوانین پنهان: یک سند که هر کسی میتواند بخواند و آن را پاسخگو بداند.
هر اقدامی قبل از انجام آن توسط عامل از یک بررسی وجدان میگذرد. نه بعد از واقعه. قبل از آن.
وقتی نامطمئن است یا با آسیب احتمالی روبرو میشود، عامل به جای حدس زدن از یک نفر میپرسد. در گردش کار جاسازی شده، نه اختیاری.
هر تصمیمی ثبت و امضا میشود تا بتوانید دقیقاً بررسی کنید چه اتفاقی افتاده و چرا. رسید برای هر اقدام.
رضایت هر دو طرف را شامل میشود. شما میتوانید به عامل نه بگویید. عامل میتواند به شما نه بگوید. هیچکدام مجبور به سازش نیستند.
نمیتوانید چیزی را که نمیبینید حسابرسی کنید. CIRIS کاملاً منبع باز است تحت AGPL-3.0. هر کسی میتواند کد را بخواند، تأیید کند و بهبود دهد.
چیزی که قوانین بهتنهایی نمیتوانند شناسایی کنند.
قبل از اقدام، عامل میپرسد: «آیا منابع من واقعاً با هم اختلاف نظر دارند، یا همهشان اطلاعاتشان را از یک جا میگیرند؟» ده منبعی که همه از یک اصل کپی کردهاند واقعاً فقط یک منبع هستند. وقتی توافق خیلی یکنواخت به نظر میرسد، عامل آن را برای بررسی یک نفر علامت میزند.
خیلی پر سروصدا
منابع آنقدر با هم تضاد دارند که نتیجه مفیدی نمیتوان گرفت.
سالم
منابع واقعاً متفاوتند. توافق واقعی معنا دارد.
اتاق پژواک
شبیه توافق به نظر میرسد، اما منابع فقط یکدیگر را تکرار میکنند.
این همان چیزی است که CIRIS را از دیگر چارچوبهای پاسخگویی هوش مصنوعی متمایز میکند.
میخواهید ریاضیاتش را ببینید؟ پایاننامه کامل را بخوانید ←بر اساس اسناد عمومی تا فوریه 2026. اگر چیزی را از قلم انداختهایم یا اشتباه گفتهایم، به ما اطلاع دهید.
| پروژه | هر تصمیم را بررسی میکند | قوانین منتشرشده | وجدان جاسازیشده | مدرک آنچه انجام داده | منبع باز | تشخیص اتاق پژواک |
|---|---|---|---|---|---|---|
| CIRIS | بله | بله | بله | بله | AGPL-3.0 | بله |
| Constitutional AI | فقط در آموزش | ضمنی | خیر | خیر | خیر | خیر |
| LlamaFirewall / NeMo Guardrails | بله | خیر | خیر | گزارشگیری | بله | خیر |
| HatCat | بله | جزئی | هدایت | جزئی | CC0 | خیر |
| هیئتهای اخلاقی / چارچوبهای حاکمیتی | خیر | بله | خیر | دستی | متفاوت | خیر |
فیلترهای خروجی و چارچوبهای حاکمیتی مشکلات مهم اما متفاوتی را حل میکنند. فیلترها خروجیهای مضر را مسدود میکنند. وجدان درباره ارزشها استدلال میکند. CIRIS هدف دارد هر دو را انجام دهد و نقاط کوری را که هیچکدام بهتنهایی برطرف نمیکنند شناسایی کند.
خروجیهای خطرناک را مسدود میکند: تزریق پرامپت، محتوای مضر، حملات خصمانه. مثل یک فیلتر که چیزهای بد را در خروجی میگیرد.
استدلال میکند که آیا یک اقدام درست است، نه فقط اینکه امن است. مثل یک قاضی که قبل از صدور حکم وضعیت را میسنجد.
بررسی میکند که آیا توافق واقعی است یا فقط تکرار. مثل یک تحلیلگر که میپرسد «آیا همه یک مقاله را خواندهاید؟»
عوامل کوچکتر زیاد، هر کدام متعهد به اصول منتشرشده، هر کدام قابل حسابرسی، هر کدام ارجاعدهنده به مرجع خردمند. هیچ شرکت یا نهاد واحدی کل سیستم را کنترل نمیکند. هر چه عوامل مستقلتر باشند، سختتر است که یک شکست گسترش یابد.
این پژوهش فعال است. درباره آنچه ثابت شده و آنچه هنوز در حال آزمایش است شفاف هستیم.
بهخوبی ثابتشده
هنوز در حال آزمایش
هر ادعایی در این صفحه با کدی که میتوانید بخوانید، ردیابیهایی که میتوانید تأیید کنید، و پژوهشی که میتوانید بررسی کنید پشتیبانی میشود. این نکته اصلی است.