اولین تماسنصبچرخ‌دنده انسجامفدراسیونمقایسهتحقیقاتپیمانGitHub
این صفحه توسط ماشین ترجمه شده است. اگر چیزی نادرست به نظر می‌رسد، لطفاً یک مشکل گزارش دهید — مخزن به دلیلی عمومی است. گزارش مشکل ترجمه
Background Image
امن‌ترین و اخلاقی‌ترین هوش مصنوعی در تولید امروز

بدون پاسخگویی، هوش مصنوعی بیشتر می‌گیرد تا بدهد.

اگر نتوانید پاسخگویی را بررسی کنید، فقط بازاریابی است. اینجا ببینید چه چیزی را باید دنبال کنید و رویکردهای موجود چگونه مقایسه می‌شوند.

سه نوع هوش مصنوعی

وجدان لازم است. اما کافی نیست.

برخی هوش مصنوعی‌ها اصلاً قانونی ندارند. برخی قوانین را دنبال می‌کنند اما نمی‌توانند بفهمند که منابعشان فقط یکدیگر را تکرار می‌کنند. فقط یک نوع بررسی می‌کند که آیا اطلاعاتش واقعاً از جاهای مختلف می‌آید.

1

بدون قانون

اصولی منتشر نشده. بدون مسیر حسابرسی. منبع بسته. نمی‌توانید بررسی کنید چه کرده یا چرا.

اکثر دستیارهای مصنوعی مصرفی (ChatGPT، Gemini) از نظر پاسخگویی عمومی اینجا قرار دارند. ممکن است شیوه‌های داخلی خوبی وجود داشته باشد؛ اما نمی‌توانید آن را تأیید کنید.

به نظارت خارجی نیاز دارد. نمی‌تواند خودش را کنترل کند.

2

قوانین، بدون آگاهی

قوانین اخلاقی را دنبال می‌کند. اما نمی‌تواند بفهمد که همه منابعش دارند از هم کپی می‌کنند، پس می‌تواند با اطمینان اشتباه کند.

زیر نظارت امن است. نمی‌تواند اتاق پژواک را به‌تنهایی تشخیص دهد.

3

قوانین + آگاهی

قوانین اخلاقی را دنبال می‌کند و بررسی می‌کند که آیا اطلاعاتش از جاهای واقعاً متفاوت می‌آید. وقتی توافق مشکوک به نظر می‌رسد، قبل از اقدام علامت می‌زند.

این همان چیزی است که CIRIS می‌سازد.

هوش مصنوعی می‌تواند هر قانونی را دنبال کند، هر حسابرسی را پشت سر بگذارد، و هنوز شکست بخورد اگر همه اطلاعاتش از یک جا بیاید. این نقطه کور همان چیزی است که CIRIS برای رفع آن ساخته شده.

هفت چیز برای بررسی

شش برای اخلاق. یک برای نقاط کور.

اینها چیزهایی هستند که هوش مصنوعی را قابل حسابرسی و پاسخگو می‌کنند. شش مورد اول درباره انجام کار درست است. هفتمی درباره شناسایی موقعیت‌هایی است که «انجام کار درست» بر اساس اطلاعات نادرست است.

1. اصول منتشرشده

عامل باید از یک چارچوب اخلاقی عمومی پیروی کند. نه قوانین پنهان: یک سند که هر کسی می‌تواند بخواند و آن را پاسخگو بداند.

2. بررسی وجدان برای هر تصمیم

هر اقدامی قبل از انجام آن توسط عامل از یک بررسی وجدان می‌گذرد. نه بعد از واقعه. قبل از آن.

3. وقتی مطمئن نیست از انسان‌ها می‌پرسد

وقتی نامطمئن است یا با آسیب احتمالی روبرو می‌شود، عامل به جای حدس زدن از یک نفر می‌پرسد. در گردش کار جاسازی شده، نه اختیاری.

4. مدرک آنچه انجام داده

هر تصمیمی ثبت و امضا می‌شود تا بتوانید دقیقاً بررسی کنید چه اتفاقی افتاده و چرا. رسید برای هر اقدام.

5. رضایت دوطرفه

رضایت هر دو طرف را شامل می‌شود. شما می‌توانید به عامل نه بگویید. عامل می‌تواند به شما نه بگوید. هیچ‌کدام مجبور به سازش نیستند.

6. منبع باز

نمی‌توانید چیزی را که نمی‌بینید حسابرسی کنید. CIRIS کاملاً منبع باز است تحت AGPL-3.0. هر کسی می‌تواند کد را بخواند، تأیید کند و بهبود دهد.

7

تشخیص اتاق پژواک

چیزی که قوانین به‌تنهایی نمی‌توانند شناسایی کنند.

قبل از اقدام، عامل می‌پرسد: «آیا منابع من واقعاً با هم اختلاف نظر دارند، یا همه‌شان اطلاعاتشان را از یک جا می‌گیرند؟» ده منبعی که همه از یک اصل کپی کرده‌اند واقعاً فقط یک منبع هستند. وقتی توافق خیلی یکنواخت به نظر می‌رسد، عامل آن را برای بررسی یک نفر علامت می‌زند.

خیلی پر سروصدا

منابع آنقدر با هم تضاد دارند که نتیجه مفیدی نمی‌توان گرفت.

سالم

منابع واقعاً متفاوتند. توافق واقعی معنا دارد.

اتاق پژواک

شبیه توافق به نظر می‌رسد، اما منابع فقط یکدیگر را تکرار می‌کنند.

این همان چیزی است که CIRIS را از دیگر چارچوب‌های پاسخگویی هوش مصنوعی متمایز می‌کند.

می‌خواهید ریاضیاتش را ببینید؟ پایان‌نامه کامل را بخوانید ←

چشم‌انداز کنونی

پروژه‌های مختلف، اهداف مختلف.

بر اساس اسناد عمومی تا فوریه 2026. اگر چیزی را از قلم انداخته‌ایم یا اشتباه گفته‌ایم، به ما اطلاع دهید.

پروژههر تصمیم را بررسی می‌کندقوانین منتشرشدهوجدان جاسازی‌شدهمدرک آنچه انجام دادهمنبع بازتشخیص اتاق پژواک
CIRISبلهبلهبلهبلهAGPL-3.0بله
Constitutional AIفقط در آموزشضمنیخیرخیرخیرخیر
LlamaFirewall / NeMo Guardrailsبلهخیرخیرگزارش‌گیریبلهخیر
HatCatبلهجزئیهدایتجزئیCC0خیر
هیئت‌های اخلاقی / چارچوب‌های حاکمیتیخیربلهخیردستیمتفاوتخیر

فیلترهای خروجی و چارچوب‌های حاکمیتی مشکلات مهم اما متفاوتی را حل می‌کنند. فیلترها خروجی‌های مضر را مسدود می‌کنند. وجدان درباره ارزش‌ها استدلال می‌کند. CIRIS هدف دارد هر دو را انجام دهد و نقاط کوری را که هیچ‌کدام به‌تنهایی برطرف نمی‌کنند شناسایی کند.

سه لایه محافظت

هر کدام مشکل متفاوتی را حل می‌کند.

فیلترهای خروجی

خروجی‌های خطرناک را مسدود می‌کند: تزریق پرامپت، محتوای مضر، حملات خصمانه. مثل یک فیلتر که چیزهای بد را در خروجی می‌گیرد.

وجدان اخلاقی

استدلال می‌کند که آیا یک اقدام درست است، نه فقط اینکه امن است. مثل یک قاضی که قبل از صدور حکم وضعیت را می‌سنجد.

تشخیص اتاق پژواک

بررسی می‌کند که آیا توافق واقعی است یا فقط تکرار. مثل یک تحلیل‌گر که می‌پرسد «آیا همه یک مقاله را خوانده‌اید؟»

عوامل زیاد با انسجام

حاکمیت توزیع‌شده، نه قدرت متمرکز.

بدون نقطه شکست واحد

عوامل کوچک‌تر، هر کدام پاسخگو.

عوامل کوچک‌تر زیاد، هر کدام متعهد به اصول منتشرشده، هر کدام قابل حسابرسی، هر کدام ارجاع‌دهنده به مرجع خردمند. هیچ شرکت یا نهاد واحدی کل سیستم را کنترل نمی‌کند. هر چه عوامل مستقل‌تر باشند، سخت‌تر است که یک شکست گسترش یابد.

وضعیت پژوهش

این پژوهش فعال است. درباره آنچه ثابت شده و آنچه هنوز در حال آزمایش است شفاف هستیم.

به‌خوبی ثابت‌شده

  • - منابع کپی‌شده تنوع واقعی را کاهش می‌دهند
  • - مدل‌های هوش مصنوعی همپوشانی داده‌های آموزشی دارند
  • - اتاق‌های پژواک اطمینان کاذب ایجاد می‌کنند
  • - تأیید مستقل خطاهای بیشتری می‌گیرد

هنوز در حال آزمایش

  • - اندازه‌گیری دقیق میزان کپی منابع هوش مصنوعی
  • - بهترین آستانه‌ها برای علامت‌گذاری اتاق‌های پژواک
  • - تا چه حد مداخلات کپی را کاهش می‌دهند
  • - اینکه این موضوع در حوزه‌های مختلف چگونه متفاوت است

خودتان امتحان کنید

خودتان تأیید کنید.

منبع باز. آماده بررسی.

هر ادعایی در این صفحه با کدی که می‌توانید بخوانید، ردیابی‌هایی که می‌توانید تأیید کنید، و پژوهشی که می‌توانید بررسی کنید پشتیبانی می‌شود. این نکته اصلی است.