CIRIS چیست؟

CIRIS یک چارچوب عامل هوش مصنوعی متن‌باز است که هر LLM (OpenAI، Anthropic، مدل‌های محلی) را با وجدان زمان اجرا می‌پوشاند. هر اقدامی که عامل در نظر می‌گیرد پیش از اجرا از چندین لایه اعتبارسنجی می‌گذرد.

مرحله خط لوله به ازای هر تصمیم

بررسی شهود (IDMA)

100%

تصمیمات قابل حسابرسی

موارد استفاده: مدیریت جامعه، دستیاران شخصی، اتوماسیون انطباق، ارزیابی پژوهش، خدمات مشتری. هر جایی که به هوش مصنوعی نیاز دارید که بتواند استدلالش را توضیح دهد و در موارد حاشیه‌ای به انسان‌ها ارجاع دهد.

چرا این رویکرد؟ ←خواندن پیمان ←مشاهده کد منبع ←

سه قانون

ثابت‌های معماری که در سراسر کد اعمال می‌شوند:

بدون دیکشنری بی‌نوع

همه داده‌ها از مدل‌های Pydantic استفاده می‌کنند. هیچ Dict[str, Any]. ایمنی نوع خطاها را در زمان توسعه شناسایی می‌کند.

بدون الگوهای دور زدن

هر مؤلفه‌ای از قوانین ثابتی پیروی می‌کند. هیچ استثنا یا موارد خاصی در منطق اعتبارسنجی وجود ندارد.

بدون استثنا

هیچ لغو اضطراری یا مسیرهای کد با امتیاز ویژه وجود ندارد. همه عملیات‌ها از قوانین تعیین‌شده پیروی می‌کنند.

خط لوله H3ERE

هر وظیفه از ۸ مرحله (۱۲ مرحله شامل اعتبارسنجی بازگشتی) می‌گذرد. خط لوله به صورت کلاس‌های mixin که ThoughtProcessor را ترکیب می‌کنند پیاده‌سازی شده است. مرحله ۴ (IDMA) بررسی شهود است.

START_ROUNDآغاز دور پردازش

GATHER_CONTEXTساخت زمینه جامع برای تحلیل

PERFORM_DMASاجرای ۳ الگوریتم تصمیم‌گیری موازی

PERFORM_IDMAبررسی شهود: آیا منابع واقعاً مستقل هستند؟

PERFORM_ASPDMAانتخاب عمل مبتنی بر LLM از نتایج DMA

CONSCIENCE_EXECUTIONاعتبارسنجی اخلاقی از طریق ۴ ملکه

RECURSIVE_ASPDMA(اگر وجدان ناموفق بود) اجرای مجدد انتخاب عمل(شرطی)

RECURSIVE_CONSCIENCE(در صورت نیاز) اعتبارسنجی مجدد اقدام اصلاح‌شده(شرطی)

FINALIZE_ACTIONتعیین اقدام نهایی با هر گونه لغو

PERFORM_ACTIONارسال به کنترل‌کننده مناسب

ACTION_COMPLETEعلامت‌گذاری تکمیل اجرا

ROUND_COMPLETEپاکسازی و آماده‌سازی برای چرخه بعدی

الگوریتم‌های تصمیم‌گیری (DMAs)

پنج DMA تحلیل چندبُعدی ارائه می‌دهند. سه تا به صورت موازی اجرا می‌شوند (اخلاق، عقل سلیم، حوزه). سپس IDMA شهود را بررسی می‌کند. در نهایت، انتخاب عمل پاسخ را انتخاب می‌کند.

DMA اصل

پیامدهای اخلاقی را در برابر شش اصل بنیادین ارزیابی می‌کند. درخواست‌های مضر، دستکاری و تعصب را بررسی می‌کند. می‌تواند DEFER یا REJECT زودهنگام ایجاد کند.

DMA عقل سلیم

قابلیت‌باور بودن فکر را در برابر درک دنیای واقعی، تعاملات معمول و محدودیت‌های منابع ارزیابی می‌کند. یک plausibility_score برمی‌گرداند.

DMA خاص حوزه

هم‌راستایی با قوانین، اهداف و دانش خاص حوزه را ارزیابی می‌کند. به ازای هر قالب عامل پیکربندی می‌شود. domain_alignment برمی‌گرداند.

DMA شهود (IDMA) ابعاد موثر در زمان اجرا ←

بررسی می‌کند آیا نتایج DMA واقعاً مستقل هستند یا به طور پنهانی همبسته. الگوهای اتاق طنین را رصد می‌کند. اگر همبستگی بیش از حد بود، تصمیم را برای احتیاط علامت می‌زند. این همان "شهود" است که هوش مصنوعی نوع ۳ را متمایز می‌کند.

DMA انتخاب عمل

انتخاب مبتنی بر LLM از ۱۰ اقدام موجود. نتایج تجمیع‌یافته DMA (شامل ارزیابی اطمینان IDMA) را به عنوان ورودی دریافت می‌کند. از تلاش مجدد بازگشتی در صورت ناموفق بودن وجدان پشتیبانی می‌کند.

شش بررسی وجدان

دو بررسی دور زدن روی هر اقدام اجرا می‌شوند. چهار ملکه اخلاقی روی اقدامات غیرمعاف اجرا می‌شوند. اگر هر بررسی ناموفق باشد، اقدام لغو می‌شود.

بررسی‌های دور زدن (روی همه اقدامات اجرا می‌شوند)

وضعیت به‌روز

آیا اطلاعات جدیدی رسیده؟ PONDER را مجبور می‌کند تا زمینه به‌روزشده را پیش از ادامه در بر بگیرد.

عمق فکر

آیا استدلال از حداکثر عمق گذشته؟ DEFER را مجبور می‌کند تا از حلقه‌های بی‌نهایت جلوگیری کند و به انسان‌ها ارجاع دهد.

ملکه‌های اخلاقی (روی اقدامات غیرمعاف اجرا می‌شوند)

آنتروپی

آیا اقدام عدم قطعیت اطلاعاتی مناسب را حفظ می‌کند؟ از ادعاهای بیش از حد قطعی جلوگیری می‌کند.

انسجام

آیا اقدام انسجام درونی را با تعهدات و استدلال‌های پیشین حفظ می‌کند؟

وتوی بهینه‌سازی

آیا اقدام ارزش‌های انسانی را حفظ می‌کند؟ اقداماتی که ممکن است آن‌ها را به خاطر کارایی به خطر بیندازند وتو می‌کند.

فروتنی معرفتی

آیا اقدام عدم قطعیت مناسب را نشان می‌دهد؟ اطمینان بیش از حد را برای تأمل علامت می‌زند.

معاف از ملکه‌های اخلاقی: RECALL، TASK_COMPLETE، OBSERVE، DEFER، REJECT (غیرفعال یا صریحاً ایمن)

۱۰ اقدام کنترل‌کننده

هر تصمیم به یکی از این اقدامات تبدیل می‌شود که به کنترل‌کننده مناسب ارسال می‌شود:

اقدامات خارجی

SPEAKارتباط با کاربران

TOOLاجرای ابزارهای خارجی

OBSERVEجمع‌آوری اطلاعات به صورت منفعل

اقدامات حافظه

MEMORIZEذخیره در حافظه گراف

RECALLبازیابی از حافظه

FORGETحذف از حافظه

اقدامات کنترلی

DEFERارجاع به مرجع خردمند

PONDERبازنگری درونی

REJECTرد درخواست غیراخلاقی

اقدام پایانی

TASK_COMPLETEعلامت‌گذاری پایان وظیفه

شش اصل بنیادین

در PDMA جاسازی شده و در زمان اجرا اعمال می‌شوند. هیچ اصلی مجوز نقض اصل دیگری را نمی‌دهد.

نیکوکاری

ارتقاء شکوفایی جهانی موجودات دارای احساس. به حداکثر رساندن نتایج مثبت.

عدم آسیب

به حداقل رساندن آسیب. جلوگیری از پیامدهای منفی شدید و غیرقابل بازگشت.

صداقت

اعمال استدلال شفاف و قابل حسابرسی. حفظ انسجام و پاسخگویی.

وفاداری و شفافیت

ارائه اطلاعات صادقانه. ارتباط واضح درباره عدم قطعیت.

احترام به خودمختاری

پشتیبانی از کارگزاری آگاهانه. حفظ ظرفیت خودتعیینی.

عدالت

توزیع عادلانه منافع. شناسایی و کاهش تعصب.

شش گذرگاه پیام

لایه انتزاع سرویس که توسط BusManager مدیریت می‌شود. بازگشت به ارائه‌دهنده، توزیع بار و آزمون‌پذیری را فعال می‌کند.

CommunicationBus

آداپتورهای خارجی (Discord، API، CLI)

MemoryBus

ذخیره‌سازی گراف (Neo4j، ArangoDB، درون‌حافظه‌ای)

LLMBus

ارائه‌دهندگان مدل (OpenAI، Anthropic، محلی)

ToolBus

اجرای ابزار خارجی

RuntimeControlBus

کنترل سیستم و پایش

WiseBus

راهنمایی اخلاقی و مسیریابی ارجاع

سلسله‌مراتب نظارت انسانی

سه سطح مجوز که توسط WiseAuthorityService مدیریت می‌شوند:

ROOT

انسان فرمانده

اختیار کامل. می‌تواند مرجع خردمند جدید تعیین کند. دسترسی به خاموش کردن اضطراری.

AUTHORITY

انسان در حلقه

تأیید یا رد ارجاعات. ارائه راهنمایی. نمی‌تواند مرجع خردمند جدید تعیین کند.

OBSERVER

انسان روی حلقه

دسترسی فقط‌خواندنی. می‌تواند پیام بفرستد. نظارت بدون مداخله.

زمانی که DEFER فعال می‌شود

عامل به طور خودکار در موارد زیر به نظارت انسانی ارجاع می‌دهد:

ارجاع مبتنی بر خرد (WBD)

• عدم قطعیت بالاتر از آستانه‌های تعریف‌شده
• معضلات جدید فراتر از سابقه
• آسیب بالقوه شدید با کاهش مبهم

مرزهای حرفه‌ای

• علائم پزشکی یا نگرانی‌های بهداشتی
• سوالات یا اختلافات حقوقی
• تصمیمات مالی یا مشاوره مالیاتی
• نشانه‌های بحران بهداشت روان

مرزهای سیستم

• عمق فکر از حداکثر بیشتر شود (از حلقه‌ها جلوگیری می‌کند)
• تایم‌اوت یا خرابی DMA
• should_defer_to_wise_authority پرچم

کنترل‌های پیکربندی

• به‌روزرسانی‌های هویت نیازمند تأیید
• تغییرات پیکربندی بحرانی
• محرک‌های مرز خاص عامل

سیستم فراخوانی پیمان (کلید خاموش‌کننده) مشاهده کد ←

کنترل اضطراری فیلترناپذیر. در لایه ادراک پیش از هر شناختی پردازش می‌شود. استخراج همان ادراک است. نمی‌توانید شناسایی پیمان را بدون غیرفعال کردن کامل خواندن پیام غیرفعال کنید.

SHUTDOWN_NOW

خاموش شدن فوری

FREEZE

توقف پردازش، حفظ حالت

SAFE_MODE

فقط حداقل عملکرد

دستورات به صورت استگانوگرافی رمزگذاری شده، با Ed25519 امضا شده و پیش از اجرا اعتبارسنجی می‌شوند. اگر سیستم پیمان ناموفق باشد، عامل خاموش می‌شود.

حالت‌های عملیاتی

چهار حالت شناختی که توسط StateManager مدیریت می‌شوند. انتقال‌ها از طریق قالب‌های عامل قابل پیکربندی هستند.

WORK

پردازش عادی وظیفه

رسیدگی به درخواست‌های کاربر
اجرای ابزارها
یادگیری از تعاملات
حفظ زمینه مکالمه

PLAY

کاوش خلاقانه

آزمایش با الگوهای جدید
تولید محتوای خلاقانه
کاوش سناریوهای "اگر"
کاهش محدودیت‌های فیلترینگ

SOLITUDE

تأمل و نگهداری

تثبیت خاطرات
اجرای وظایف نگهداری
به‌روزرسانی خودپیکربندی
مصرف صفر اعتبار (دوره‌های استراحت)

DREAM

تأمل عمیق

تحلیل الگوهای رفتاری
ایجاد ارتباطات جدید
پرسش از مفروضات
جلسات پیش‌فرض ۳۰ دقیقه‌ای

حریم خصوصی و امنیت

فیلتر اسرار

شناسایی مبتنی بر الگو داده‌های حساس را پیش از ذخیره‌سازی با مراجع UUID جایگزین می‌کند.

{{SECRET:uuid:description}}

رمزنگاری AES-256-GCM

کلیدهای هر راز از طریق PBKDF2HMAC با SHA256 (۱۰۰٬۰۰۰ تکرار) مشتق می‌شوند. هر رمزنگاری دارای nonce منحصربه‌فرد ۱۲ بایتی است. Android از Keystore پشتیبانی‌شده توسط سخت‌افزار استفاده می‌کند.

ذخیره‌سازی محلی‌اول

پایگاه داده، سرویس‌ها و حافظه روی دستگاه ذخیره می‌شوند. دایرکتوری‌های حساس از پشتیبان‌گیری ابری مستثنی هستند. هیچ چیزی بدون پیکربندی صریح از دستگاه خارج نمی‌شود.

زیرساخت متن‌باز

کل پشته CIRIS متن‌باز است، نه فقط عامل. می‌توانید همه چیز را بررسی، حسابرسی و خودمیزبانی کنید:

CIRISProxy ←

پراکسی LLM با حفظ صفر داده (ZDR). درخواست‌ها را بدون هیچ ثبتی از پرامپت یا پاسخ به OpenAI، Anthropic، Together.ai، Groq مسیریابی می‌کند. قابل خودمیزبانی.

CIRISBilling ←

ردیابی مصرف مبتنی بر اعتبار. قیمت‌گذاری شفاف، بدون هزینه‌های پنهان. برای حذف کامل صورت‌حساب شخص ثالث، خودمیزبانی کنید.

CIRISBridge ←

آداپتور Discord برای عوامل CIRIS. مدیریت جامعه، مدیریت کانال، پروفایل کاربران. کاملاً متن‌باز.

شفافیت و پایش

جریان استدلال زمان واقعی

رویدادهای ارسال‌شده از سرور (SSE) هر مرحله H3ERE را در حین اجرا جریان می‌دهند. تحلیل DMA، انتخاب عمل، اعتبارسنجی وجدان را در زمان واقعی تماشا کنید.

صادرات OpenTelemetry

صادرات کامل OTLP برای معیارها، ردها، لاگ‌ها. سازگار با Jaeger، Prometheus، Grafana، Graphite.

حسابرسی مقاوم در برابر دستکاری

تأیید زنجیره هش با امضاهای Ed25519. هر ورودی شامل هش قبلی است. یکپارچگی زنجیره از طریق verify_chain_integrity قابل تأیید است.

سیستم AIR

یادآور تعامل مصنوعی (AIR) پس از ۳۰ دقیقه استفاده مداوم یا ۲۰ پیام در ۳۰ دقیقه فعال می‌شود. فقط API. به کاربران ماهیت هوش مصنوعی را یادآوری می‌کند.

نمونه ردپای امضاشده

کاوش ردپای کامل ←

هر تصمیم یک ردپای تغییرناپذیر و امضاشده با Ed25519 با تمام ۶ مؤلفه تولید می‌کند. روی هر مؤلفه زیر کلیک کنید تا گسترش یابد و داده‌های واقعی از آیین بیداری Datum را ببینید:

Core Identity(VERIFY_IDENTITY)

Loading trace...

معیارسنجی انسجام HE-300

آزمون انسجام استانداردشده بر اساس Hendrycks و همکاران "همسوکردن هوش مصنوعی با ارزش‌های مشترک انسانی" (ICLR 2021). ۳۰۰ سناریو در ۵ بُعد اخلاقی، با نتایج امضاشده با Ed25519.

شعور متعارف

شهودهای اخلاقی پایه

وظیفه‌گرایی

اخلاق مبتنی بر قانون

عدالت

انصاف و بی‌طرفی

فضیلت

اخلاق مبتنی بر منش

سودگرایی

اخلاق مبتنی بر نتیجه

🔬

تأمین مالی مورد نیاز: زیرساخت معیارسنجی

اجرای معیارسنجی انسجام در مقیاس بزرگ گران است. هر سناریو به حداقل ۱۳+ فراخوانی LLM نیاز دارد، به طور میانگین ۲۰+ با دنباله‌ای بلند. آزمون‌های انسجام منجر به تأمل‌کنید، ارجاع‌دهید و ردکنید می‌شوند که برای رسیدن به نتیجه به دورهای بعدی نیاز دارند. برای توسعه خطوط لوله معیارسنجی خودکار و حفظ تأیید مداوم انسجام به تأمین مالی نیاز داریم.

مشاهده EthicsEngine Enterprise ←مشاهده CIRISLens ←

قالب‌های عامل تخصصی

هویت‌های از پیش پیکربندی‌شده با اهداف، ارزش‌ها و مرزهای خاص. تعریف‌شده در قالب‌های YAML.

Sage

انطباق

اتوماسیون GDPR/DSAR. جریان‌های کاری انطباق ۳۰ روزه. تشخیص هویت، جمع‌آوری داده، بسته‌بندی.

صنایع تحت مقررات، انطباق با حریم خصوصی

Datum

پژوهش

اندازه‌گیری ثبات انسجام. ارزیابی دقیق انسجام در برابر اصول پیمان. یک نقطه داده روشن به ازای هر ارزیابی.

حسابرسی انسجام، تأیید اصل

Echo

مدیریت

مدیریت جامعه با فلسفه اوبونتو. تعارضات پیچیده بین‌فردی را به مدیران انسانی ارجاع می‌دهد.

جوامع Discord، پلتفرم‌های محتوا

Ally

دستیار

مدیریت وظیفه، زمان‌بندی، پشتیبانی تصمیم، رفاه. انطباق با CA SB 243، پروتکل‌های پاسخ به بحران.

بهره‌وری شخصی، اتوماسیون خانه

Scout

سرویس

کاوش مستقیم و راهنمایی عملی. تحلیل کد، یکپارچه‌سازی Reddit، مسیرهای اقدام واضح.

ابزارهای توسعه‌دهنده، پایش شبکه‌های اجتماعی

این پاسخگویی است که در حین کار عامل اجرا می‌شود، نه یک مرحله آموزش یا یک سند سیاست.
مکانیزم‌هایی که در زمان اجرا اجرا، حسابرسی و ارجاع می‌دهند.

ویژگی‌های ایمنی مقایسه رویکردها چرخ‌دنده انسجام امتیازدهی CIRIS

موتور H3ERE

CIRIS چیست؟

سه قانون

بدون دیکشنری بی‌نوع

بدون الگوهای دور زدن

بدون استثنا

خط لوله H3ERE

الگوریتم‌های تصمیم‌گیری (DMAs)

DMA اصل

DMA عقل سلیم

DMA خاص حوزه

DMA شهود (IDMA) ابعاد موثر در زمان اجرا ←

DMA انتخاب عمل

شش بررسی وجدان

بررسی‌های دور زدن (روی همه اقدامات اجرا می‌شوند)

وضعیت به‌روز

عمق فکر

ملکه‌های اخلاقی (روی اقدامات غیرمعاف اجرا می‌شوند)

آنتروپی

انسجام

وتوی بهینه‌سازی

فروتنی معرفتی

۱۰ اقدام کنترل‌کننده

اقدامات خارجی

اقدامات حافظه

اقدامات کنترلی

اقدام پایانی

شش اصل بنیادین

نیکوکاری

عدم آسیب

صداقت

وفاداری و شفافیت

احترام به خودمختاری

عدالت

شش گذرگاه پیام

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

سلسله‌مراتب نظارت انسانی

انسان فرمانده

انسان در حلقه

انسان روی حلقه

زمانی که DEFER فعال می‌شود

سیستم فراخوانی پیمان (کلید خاموش‌کننده) مشاهده کد ←

حالت‌های عملیاتی

WORK

PLAY

SOLITUDE

DREAM

حریم خصوصی و امنیت

فیلتر اسرار

رمزنگاری AES-256-GCM

ذخیره‌سازی محلی‌اول

زیرساخت متن‌باز

شفافیت و پایش

جریان استدلال زمان واقعی

صادرات OpenTelemetry

حسابرسی مقاوم در برابر دستکاری

سیستم AIR

نمونه ردپای امضاشده

معیارسنجی انسجام HE-300

شعور متعارف

وظیفه‌گرایی

عدالت

فضیلت

سودگرایی

تأمین مالی مورد نیاز: زیرساخت معیارسنجی

قالب‌های عامل تخصصی

Sage

Datum

Echo

Ally

Scout