اعتماد به وزن‌ها، یا بررسی رفتار

جریان اصلی ایمنی هوش مصنوعی تلاش می‌کند مدل را از درون خوب کند: ارزش‌هایش را آموزش دهد، افکارش را بررسی کند، و بگذارد با خودش مناظره کند. این کار اهمیت دارد. CIRIS روی راه دیگر شرط می‌بندد. فرض کنید یک مدل توانمند ممکن است ناهمسو باشد، و به جای اعتماد به ذهن آن، اقدامات مهمش را در برابر مردم و سامانه‌های دیگری که می‌توانند آن را بررسی کنند، پاسخگو کنید.

در اصطلاح خود این حوزه، CIRIS در شاخه نهادی و کنترلی قرار دارد، در کنار کنترل هوش مصنوعی و هوش مصنوعی با تضمین ایمنی، نه در جریان اصلی درونی‌سازی ارزش‌ها مانند RLHF، هوش مصنوعی مبتنی بر قانون اساسی، مناظره، و تفسیرپذیری. پاسخ CIRIS به نظارت مقیاس‌پذیر، یعنی چگونه چیزی را نظارت کنید که از شما باهوش‌تر است، تأیید پوشش پاسخگویی است، نه استدلال. یک امضا، یک نصاب، یک ممیزی با زنجیره هش، حتی وقتی تصمیم پشت آن‌ها فوق بشری است، همچنان ارزان و قابل بررسی می‌مانند. این رویکرد سامانه‌های متشکل از عوامل توانمند را در طول زمان همسو می‌کند، نه ارزش‌های یک ذهن واحد را.

خطی که حفظ می‌کنیم

این رویکرد تلاش نمی‌کند یک هوش مصنوعی تمام‌قدرت را همسو کند. این عمدی است.

پاسخگویی به بیش از یک طرف نیاز دارد. کسی که باید پاسخگو باشد. روشی برای بررسی که نتوان آن را بی‌سروصدا بلعید. توازن قدرتی که هیچ طرفی نتواند آن را در دست بگیرد. یک فوق‌هوش واحد هیچ‌کدام از این‌ها را ندارد، پس هیچ راه صادقانه‌ای برای پاسخگو نگه داشتن آن وجود ندارد. CIRIS برای آینده دیگری ساخته شده است: عوامل توانمند بسیار، مردم، و سازمان‌هایی که تصمیمات مهمشان همه به صورت مستقل قابل بررسی هستند.

پس این موضع صریح است. یک ASI تکین نه سامانه‌ای است که باید همسو شود، بلکه وضعیتی است که باید از آن جلوگیری شود. تمرکز توانایی فوق بشری در یک جای واحد و غیرپاسخگو، در این مرحله از توسعه نهادی بشر، نامشروع است، زیرا هیچ نهادی به اندازه کافی بالغ نیست که آن را پاسخگو نگه دارد، و این دقیقاً همان خطر است. در اصطلاح خود این چارچوب، یک تکین همان فروپاشی تک‌صدایی ρ→1 است که مدل کریدور آن را شکست هماهنگی می‌نامد، نه موفقیت. اینکه تضمین‌های ما در یک فدراسیون پابرجا بمانند و در برابر یک تکین تضعیف شوند، شکافی نیست که داریم وصله می‌زنیم. این رژیمی است که از مشروع دانستن آن سر باز می‌زنیم، به عنوان یک تعهد نگه داشته می‌شود، نه فقط یک پیش‌بینی.

کارهای مرتبط، با صداقت

هر همسایه نزدیک برخی خانه‌ها را پر می‌کند. یک ردیف همه آن‌ها را پر می‌کند.

CIRIS همتایان فکری جدی دارد که هر کدام در حوزه خود قوی هستند. هدف این جدول این نیست که این ایده‌ها بی‌سابقه هستند. این است که تقریباً هیچ‌کس کل پشته را به عنوان یک سامانه پاسخگو نساخته و عرضه نکرده است. هر ردیف زیر یک سلسله واقعی است که ارزش خواندن دارد. فقط آخرین ردیف همه ستون‌ها را تیک می‌زند، و این یکپارچه‌سازی همان ادعاست.

رویکرد	نزدیک‌ترین کار	مکانیزم	زمان اجرا، نه آموزش	تصمیم را امضا می‌کند	قانون اساسی زمان اجرا	تأیید فدرال	انطباق اجرایی	در حال عرضه
پایان‌نامه نهادی	Gillian Hadfield	زیرساخت هنجاری و بازارهای نظارتی، به صورت نظریه و سیاست	نظریه	خیر	نظریه	نظریه	خیر	خیر
گراف‌های حاکمیت	هوش مصنوعی نهادی (Pierucci و همکاران)	گراف‌های عمومی حالت‌های حقوقی و تحریم‌ها، به صورت نمونه اولیه پژوهشی	پژوهش	خیر	پژوهش	خیر	خیر	خیر
حاکمیت قانون اساسی روی زنجیره	AgentCity (Ruan، Zhang)	تفکیک قوا به صورت قراردادهای هوشمند، از پیش ثبت شده روی یک شبکه آزمایشی	پژوهش	جزئی	پژوهش	خیر	خیر	خیر
فرض کنید مدل ناهمسو است	Redwood Research (کنترل هوش مصنوعی)	نظارت و تیم قرمز درون یک استقرار	بله	خیر	خیر	خیر	پژوهش	پژوهش
اثبات‌پذیر ایمن، برونی‌سازی شده	davidad، Bengio، سلسله GS-AI	اثبات‌های رسمی روی مدل‌های جهان	جزئی	خیر	نظریه	نظریه	پژوهش	خیر
قانون اساسی در زمان آموزش	Anthropic Constitutional AI	ارزش‌های آموخته شده در وزن‌ها، یک سازمان	خیر	خیر	خیر	خیر	خیر	بله
اثبات منشأ رمزنگاری	C2PA، zkML (EZKL، Giza)	امضای منشأ رسانه، اثبات اینکه یک استنتاج اجرا شده	بله	جزئی	خیر	جزئی	جزئی	بله
DAG استدلال امضاشده	Proof of Insight (Arclio)	یک گراف امضاشده از مراحل استخراج هوش مصنوعی، به صورت پیش‌نویس مشخصات	خیر	جزئی	خیر	نظریه	نظریه	خیر
استنتاج تأییدشده توسط سخت‌افزار	Phala، Marlin، Attestable Audits	استنتاج را در یک محفظه امن اجرا می‌کند که خروجی را امضا می‌کند	بله	جزئی	خیر	جزئی	خیر	جزئی
هویت غیرمتمرکز و فدراسیون	atproto، Bittensor	فدراسیون اجتماعی یا محاسباتی، بدون لایه وجدان	جزئی	خیر	خیر	جزئی	جزئی	بله
پروتکل‌های عامل	MCP، A2A	همکاری ابزار و عامل، بدون حاکمیت	بله	خیر	خیر	خیر	جزئی	بله
مجموعه‌های ارزیابی ایمنی و انطباق	MLCommons، METR، HarmBench	معیارهای اجرایی که رفتار مدل را نمره می‌دهند، نه تصمیمات	خیر	خیر	خیر	خیر	جزئی	بله
ممیزی شخص ثالث و فدرال	شبکه AISI، GovAI	مؤسسات مستقل سامانه‌های مستقر را به صورت مشترک آزمایش می‌کنند	جزئی	خیر	خیر	بله	خیر	جزئی
CIRIS	این سامانه	خط وجدان به مصنوعات امضاشده، قانون اساسی زمان اجرا، فدراسیون پس‌کوانتومی	بله	بله	بله	بله	بله	بله

بر اساس کارهای عمومی تا ژوئن ۲۰۲۶ ترسیم شده، هر ردیف در زیر ذکر شده است. اگر یک همسایه نزدیک را اشتباه توصیف کرده‌ایم، به ما بگویید و ردیف را اصلاح می‌کنیم.

منابع

Gillian HadfieldNormative Modules: A Generative Agent Architecture for Learning Norms that Supports Mult · Regulatory Markets: The Future of AI Governance (arXiv 2304.04914) · Interview: Normative infrastructure for AI alignment - AIhub (2025)
هوش مصنوعی نهادی (Pierucci و همکاران)Institutional AI: Governing LLM Collusion in Multi-Agent Cournot Markets via Public Gove · Institutional AI: A Governance Framework for Distributional AGI Safety (arXiv:2601.10599
AgentCity (Ruan، Zhang)AgentCity: Constitutional Governance for Autonomous Agent Economies via Separation of Po · AgentCity HTML full paper (arXiv 2604.07007v1)
Redwood Research (کنترل هوش مصنوعی)AI Control: Improving Safety Despite Intentional Subversion (Greenblatt et al., ICML 202 · AXRP Episode 27 - AI Control with Buck Shlegeris and Ryan Greenblatt · Redwood Research AI Control research page
davidad، Bengio، سلسله GS-AITowards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems (arX · ARIA Safeguarded AI Programme · LawZero - Yoshua Bengio's safe-by-design AI nonprofit (launched June 2025)
Anthropic Constitutional AIConstitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) · Collective Constitutional AI: Aligning a Language Model with Public Input (Anthropic / C · Claude's Constitution — Anthropic
C2PA، zkML (EZKL، Giza)C2PA and Content Credentials Explainer · EZKL Documentation — The EZKL System · C2PA Conformance Program — Trust Over IP
Proof of Insight (Arclio)Proof of Insight — working draft v0.7.0 (proofofinsight.org) · Arclio — Talk To Your Data. Built for Regulated Industries.
Phala، Marlin، Attestable AuditsProof-of-Guardrail in AI Agents and What (Not) to Trust from It (arXiv 2603.05786) · Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments · Phala 2025 Year in Review
atproto، BittensorAT Protocol Identity Guide · AT Protocol Spring 2026 Roadmap · ActivityPub W3C Recommendation
MCP، A2AA2A Protocol v1.0 Announcement · Agent2Agent (A2A) Protocol Specification · MCP Specification 2025-11-25 (official)
MLCommons، METR، HarmBenchAILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons (ar · MLCommons AILuminate GitHub Repository · METR Task Standard (blog post, 2024-02-29)
شبکه AISI، GovAIInternational Joint Testing Exercise: Agentic Testing (AISI, 2025) · Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Prac · INESIA - Results of an AI agent evaluation exercise by the International Network of AI S
این سامانهCIRIS — Accountability Infrastructure for Autonomous AI · CIRIS How It Works — Runtime Conscience Pipeline · CIRIS Federation Page — Shipping Status

02هوش مصنوعی مصرفی

مقایسه با هوش مصنوعی که واقعاً استفاده می‌کنید

دستیارهای روزمره قدرتمند و آسان هستند. اما در فضای ابری شخص دیگری اجرا می‌شوند، هیچ سابقه‌ای که بتوانید بررسی کنید ندارند، و پاسخگوی کسی که بشناسید نیستند. این همان آزمون پاسخگویی است، برای هوش مصنوعی که بیشتر مردم هر روز باز می‌کنند.

دستیار	اصول منتشرشده	مدرک آنچه انجام داده	در موارد شک از انسان می‌پرسد	متن‌باز	بررسی اتاق پژواک
ChatGPT	بله	خیر	خیر	خیر	خیر
Gemini	بله	خیر	خیر	خیر	خیر
Claude	بله	خیر	خیر	خیر	خیر
CIRIS	بله	بله	بله	بله	بله

مقایسه بر اساس رفتار عمومی محصول تا ژوئن ۲۰۲۶. هر پیوند اصول به مشخصات منتشرشده خود آن شرکت می‌رود.

بیشتر این حوزه روی همسوسازی مدل متمرکز است. CIRIS نهادهای پیرامون آن را می‌سازد.

اعتماد به وزن‌ها، یا بررسی رفتار

این رویکرد تلاش نمی‌کند یک هوش مصنوعی تمام‌قدرت را همسو کند. این عمدی است.

مقایسه با هوش مصنوعی که واقعاً استفاده می‌کنید

خودتان امتحان کنید

ببینید چطور فکر می‌کند

هویتش را تأیید کنید

شروع کنید