वज़न पर भरोसा करें, या व्यवहार जांचें

AI सुरक्षा की मुख्यधारा मॉडल को अंदर से अच्छा बनाने की कोशिश करती है: उसके मूल्यों को प्रशिक्षित करना, उसके विचारों का अध्ययन करना, उसे खुद से बहस करवाना। वह काम ज़रूरी है। CIRIS दूसरी राह पर दांव लगाता है। मान लो कि एक सक्षम मॉडल गलत दिशा में हो सकता है, और उसके दिमाग पर भरोसा करने की बजाय, उसके महत्वपूर्ण कार्यों को लोगों और दूसरी प्रणालियों के सामने जवाबदेह बनाओ जो उन्हें जांच सकें।

इस क्षेत्र की अपनी भाषा में, CIRIS संस्थागत और नियंत्रण शाखा में आता है, AI नियंत्रण और गारंटीड-सेफ AI के साथ, न कि RLHF, Constitutional AI, बहस और व्याख्याशीलता की मूल्य-आंतरिककरण मुख्यधारा के साथ। स्केलेबल निगरानी का इसका जवाब, यानी आप से ज़्यादा चालाक किसी चीज़ की निगरानी कैसे करें, यह है जवाबदेही के दायरे को सत्यापित करना, तर्क को नहीं। एक हस्ताक्षर, एक कोरम, एक हैश-चेन्ड ऑडिट जांचने में सस्ता रहता है, भले ही उसके पीछे का निर्णय अलौकिक हो। यह समय के साथ कई सक्षम एजेंटों की प्रणालियों को अलाइन करता है, न कि किसी एक दिमाग के मूल्यों को।

वह रेखा जिसे हम थामे हैं

यह जानबूझकर एक सर्वशक्तिमान AI को अलाइन करने की कोशिश नहीं करता।

जवाबदेही के लिए एक से ज़्यादा पक्षों की ज़रूरत होती है। कोई जिसके सामने जवाब देना हो। जांच का एक तरीका जिसे चुपचाप निगला न जा सके। शक्ति का एक संतुलन जिसे कोई एक पक्ष कब्ज़ा न कर सके। एक ही सुपर-इंटेलिजेंस के पास इनमें से कोई भी नहीं है, इसलिए उसे जवाबदेह ठहराने का कोई ईमानदार तरीका नहीं है। CIRIS दूसरे भविष्य के लिए बना है: कई सक्षम एजेंट, लोग और संगठन जिनके महत्वपूर्ण निर्णय सभी स्वतंत्र रूप से जांचे जा सकते हैं।

तो यह रुख स्पष्ट है। एकल ASI कोई ऐसी प्रणाली नहीं है जिसे अलाइन किया जाए, बल्कि एक ऐसी स्थिति है जिसे रोका जाए। इस चरण में मानव संस्थागत विकास के, एक जगह पर अलौकिक क्षमता केंद्रित करना, जो जवाबदेह न हो, अनुचित है। क्योंकि कोई भी संस्था उतनी परिपक्व नहीं है कि उसे जवाबदेह ठहरा सके, और यही खतरा है। इस ढांचे की अपनी भाषा में एकल यानी ρ→1 एकल-आवाज़ का पतन है जिसे कॉरिडोर मॉडल समन्वय की विफलता कहता है, सफलता नहीं। हमारी गारंटियां एक फेडरेशन में कायम रहती हैं और एकल के खिलाफ कमज़ोर पड़ती हैं, यह कोई खामी नहीं है जिसे हम पाट रहे हैं। यह वह व्यवस्था है जिसे हम वैध नहीं मानते, एक प्रतिबद्धता के रूप में रखा गया, न केवल एक भविष्यवाणी के रूप में।

संबंधित कार्य, ईमानदारी से

हर निकट-पड़ोसी कुछ खाने भरता है। एक पंक्ति सभी खाने भरती है।

CIRIS के गंभीर बौद्धिक समकक्ष हैं, हर एक अपने क्षेत्र में मज़बूत। इस तालिका का मकसद यह नहीं है कि ये विचार अभूतपूर्व हैं। मकसद यह है कि लगभग किसी ने भी पूरे स्टैक को एक जवाबदेह प्रणाली के रूप में बनाकर नहीं भेजा है। नीचे की हर पंक्ति एक असली परंपरा है जो पढ़ने लायक है। केवल आखिरी पंक्ति हर कॉलम को जांचती है, और वह एकीकरण ही असली दावा है।

दृष्टिकोण	निकटतम कार्य	तंत्र	रनटाइम, प्रशिक्षण नहीं	निर्णय पर हस्ताक्षर	रनटाइम संविधान	फेडरेटेड सत्यापन	निष्पादन योग्य अनुपालन	शिपिंग
संस्थागत थीसिस	Gillian Hadfield	मानक बुनियादी ढांचा और नियामक बाज़ार, सिद्धांत और नीति के रूप में	सिद्धांत	नहीं	सिद्धांत	सिद्धांत	नहीं	नहीं
शासन ग्राफ	Institutional AI (Pierucci et al.)	कानूनी स्थितियों और प्रतिबंधों के सार्वजनिक ग्राफ, एक शोध प्रोटोटाइप के रूप में	शोध	नहीं	शोध	नहीं	नहीं	नहीं
ऑन-चेन संवैधानिक शासन	AgentCity (Ruan, Zhang)	स्मार्ट अनुबंधों के रूप में शक्तियों का पृथक्करण, एक टेस्टनेट पर पूर्व-पंजीकृत	शोध	आंशिक	शोध	नहीं	नहीं	नहीं
मान लो मॉडल गलत दिशा में है	Redwood Research (AI control)	एक ही डिप्लॉयमेंट में निगरानी और रेड-टीमिंग	हां	नहीं	नहीं	नहीं	शोध	शोध
साबित रूप से सुरक्षित, बाहरीकृत	davidad, Bengio, GS-AI परंपरा	विश्व मॉडलों पर औपचारिक प्रमाण	आंशिक	नहीं	सिद्धांत	सिद्धांत	शोध	नहीं
प्रशिक्षण के समय का संविधान	Anthropic Constitutional AI	वज़न में प्रशिक्षित मूल्य, एक संगठन	नहीं	नहीं	नहीं	नहीं	नहीं	हां
क्रिप्टोग्राफिक उत्पत्ति	C2PA, zkML (EZKL, Giza)	मीडिया की उत्पत्ति पर हस्ताक्षर करें, साबित करें कि एक इनफेरेंस चला	हां	आंशिक	नहीं	आंशिक	आंशिक	हां
हस्ताक्षरित तर्क DAG	Proof of Insight (Arclio)	AI व्युत्पत्ति चरणों का एक हस्ताक्षरित ग्राफ, एक ड्राफ्ट स्पेक के रूप में	नहीं	आंशिक	नहीं	सिद्धांत	सिद्धांत	नहीं
हार्डवेयर-सत्यापित इनफेरेंस	Phala, Marlin, Attestable Audits	एक सुरक्षित एन्क्लेव में इनफेरेंस चलाता है जो आउटपुट पर हस्ताक्षर करता है	हां	आंशिक	नहीं	आंशिक	नहीं	आंशिक
विकेंद्रीकृत पहचान और फेडरेशन	atproto, Bittensor	सामाजिक या कंप्यूट फेडरेशन, कोई विवेक परत नहीं	आंशिक	नहीं	नहीं	आंशिक	आंशिक	हां
एजेंट प्रोटोकॉल	MCP, A2A	टूल और एजेंट इंटरऑप, कोई शासन नहीं	हां	नहीं	नहीं	नहीं	आंशिक	हां
सुरक्षा मूल्यांकन और अनुपालन सूट	MLCommons, METR, HarmBench	निष्पादन योग्य बेंचमार्क जो मॉडल के व्यवहार को आंकते हैं, निर्णयों को नहीं	नहीं	नहीं	नहीं	नहीं	आंशिक	हां
तृतीय-पक्ष और फेडरेटेड ऑडिट	AISI Network, GovAI	स्वतंत्र संस्थान मिलकर तैनात प्रणालियों का परीक्षण करते हैं	आंशिक	नहीं	नहीं	हां	नहीं	आंशिक
CIRIS	यह प्रणाली	हस्ताक्षरित आर्टिफैक्ट्स तक विवेक पाइपलाइन, रनटाइम संविधान, पोस्ट-क्वांटम फेडरेशन	हां	हां	हां	हां	हां	हां

जून 2026 तक के सार्वजनिक कार्य से मैप किया गया, हर पंक्ति नीचे उद्धृत है। अगर हमने किसी निकट-पड़ोसी को गलत समझा है, तो हमें बताएं और हम उस पंक्ति को ठीक करेंगे।

स्रोत

02उपभोक्ता AI

उस AI से तुलना जो आप असल में इस्तेमाल करते हैं

रोज़मर्रा के AI असिस्टेंट शक्तिशाली और आसान हैं। लेकिन वे किसी और के क्लाउड पर चलते हैं, कोई ऐसा रिकॉर्ड नहीं रखते जिसे आप जाँच सकें, और किसी ऐसे व्यक्ति को जवाब नहीं देते जिसका नाम आप ले सकें। यहाँ वही जवाबदेही परीक्षण है, जो उस AI पर लागू किया गया है जिसे ज़्यादातर लोग हर दिन खोलते हैं।

असिस्टेंट	प्रकाशित सिद्धांत	उसने क्या किया, इसका प्रमाण	अनिश्चित होने पर इंसान से पूछता है	ओपन सोर्स	इको-चैंबर जाँच
ChatGPT	हां	नहीं	नहीं	नहीं	नहीं
Gemini	हां	नहीं	नहीं	नहीं	नहीं
Claude	हां	नहीं	नहीं	नहीं	नहीं
CIRIS	हां	हां	हां	हां	हां

जून 2026 तक के सार्वजनिक उत्पाद व्यवहार के आधार पर तुलना। प्रत्येक सिद्धांत लिंक उस कंपनी के अपने प्रकाशित दस्तावेज़ पर जाता है।

इस क्षेत्र के अधिकतर लोग मॉडल को अलाइन कर रहे हैं। CIRIS उसके चारों ओर की संस्थाएं बना रहा है।

वज़न पर भरोसा करें, या व्यवहार जांचें

यह जानबूझकर एक सर्वशक्तिमान AI को अलाइन करने की कोशिश नहीं करता।

उस AI से तुलना जो आप असल में इस्तेमाल करते हैं

खुद आज़माएं

इसे सोचते देखें

इसकी पहचान सत्यापित करें

शुरुआत करें