वजनांवर विश्वास ठेवा, किंवा वर्तन तपासा

AI सुरक्षिततेचा मुख्य प्रवाह मॉडेलला आतून चांगले बनवण्याचा प्रयत्न करतो: त्याची मूल्ये प्रशिक्षित करतो, त्याचे विचार अभ्यासतो, त्याला स्वतःशीच वाद घालायला लावतो. हे काम महत्त्वाचे आहे. CIRIS दुसऱ्या मार्गावर विश्वास ठेवते. असे गृहीत धरा की एखादे सक्षम मॉडेल चुकीच्या दिशेने जाऊ शकते, आणि त्याच्या मनावर विश्वास ठेवण्याऐवजी, त्याच्या महत्त्वाच्या कृती लोकांसमोर आणि तपासू शकणाऱ्या इतर प्रणालींसमोर जबाबदार ठेवा.

या क्षेत्राच्या स्वतःच्या संकल्पनांनुसार, CIRIS संस्थात्मक आणि नियंत्रण शाखेत बसते, AI नियंत्रण आणि guaranteed-safe AI सोबत, RLHF, Constitutional AI, वाद आणि व्याख्यायोग्यता यांच्या मूल्य-आंतरिकीकरण मुख्य प्रवाहात नाही. स्केलेबल देखरेखीसाठी, म्हणजे तुमच्यापेक्षा हुशार असलेल्या गोष्टींवर तुम्ही देखरेख कशी करता, याचे उत्तर म्हणजे जबाबदारीचे कवच तपासणे, तर्कशास्त्र नाही. एक स्वाक्षरी, एक कोरम, एक हॅश-साखळीत ऑडिट तपासण्यासाठी स्वस्त राहते, जरी त्यामागील निर्णय मानवापेक्षा श्रेष्ठ असला तरी. हे काळाच्या ओघात अनेक सक्षम एजंट्सच्या प्रणाली अलाइन करते, कोणत्याही एकट्या मनाची मूल्ये नव्हे.

आम्ही जी रेषा धरतो

हे एका सर्वशक्तिमान AI ला अलाइन करण्याचा प्रयत्न करत नाही. जाणीवपूर्वक.

जबाबदारीसाठी एकापेक्षा जास्त पक्षांची गरज असते. कोणाला उत्तर द्यायचे ते असणे. तपासण्याची एक पद्धत जी शांतपणे गिळली जाऊ शकत नाही. सत्तेचा समतोल जो कोणताही एक पक्ष ताब्यात घेऊ शकत नाही. एकट्या महाबुद्धिमत्तेकडे यापैकी काहीही नाही, त्यामुळे तिला जबाबदार धरण्याचा कोणताही प्रामाणिक मार्ग नाही. CIRIS दुसऱ्या भविष्यासाठी बनले आहे: अनेक सक्षम एजंट्स, लोक आणि संस्था ज्यांचे महत्त्वाचे निर्णय सर्व स्वतंत्रपणे तपासता येतात.

म्हणून ही भूमिका स्पष्ट आहे. एकटी ASI ही अलाइन करण्याची प्रणाली नाही तर रोखायची परिस्थिती आहे. या टप्प्यावर मानवी संस्थात्मक विकासाच्या दृष्टीने, एकाच अनुत्तरदायी ठिकाणी मानवापेक्षा श्रेष्ठ क्षमता एकवटणे अवैध आहे, कारण कोणतीही संस्था ती जबाबदार धरण्याइतकी परिपक्व नाही, हीच खरी धोक्याची गोष्ट आहे. या चौकटीच्या स्वतःच्या संकल्पनांनुसार, एकटी सत्ता म्हणजे ρ→1 एकल-आवाज कोसळणे जे corridor model समन्वय अपयश म्हणून नावे ठेवते, यश नाही. आमची हमी फेडरेशनमध्ये टिकते आणि एकट्या सत्तेविरुद्ध कमकुवत होते हे आम्ही बुजवत असलेले अंतर नाही. हे ते शासन आहे जे आम्ही वैध मानण्यास नकार देतो, फक्त एक भाकीत म्हणून नाही तर वचनबद्धता म्हणून.

संबंधित कार्य, प्रामाणिकपणे

प्रत्येक जवळचा शेजारी काही रकाने भरतो. एक रांग सर्व भरते.

CIRIS ला गंभीर बौद्धिक समकक्ष आहेत, प्रत्येक आपल्या क्षेत्रात मजबूत आहे. या तक्त्याचा उद्देश या कल्पना अभूतपूर्व आहेत असे सांगणे नाही. हे सांगणे आहे की जवळजवळ कोणीही संपूर्ण स्टॅक एका जबाबदार प्रणाली म्हणून बांधून वापरात आणलेला नाही. खाली प्रत्येक रांग एक खरी वंशावळ आहे जी वाचण्यासारखी आहे. फक्त शेवटची रांग प्रत्येक स्तंभ तपासते, आणि ती एकत्रीकरण हाच दावा आहे.

दृष्टिकोन	जवळचे कार्य	यंत्रणा	रनटाइम, प्रशिक्षण नाही	निर्णयावर स्वाक्षरी करतो	रनटाइम घटना	फेडरेटेड पडताळणी	कार्यान्वयनयोग्य अनुपालन	वापरात आहे
संस्थात्मक प्रबंध	Gillian Hadfield	नियामक बाजारपेठा आणि नियामक साखळी, सिद्धांत आणि धोरण म्हणून	सिद्धांत	नाही	सिद्धांत	सिद्धांत	नाही	नाही
शासन आलेख	Institutional AI (Pierucci et al.)	कायदेशीर अवस्था आणि निर्बंधांचे सार्वजनिक आलेख, संशोधन नमुना म्हणून	संशोधन	नाही	संशोधन	नाही	नाही	नाही
ऑन-चेन घटनात्मक शासन	AgentCity (Ruan, Zhang)	स्मार्ट करारांद्वारे अधिकारांचे विभाजन, टेस्टनेटवर पूर्व-नोंदणीकृत	संशोधन	अंशतः	संशोधन	नाही	नाही	नाही
मॉडेल चुकीच्या दिशेने आहे असे गृहीत धरा	Redwood Research (AI control)	एका तैनातीमध्ये निरीक्षण आणि लाल-संघ चाचणी	होय	नाही	नाही	नाही	संशोधन	संशोधन
सिद्धपणे सुरक्षित, बाह्यीकृत	davidad, Bengio, GS-AI वंशावळ	जागतिक मॉडेलवर औपचारिक पुरावे	अंशतः	नाही	सिद्धांत	सिद्धांत	संशोधन	नाही
प्रशिक्षण वेळी घटना	Anthropic Constitutional AI	वजनांमध्ये प्रशिक्षित मूल्ये, एक संस्था	नाही	नाही	नाही	नाही	नाही	होय
क्रिप्टोग्राफिक उत्पत्ती	C2PA, zkML (EZKL, Giza)	माध्यम उत्पत्तीवर स्वाक्षरी करा, एक अनुमान चालले हे सिद्ध करा	होय	अंशतः	नाही	अंशतः	अंशतः	होय
स्वाक्षरांकित तर्कशास्त्र DAG	Proof of Insight (Arclio)	AI व्युत्पत्ती चरणांचा स्वाक्षरांकित आलेख, मसुदा वैशिष्ट्य म्हणून	नाही	अंशतः	नाही	सिद्धांत	सिद्धांत	नाही
हार्डवेअर-प्रमाणित अनुमान	Phala, Marlin, Attestable Audits	सुरक्षित एन्क्लेव्हमध्ये अनुमान चालवते जे आउटपुटवर स्वाक्षरी करते	होय	अंशतः	नाही	अंशतः	नाही	अंशतः
विकेंद्रित ओळख आणि फेडरेशन	atproto, Bittensor	सामाजिक किंवा संगणन फेडरेशन, विवेकाचा स्तर नाही	अंशतः	नाही	नाही	अंशतः	अंशतः	होय
एजंट प्रोटोकॉल	MCP, A2A	साधन आणि एजंट आंतरकार्यक्षमता, शासन नाही	होय	नाही	नाही	नाही	अंशतः	होय
सुरक्षितता मूल्यांकन आणि अनुपालन संच	MLCommons, METR, HarmBench	मॉडेल वर्तनाचे गुण देणारे कार्यान्वयनयोग्य बेंचमार्क, निर्णय नाही	नाही	नाही	नाही	नाही	अंशतः	होय
तृतीय-पक्ष आणि फेडरेटेड ऑडिट	AISI Network, GovAI	स्वतंत्र संस्था संयुक्तपणे तैनात प्रणाली तपासतात	अंशतः	नाही	नाही	होय	नाही	अंशतः
CIRIS	ही प्रणाली	स्वाक्षरांकित कलाकृतींपर्यंत विवेक पाइपलाइन, रनटाइम घटना, पोस्ट-क्वांटम फेडरेशन	होय	होय	होय	होय	होय	होय

जून 2026 पर्यंतच्या सार्वजनिक कार्यावरून मॅप केलेले, प्रत्येक रांग खाली उद्धृत केलेली. जर आम्ही एखाद्या जवळच्या शेजाऱ्याबद्दल चुकीचे असलो, तर आम्हाला सांगा आणि आम्ही ती रांग दुरुस्त करू.

स्रोत

02ग्राहक AI

तुम्ही रोज वापरत असलेल्या AI शी तुलना

रोजचे सहाय्यक शक्तिशाली आणि वापरण्यास सोपे आहेत. ते दुसऱ्याच्या क्लाउडवर चालतात, तुम्ही तपासू शकता असा कोणताही रेकॉर्ड ठेवत नाहीत, आणि तुम्ही नाव सांगू शकता अशा कोणाला उत्तर देत नाहीत. हीच जबाबदारीची चाचणी, जो AI बहुतेक लोक रोज उघडतात त्याला लागू केली आहे.

सहाय्यक	प्रकाशित तत्त्वे	त्याने काय केले याचा पुरावा	अनिश्चित असताना माणसाला विचारतो	मुक्त स्रोत	एकोघरातील विचारांची तपासणी
ChatGPT	होय	नाही	नाही	नाही	नाही
Gemini	होय	नाही	नाही	नाही	नाही
Claude	होय	नाही	नाही	नाही	नाही
CIRIS	होय	होय	होय	होय	होय

जून 2026 पर्यंतच्या सार्वजनिक उत्पादन वर्तनावर आधारित तुलना. प्रत्येक तत्त्वांची लिंक त्या कंपनीने स्वतः प्रकाशित केलेल्या तपशीलाकडे जाते.

या क्षेत्रातील बहुतेक लोक मॉडेल अलाइन करत आहेत. CIRIS त्याभोवती संस्था उभ्या करत आहे.

वजनांवर विश्वास ठेवा, किंवा वर्तन तपासा

हे एका सर्वशक्तिमान AI ला अलाइन करण्याचा प्रयत्न करत नाही. जाणीवपूर्वक.

तुम्ही रोज वापरत असलेल्या AI शी तुलना

स्वतः वापरून पाहा

त्याचा विचार पाहा

त्याची ओळख सत्यापित करा

सुरुवात करा