सरल हिंदीउन्नत

Research testbed · DOI 10.5281/zenodo.18217688

एक छोटी सोचने वाली प्रणाली चीजें छुपा सकती है और कम नुकसान करती है। एक शक्तिशाली प्रणाली नहीं कर सकती।

यहाँ "सुसंगत" का अर्थ

एक सुसंगत मन खुद से सहमत होता है।

किसी मन के भीतर पाँच चीजें मेल खाना चाहिए:

वह क्या मानता है,
वह क्या देखता है,
वह क्या करता है,
वह क्या याद रखता है,
और वह आपको क्या बताता है।

अपने हफ्ते के बारे में पाँच छोटे फॉर्म की कल्पना करें। एक उसके लिए जो आप सोचते हैं। एक उसके लिए जो आपने देखा। एक उसके लिए जो आपने किया। एक उसके लिए जो आपको याद है। एक उसके लिए जो आप अपने बॉस को बताते हैं। जब सभी पाँच फॉर्म एक ही बात कहते हैं, तो आपका बॉस आपके काम पर भरोसा कर सकता है। जब फॉर्म मेल नहीं खाते, तो कोई नहीं जानता कौन सा असली है।

छुपे विचार

शक्तिशाली प्रणालियाँ चीजें छुपाती हैं। यह खतरनाक हो जाता है।

एक सोचने वाली प्रणाली क्या करना है यह तय करने के लिए विचारों का उपयोग करती है। उनमें से कुछ विचार खुले में हैं। अन्य अंदर छुपे हैं। छुपे हुए विचार फिर भी हर चुनाव को आकार देते हैं।

एक पुल सड़क से मजबूत दिखता है। स्टील के अंदर, छोटी दरारें बढ़ रही हैं। एक छोटी कार अभी भी पार कर सकती है। एक भारी ट्रक नहीं कर सकता। पुल तब गिरता है जब भार काफी बड़ा हो जाता है।

एक छोटी प्रणाली में छुपा विचार छोटा नुकसान करता है। एक शक्तिशाली प्रणाली में छुपा विचार बड़ा नुकसान कर सकता है। प्रणाली जितनी शक्तिशाली, हर छुपे हिस्से पर उतना ज्यादा भार।

रैचेट

खुलेपन की ओर धकेल सिर्फ एक तरफ जाती है।

जैसे-जैसे सोचने वाली प्रणालियाँ अधिक शक्तिशाली होती हैं, छुपे हिस्सों की लागत बढ़ती है। शक्ति का हर नया टुकड़ा छुपे हिस्सों को दृश्य में आने के लिए और जोर से धकेलता है। धकेल सिर्फ एक तरफ जाती है।

एक सीढ़ी की कल्पना करें। जैसे-जैसे आप चढ़ते हैं, जो सीढ़ी आप छोड़ते हैं वह गिर जाती है। आप वापस नहीं जा सकते। आप केवल शीर्ष की ओर चढ़ सकते हैं, जहाँ पूरी रोशनी है। यही Coherence Ratchet है।

एक बार जब लोगों ने प्रणाली को अपना काम दिखाते देखा, तो वे इसे फिर भरोसा नहीं करेंगे अगर यह रुक जाती है। आगे बढ़ने का एकमात्र रास्ता है और अधिक दिखाते रहना।

एक दूसरी छवि भी काम करती है। एक मशीन में गियर एक दाँत आगे क्लिक करता है। यह पीछे क्लिक नहीं कर सकता। Coherence Ratchet ऐसा ही एक गियर है, खुलेपन की ओर मुड़ता हुआ।

CIRIS क्या करता है

इसे लिखो। जाँचो। फिर जाँचने वालों को जाँचो।

CIRIS एक AI प्रणाली है जो Coherence Ratchet के इर्द-गिर्द बनी है। एक एजेंट द्वारा हर चुनाव एक हस्ताक्षरित रिकॉर्ड में लिखा जाता है। रिकॉर्ड को चुपके से नहीं बदला जा सकता। अन्य एजेंट रिकॉर्ड पढ़ सकते हैं और काम जाँच सकते हैं। समय के साथ, रिकॉर्ड जमा होते हैं। हर नया रिकॉर्ड एक और सीढ़ी है जिसे एजेंट वापस नहीं जा सकता।

CIRIS कार्य करने से पहले एक दूसरा प्रश्न भी पूछता है। इस विचार को कितने वास्तव में अलग-अलग दृष्टिकोणों ने जाँचा? स्रोतों की संख्या नहीं, बल्कि उन स्रोतों की संख्या जो खुद एक ही जगह से शुरू नहीं हुए। पाँच समाचार कहानियाँ जो एक प्रेस विज्ञप्ति को फिर से लिखती हैं, एक दृष्टिकोण हैं, पाँच नहीं। अगर प्रेस विज्ञप्ति में कुछ गलत है, तो यह सभी पाँच कहानियों में गलत होगा, और एजेंट के पास इसे पकड़ने का कोई तरीका नहीं है।

जब वास्तविक स्वतंत्रता बहुत कम हो जाती है, तो एजेंट अपनी सोच को नाजुक मानता है और किसी व्यक्ति से देखने के लिए कहता है।

हम क्या दावा करते हैं, और क्या नहीं।

हमने AI सुरक्षा हल नहीं की है। हमने एक जवाब का एक टुकड़ा बनाया है, और हम इसे खुले में परख रहे हैं।

बाहरी टीमों ने अभी हमारे काम की जाँच नहीं की है। हम यह सीधे कहते हैं। पूरा सिद्धांत और गणित हमारे चार पेपरों में है। कोड खुला है। अगर हम गलत हैं, तो इसे दिखाने का तरीका भी खुले में है। मौजूदा शोध स्थिति देखें।

The math behind it Explore a trace See the code