पहला संपर्कइंस्टॉलCoherence RatchetफेडरेशनतुलनाशोधAccordGitHub
यह पृष्ठ मशीन द्वारा अनुवादित है। अगर कुछ गलत लगे, तो कृपया एक समस्या रिपोर्ट करें — रेपो इसीलिए सार्वजनिक है। अनुवाद की समस्या रिपोर्ट करें

The Coherence Ratchet

Why a powerful mind has to show its work.

Research testbedDOI

एक छोटी सोचने वाली प्रणाली चीजें छुपा सकती है और कम नुकसान करती है। एक शक्तिशाली प्रणाली नहीं कर सकती।

यहाँ "सुसंगत" का अर्थ

एक सुसंगत मन खुद से सहमत होता है।

किसी मन के भीतर पाँच चीजें मेल खाना चाहिए:

  • वह क्या मानता है,
  • वह क्या देखता है,
  • वह क्या करता है,
  • वह क्या याद रखता है,
  • और वह आपको क्या बताता है।

अपने हफ्ते के बारे में पाँच छोटे फॉर्म की कल्पना करें। एक उसके लिए जो आप सोचते हैं। एक उसके लिए जो आपने देखा। एक उसके लिए जो आपने किया। एक उसके लिए जो आपको याद है। एक उसके लिए जो आप अपने बॉस को बताते हैं। जब सभी पाँच फॉर्म एक ही बात कहते हैं, तो आपका बॉस आपके काम पर भरोसा कर सकता है। जब फॉर्म मेल नहीं खाते, तो कोई नहीं जानता कौन सा असली है।

छुपे विचार

शक्तिशाली प्रणालियाँ चीजें छुपाती हैं। यह खतरनाक हो जाता है।

एक सोचने वाली प्रणाली क्या करना है यह तय करने के लिए विचारों का उपयोग करती है। उनमें से कुछ विचार खुले में हैं। अन्य अंदर छुपे हैं। छुपे हुए विचार फिर भी हर चुनाव को आकार देते हैं।

एक पुल सड़क से मजबूत दिखता है। स्टील के अंदर, छोटी दरारें बढ़ रही हैं। एक छोटी कार अभी भी पार कर सकती है। एक भारी ट्रक नहीं कर सकता। पुल तब गिरता है जब भार काफी बड़ा हो जाता है।

एक छोटी प्रणाली में छुपा विचार छोटा नुकसान करता है। एक शक्तिशाली प्रणाली में छुपा विचार बड़ा नुकसान कर सकता है। प्रणाली जितनी शक्तिशाली, हर छुपे हिस्से पर उतना ज्यादा भार।

रैचेट

खुलेपन की ओर धकेल सिर्फ एक तरफ जाती है।

जैसे-जैसे सोचने वाली प्रणालियाँ अधिक शक्तिशाली होती हैं, छुपे हिस्सों की लागत बढ़ती है। शक्ति का हर नया टुकड़ा छुपे हिस्सों को दृश्य में आने के लिए और जोर से धकेलता है। धकेल सिर्फ एक तरफ जाती है।

एक सीढ़ी की कल्पना करें। जैसे-जैसे आप चढ़ते हैं, जो सीढ़ी आप छोड़ते हैं वह गिर जाती है। आप वापस नहीं जा सकते। आप केवल शीर्ष की ओर चढ़ सकते हैं, जहाँ पूरी रोशनी है। यही Coherence Ratchet है।

एक बार जब लोगों ने प्रणाली को अपना काम दिखाते देखा, तो वे इसे फिर भरोसा नहीं करेंगे अगर यह रुक जाती है। आगे बढ़ने का एकमात्र रास्ता है और अधिक दिखाते रहना।

एक दूसरी छवि भी काम करती है। एक मशीन में गियर एक दाँत आगे क्लिक करता है। यह पीछे क्लिक नहीं कर सकता। Coherence Ratchet ऐसा ही एक गियर है, खुलेपन की ओर मुड़ता हुआ।

CIRIS क्या करता है

इसे लिखो। जाँचो। फिर जाँचने वालों को जाँचो।

CIRIS एक AI प्रणाली है जो Coherence Ratchet के इर्द-गिर्द बनी है। एक एजेंट द्वारा हर चुनाव एक हस्ताक्षरित रिकॉर्ड में लिखा जाता है। रिकॉर्ड को चुपके से नहीं बदला जा सकता। अन्य एजेंट रिकॉर्ड पढ़ सकते हैं और काम जाँच सकते हैं। समय के साथ, रिकॉर्ड जमा होते हैं। हर नया रिकॉर्ड एक और सीढ़ी है जिसे एजेंट वापस नहीं जा सकता।

CIRIS कार्य करने से पहले एक दूसरा प्रश्न भी पूछता है। इस विचार को कितने वास्तव में अलग-अलग दृष्टिकोणों ने जाँचा? स्रोतों की संख्या नहीं, बल्कि उन स्रोतों की संख्या जो खुद एक ही जगह से शुरू नहीं हुए। पाँच समाचार कहानियाँ जो एक प्रेस विज्ञप्ति को फिर से लिखती हैं, एक दृष्टिकोण हैं, पाँच नहीं। अगर प्रेस विज्ञप्ति में कुछ गलत है, तो यह सभी पाँच कहानियों में गलत होगा, और एजेंट के पास इसे पकड़ने का कोई तरीका नहीं है।

जब वास्तविक स्वतंत्रता बहुत कम हो जाती है, तो एजेंट अपनी सोच को नाजुक मानता है और किसी व्यक्ति से देखने के लिए कहता है।

हम क्या दावा करते हैं, और क्या नहीं।

हमने AI सुरक्षा हल नहीं की है। हमने एक जवाब का एक टुकड़ा बनाया है, और हम इसे खुले में परख रहे हैं।

बाहरी टीमों ने अभी हमारे काम की जाँच नहीं की है। हम यह सीधे कहते हैं। पूरा सिद्धांत और गणित हमारे चार पेपरों में है। कोड खुला है। अगर हम गलत हैं, तो इसे दिखाने का तरीका भी खुले में है। मौजूदा शोध स्थिति देखें।