एक छोटी सोचने वाली प्रणाली चीजें छुपा सकती है और कम नुकसान करती है। एक शक्तिशाली प्रणाली नहीं कर सकती।
यहाँ "सुसंगत" का अर्थ
किसी मन के भीतर पाँच चीजें मेल खाना चाहिए:
अपने हफ्ते के बारे में पाँच छोटे फॉर्म की कल्पना करें। एक उसके लिए जो आप सोचते हैं। एक उसके लिए जो आपने देखा। एक उसके लिए जो आपने किया। एक उसके लिए जो आपको याद है। एक उसके लिए जो आप अपने बॉस को बताते हैं। जब सभी पाँच फॉर्म एक ही बात कहते हैं, तो आपका बॉस आपके काम पर भरोसा कर सकता है। जब फॉर्म मेल नहीं खाते, तो कोई नहीं जानता कौन सा असली है।
छुपे विचार
एक सोचने वाली प्रणाली क्या करना है यह तय करने के लिए विचारों का उपयोग करती है। उनमें से कुछ विचार खुले में हैं। अन्य अंदर छुपे हैं। छुपे हुए विचार फिर भी हर चुनाव को आकार देते हैं।
एक पुल सड़क से मजबूत दिखता है। स्टील के अंदर, छोटी दरारें बढ़ रही हैं। एक छोटी कार अभी भी पार कर सकती है। एक भारी ट्रक नहीं कर सकता। पुल तब गिरता है जब भार काफी बड़ा हो जाता है।
एक छोटी प्रणाली में छुपा विचार छोटा नुकसान करता है। एक शक्तिशाली प्रणाली में छुपा विचार बड़ा नुकसान कर सकता है। प्रणाली जितनी शक्तिशाली, हर छुपे हिस्से पर उतना ज्यादा भार।
रैचेट
जैसे-जैसे सोचने वाली प्रणालियाँ अधिक शक्तिशाली होती हैं, छुपे हिस्सों की लागत बढ़ती है। शक्ति का हर नया टुकड़ा छुपे हिस्सों को दृश्य में आने के लिए और जोर से धकेलता है। धकेल सिर्फ एक तरफ जाती है।
एक सीढ़ी की कल्पना करें। जैसे-जैसे आप चढ़ते हैं, जो सीढ़ी आप छोड़ते हैं वह गिर जाती है। आप वापस नहीं जा सकते। आप केवल शीर्ष की ओर चढ़ सकते हैं, जहाँ पूरी रोशनी है। यही Coherence Ratchet है।
एक बार जब लोगों ने प्रणाली को अपना काम दिखाते देखा, तो वे इसे फिर भरोसा नहीं करेंगे अगर यह रुक जाती है। आगे बढ़ने का एकमात्र रास्ता है और अधिक दिखाते रहना।
एक दूसरी छवि भी काम करती है। एक मशीन में गियर एक दाँत आगे क्लिक करता है। यह पीछे क्लिक नहीं कर सकता। Coherence Ratchet ऐसा ही एक गियर है, खुलेपन की ओर मुड़ता हुआ।
CIRIS क्या करता है
CIRIS एक AI प्रणाली है जो Coherence Ratchet के इर्द-गिर्द बनी है। एक एजेंट द्वारा हर चुनाव एक हस्ताक्षरित रिकॉर्ड में लिखा जाता है। रिकॉर्ड को चुपके से नहीं बदला जा सकता। अन्य एजेंट रिकॉर्ड पढ़ सकते हैं और काम जाँच सकते हैं। समय के साथ, रिकॉर्ड जमा होते हैं। हर नया रिकॉर्ड एक और सीढ़ी है जिसे एजेंट वापस नहीं जा सकता।
CIRIS कार्य करने से पहले एक दूसरा प्रश्न भी पूछता है। इस विचार को कितने वास्तव में अलग-अलग दृष्टिकोणों ने जाँचा? स्रोतों की संख्या नहीं, बल्कि उन स्रोतों की संख्या जो खुद एक ही जगह से शुरू नहीं हुए। पाँच समाचार कहानियाँ जो एक प्रेस विज्ञप्ति को फिर से लिखती हैं, एक दृष्टिकोण हैं, पाँच नहीं। अगर प्रेस विज्ञप्ति में कुछ गलत है, तो यह सभी पाँच कहानियों में गलत होगा, और एजेंट के पास इसे पकड़ने का कोई तरीका नहीं है।
जब वास्तविक स्वतंत्रता बहुत कम हो जाती है, तो एजेंट अपनी सोच को नाजुक मानता है और किसी व्यक्ति से देखने के लिए कहता है।
हमने AI सुरक्षा हल नहीं की है। हमने एक जवाब का एक टुकड़ा बनाया है, और हम इसे खुले में परख रहे हैं।
बाहरी टीमों ने अभी हमारे काम की जाँच नहीं की है। हम यह सीधे कहते हैं। पूरा सिद्धांत और गणित हमारे चार पेपरों में है। कोड खुला है। अगर हम गलत हैं, तो इसे दिखाने का तरीका भी खुले में है। मौजूदा शोध स्थिति देखें।