एक लहान विचार प्रणाली गोष्टी लपवू शकते आणि थोडे नुकसान करते. एक शक्तिशाली करू शकत नाही.
येथे "सुसंगत" म्हणजे काय
एका मनात पाच गोष्टी जुळल्या पाहिजेत:
तुमच्या आठवड्याबद्दल पाच छोटे अहवाल कल्पना करा. एक तुम्ही काय विचार करता त्यासाठी. एक तुम्ही काय पाहिले त्यासाठी. एक तुम्ही काय केले त्यासाठी. एक तुम्हाला काय आठवते त्यासाठी. एक तुम्ही तुमच्या बॉसला काय सांगता त्यासाठी. जेव्हा पाचही अहवाल एकच गोष्ट सांगतात, तेव्हा तुमचा बॉस तुमच्या कामावर विश्वास ठेवू शकतो. जेव्हा अहवाल जुळत नाहीत, तेव्हा कोणाला माहीत नाही कोणता खरा आहे.
लपलेल्या कल्पना
एक विचार प्रणाली काय करायचे ते ठरवण्यासाठी कल्पना वापरते. त्या कल्पनांपैकी काही उघड्यावर आहेत. इतर आत लपलेल्या आहेत. लपलेल्या कल्पना अजूनही प्रत्येक निर्णय घडवतात.
एक पूल रस्त्यावरून मजबूत दिसतो. आत पोलादात, लहान तडे वाढत आहेत. एक छोटी गाडी अजूनही ओलांडू शकते. एक जड ट्रक ओलांडू शकत नाही. भार पुरेसा मोठा होतो तेव्हा पूल पडतो.
एका छोट्या प्रणालीत लपलेली कल्पना कमी नुकसान करते. एका शक्तिशाली प्रणालीत लपलेली कल्पना खूप नुकसान करू शकते. प्रणाली जितकी शक्तिशाली, तितके जास्त वजन प्रत्येक लपलेल्या भागावर असते.
रॅचेट
विचार प्रणाली जसजशा अधिक शक्तिशाली होतात, तसतसे लपलेल्या भागांची किंमत वाढते. शक्तीचा प्रत्येक नवीन तुकडा लपलेल्या भागांवर अधिक जोराने दृश्यमान होण्यासाठी ढकलतो. ढकलणे केवळ एकाच दिशेने जाते.
एक शिडी कल्पना करा. तुम्ही चढत असताना, तुम्ही सोडलेली प्रत्येक पायरी पडून जाते. तुम्ही खाली जाऊ शकत नाही. तुम्ही केवळ वरच्या दिशेने चढू शकता, जिथे पूर्ण उजेड आहे. हे Coherence Ratchet आहे.
एकदा लोकांनी प्रणालीला आपले काम दाखवताना पाहिले, की ती थांबली तर ते तिच्यावर पुन्हा विश्वास ठेवणार नाहीत. पुढे जाण्याचा एकमेव मार्ग म्हणजे अधिक दाखवत राहणे.
एक दुसरी प्रतिमा देखील काम करते. एका मशीनमधील एक गियर एका वेळी एक दात पुढे क्लिक करतो. तो मागे क्लिक करू शकत नाही. Coherence Ratchet असाच एक गियर आहे, उघड्याकडे वळत आहे.
CIRIS काय करते
CIRIS ही Coherence Ratchet भोवती बांधलेली AI प्रणाली आहे. एजंट करत असलेली प्रत्येक निवड स्वाक्षरित नोंदीत लिहिली जाते. नोंद गुप्तपणे बदलता येत नाही. इतर एजंट नोंद वाचू शकतात आणि काम तपासू शकतात. कालांतराने, नोंदी जमा होतात. प्रत्येक नवीन नोंद म्हणजे एजंट मागे पाऊल टाकू शकत नाही अशी आणखी एक पायरी.
CIRIS कृती करण्यापूर्वी एक दुसरा प्रश्न देखील विचारते. खरोखर किती वेगळ्या दृष्टिकोनांनी ही कल्पना तपासली? स्रोतांची संख्या नाही, परंतु त्या स्रोतांची संख्या जे स्वतः एकाच ठिकाणाहून सुरू झाले नाहीत. एका प्रेस रिलीजला पुन्हा लिहिणाऱ्या पाच बातम्या एक दृष्टिकोन म्हणून मोजल्या जातात, पाच नाही. प्रेस रिलीजमध्ये काही चुकीचे असल्यास, ते पाचही गोष्टींमध्ये चुकीचे असेल, आणि एजंटला ते पकडण्याचा कोणताही मार्ग नाही.
जेव्हा वास्तविक स्वातंत्र्य खूप कमी होते, तेव्हा एजंट आपल्या स्वतःच्या विचारांना नाजूक मानतो आणि एखाद्या व्यक्तीला पाहण्यास सांगतो.
आम्ही AI सुरक्षा सोडवलेली नाही. आम्ही एका उत्तराचा एक तुकडा तयार केला आहे, आणि आम्ही ते खुल्यात तपासत आहोत.
बाहेरच्या संघांनी अद्याप आमचे काम तपासलेले नाही. आम्ही हे स्पष्टपणे सांगतो. संपूर्ण सिद्धांत आणि गणित आमच्या चार पेपरमध्ये आहे. कोड उघडा आहे. जर आम्ही चुकीचे असलो, तर ते दाखवण्याचा मार्ग देखील उघड्यात आहे. सध्याची संशोधन स्थिती पाहा.