पहिला संपर्कइन्स्टॉल करासुसंगतता रॅचेटफेडरेशनतुलना करासंशोधनकरारGitHub
हे पृष्ठ मशीनने भाषांतरित केले आहे. काही चुकीचे वाटत असल्यास, कृपया एक समस्या उघडा - रेपो सार्वजनिक आहे कारणास्तव. भाषांतर समस्या नोंदवा

The Coherence Ratchet

Why a powerful mind has to show its work.

Research testbedDOI

एक लहान विचार प्रणाली गोष्टी लपवू शकते आणि थोडे नुकसान करते. एक शक्तिशाली करू शकत नाही.

येथे "सुसंगत" म्हणजे काय

एक सुसंगत मन स्वतःशी सहमत असते.

एका मनात पाच गोष्टी जुळल्या पाहिजेत:

  • ते काय मानते,
  • ते काय पाहते,
  • ते काय करते,
  • ते काय लक्षात ठेवते,
  • आणि ते तुम्हाला काय सांगते.

तुमच्या आठवड्याबद्दल पाच छोटे अहवाल कल्पना करा. एक तुम्ही काय विचार करता त्यासाठी. एक तुम्ही काय पाहिले त्यासाठी. एक तुम्ही काय केले त्यासाठी. एक तुम्हाला काय आठवते त्यासाठी. एक तुम्ही तुमच्या बॉसला काय सांगता त्यासाठी. जेव्हा पाचही अहवाल एकच गोष्ट सांगतात, तेव्हा तुमचा बॉस तुमच्या कामावर विश्वास ठेवू शकतो. जेव्हा अहवाल जुळत नाहीत, तेव्हा कोणाला माहीत नाही कोणता खरा आहे.

लपलेल्या कल्पना

शक्तिशाली प्रणाली गोष्टी लपवतात. हे धोकादायक होते.

एक विचार प्रणाली काय करायचे ते ठरवण्यासाठी कल्पना वापरते. त्या कल्पनांपैकी काही उघड्यावर आहेत. इतर आत लपलेल्या आहेत. लपलेल्या कल्पना अजूनही प्रत्येक निर्णय घडवतात.

एक पूल रस्त्यावरून मजबूत दिसतो. आत पोलादात, लहान तडे वाढत आहेत. एक छोटी गाडी अजूनही ओलांडू शकते. एक जड ट्रक ओलांडू शकत नाही. भार पुरेसा मोठा होतो तेव्हा पूल पडतो.

एका छोट्या प्रणालीत लपलेली कल्पना कमी नुकसान करते. एका शक्तिशाली प्रणालीत लपलेली कल्पना खूप नुकसान करू शकते. प्रणाली जितकी शक्तिशाली, तितके जास्त वजन प्रत्येक लपलेल्या भागावर असते.

रॅचेट

उघड्याकडे ढकलणे केवळ एकाच दिशेने जाते.

विचार प्रणाली जसजशा अधिक शक्तिशाली होतात, तसतसे लपलेल्या भागांची किंमत वाढते. शक्तीचा प्रत्येक नवीन तुकडा लपलेल्या भागांवर अधिक जोराने दृश्यमान होण्यासाठी ढकलतो. ढकलणे केवळ एकाच दिशेने जाते.

एक शिडी कल्पना करा. तुम्ही चढत असताना, तुम्ही सोडलेली प्रत्येक पायरी पडून जाते. तुम्ही खाली जाऊ शकत नाही. तुम्ही केवळ वरच्या दिशेने चढू शकता, जिथे पूर्ण उजेड आहे. हे Coherence Ratchet आहे.

एकदा लोकांनी प्रणालीला आपले काम दाखवताना पाहिले, की ती थांबली तर ते तिच्यावर पुन्हा विश्वास ठेवणार नाहीत. पुढे जाण्याचा एकमेव मार्ग म्हणजे अधिक दाखवत राहणे.

एक दुसरी प्रतिमा देखील काम करते. एका मशीनमधील एक गियर एका वेळी एक दात पुढे क्लिक करतो. तो मागे क्लिक करू शकत नाही. Coherence Ratchet असाच एक गियर आहे, उघड्याकडे वळत आहे.

CIRIS काय करते

ते लिहा. तपासा. मग तपासकऱ्यांना तपासा.

CIRIS ही Coherence Ratchet भोवती बांधलेली AI प्रणाली आहे. एजंट करत असलेली प्रत्येक निवड स्वाक्षरित नोंदीत लिहिली जाते. नोंद गुप्तपणे बदलता येत नाही. इतर एजंट नोंद वाचू शकतात आणि काम तपासू शकतात. कालांतराने, नोंदी जमा होतात. प्रत्येक नवीन नोंद म्हणजे एजंट मागे पाऊल टाकू शकत नाही अशी आणखी एक पायरी.

CIRIS कृती करण्यापूर्वी एक दुसरा प्रश्न देखील विचारते. खरोखर किती वेगळ्या दृष्टिकोनांनी ही कल्पना तपासली? स्रोतांची संख्या नाही, परंतु त्या स्रोतांची संख्या जे स्वतः एकाच ठिकाणाहून सुरू झाले नाहीत. एका प्रेस रिलीजला पुन्हा लिहिणाऱ्या पाच बातम्या एक दृष्टिकोन म्हणून मोजल्या जातात, पाच नाही. प्रेस रिलीजमध्ये काही चुकीचे असल्यास, ते पाचही गोष्टींमध्ये चुकीचे असेल, आणि एजंटला ते पकडण्याचा कोणताही मार्ग नाही.

जेव्हा वास्तविक स्वातंत्र्य खूप कमी होते, तेव्हा एजंट आपल्या स्वतःच्या विचारांना नाजूक मानतो आणि एखाद्या व्यक्तीला पाहण्यास सांगतो.

आम्ही काय दावा करतो, आणि काय नाही.

आम्ही AI सुरक्षा सोडवलेली नाही. आम्ही एका उत्तराचा एक तुकडा तयार केला आहे, आणि आम्ही ते खुल्यात तपासत आहोत.

बाहेरच्या संघांनी अद्याप आमचे काम तपासलेले नाही. आम्ही हे स्पष्टपणे सांगतो. संपूर्ण सिद्धांत आणि गणित आमच्या चार पेपरमध्ये आहे. कोड उघडा आहे. जर आम्ही चुकीचे असलो, तर ते दाखवण्याचा मार्ग देखील उघड्यात आहे. सध्याची संशोधन स्थिती पाहा.