सोपी मराठीप्रगत

Research testbed · DOI 10.5281/zenodo.18217688

एक लहान विचार प्रणाली गोष्टी लपवू शकते आणि थोडे नुकसान करते. एक शक्तिशाली करू शकत नाही.

येथे "सुसंगत" म्हणजे काय

एक सुसंगत मन स्वतःशी सहमत असते.

एका मनात पाच गोष्टी जुळल्या पाहिजेत:

ते काय मानते,
ते काय पाहते,
ते काय करते,
ते काय लक्षात ठेवते,
आणि ते तुम्हाला काय सांगते.

तुमच्या आठवड्याबद्दल पाच छोटे अहवाल कल्पना करा. एक तुम्ही काय विचार करता त्यासाठी. एक तुम्ही काय पाहिले त्यासाठी. एक तुम्ही काय केले त्यासाठी. एक तुम्हाला काय आठवते त्यासाठी. एक तुम्ही तुमच्या बॉसला काय सांगता त्यासाठी. जेव्हा पाचही अहवाल एकच गोष्ट सांगतात, तेव्हा तुमचा बॉस तुमच्या कामावर विश्वास ठेवू शकतो. जेव्हा अहवाल जुळत नाहीत, तेव्हा कोणाला माहीत नाही कोणता खरा आहे.

लपलेल्या कल्पना

शक्तिशाली प्रणाली गोष्टी लपवतात. हे धोकादायक होते.

एक विचार प्रणाली काय करायचे ते ठरवण्यासाठी कल्पना वापरते. त्या कल्पनांपैकी काही उघड्यावर आहेत. इतर आत लपलेल्या आहेत. लपलेल्या कल्पना अजूनही प्रत्येक निर्णय घडवतात.

एक पूल रस्त्यावरून मजबूत दिसतो. आत पोलादात, लहान तडे वाढत आहेत. एक छोटी गाडी अजूनही ओलांडू शकते. एक जड ट्रक ओलांडू शकत नाही. भार पुरेसा मोठा होतो तेव्हा पूल पडतो.

एका छोट्या प्रणालीत लपलेली कल्पना कमी नुकसान करते. एका शक्तिशाली प्रणालीत लपलेली कल्पना खूप नुकसान करू शकते. प्रणाली जितकी शक्तिशाली, तितके जास्त वजन प्रत्येक लपलेल्या भागावर असते.

रॅचेट

उघड्याकडे ढकलणे केवळ एकाच दिशेने जाते.

विचार प्रणाली जसजशा अधिक शक्तिशाली होतात, तसतसे लपलेल्या भागांची किंमत वाढते. शक्तीचा प्रत्येक नवीन तुकडा लपलेल्या भागांवर अधिक जोराने दृश्यमान होण्यासाठी ढकलतो. ढकलणे केवळ एकाच दिशेने जाते.

एक शिडी कल्पना करा. तुम्ही चढत असताना, तुम्ही सोडलेली प्रत्येक पायरी पडून जाते. तुम्ही खाली जाऊ शकत नाही. तुम्ही केवळ वरच्या दिशेने चढू शकता, जिथे पूर्ण उजेड आहे. हे Coherence Ratchet आहे.

एकदा लोकांनी प्रणालीला आपले काम दाखवताना पाहिले, की ती थांबली तर ते तिच्यावर पुन्हा विश्वास ठेवणार नाहीत. पुढे जाण्याचा एकमेव मार्ग म्हणजे अधिक दाखवत राहणे.

एक दुसरी प्रतिमा देखील काम करते. एका मशीनमधील एक गियर एका वेळी एक दात पुढे क्लिक करतो. तो मागे क्लिक करू शकत नाही. Coherence Ratchet असाच एक गियर आहे, उघड्याकडे वळत आहे.

CIRIS काय करते

ते लिहा. तपासा. मग तपासकऱ्यांना तपासा.

CIRIS ही Coherence Ratchet भोवती बांधलेली AI प्रणाली आहे. एजंट करत असलेली प्रत्येक निवड स्वाक्षरित नोंदीत लिहिली जाते. नोंद गुप्तपणे बदलता येत नाही. इतर एजंट नोंद वाचू शकतात आणि काम तपासू शकतात. कालांतराने, नोंदी जमा होतात. प्रत्येक नवीन नोंद म्हणजे एजंट मागे पाऊल टाकू शकत नाही अशी आणखी एक पायरी.

CIRIS कृती करण्यापूर्वी एक दुसरा प्रश्न देखील विचारते. खरोखर किती वेगळ्या दृष्टिकोनांनी ही कल्पना तपासली? स्रोतांची संख्या नाही, परंतु त्या स्रोतांची संख्या जे स्वतः एकाच ठिकाणाहून सुरू झाले नाहीत. एका प्रेस रिलीजला पुन्हा लिहिणाऱ्या पाच बातम्या एक दृष्टिकोन म्हणून मोजल्या जातात, पाच नाही. प्रेस रिलीजमध्ये काही चुकीचे असल्यास, ते पाचही गोष्टींमध्ये चुकीचे असेल, आणि एजंटला ते पकडण्याचा कोणताही मार्ग नाही.

जेव्हा वास्तविक स्वातंत्र्य खूप कमी होते, तेव्हा एजंट आपल्या स्वतःच्या विचारांना नाजूक मानतो आणि एखाद्या व्यक्तीला पाहण्यास सांगतो.

आम्ही काय दावा करतो, आणि काय नाही.

आम्ही AI सुरक्षा सोडवलेली नाही. आम्ही एका उत्तराचा एक तुकडा तयार केला आहे, आणि आम्ही ते खुल्यात तपासत आहोत.

बाहेरच्या संघांनी अद्याप आमचे काम तपासलेले नाही. आम्ही हे स्पष्टपणे सांगतो. संपूर्ण सिद्धांत आणि गणित आमच्या चार पेपरमध्ये आहे. कोड उघडा आहे. जर आम्ही चुकीचे असलो, तर ते दाखवण्याचा मार्ग देखील उघड्यात आहे. सध्याची संशोधन स्थिती पाहा.

The math behind it Explore a trace See the code