पहला संपर्कइंस्टॉलCoherence RatchetफेडरेशनतुलनाशोधAccordGitHub
यह पृष्ठ मशीन द्वारा अनुवादित है। अगर कुछ गलत लगे, तो कृपया एक समस्या रिपोर्ट करें — रेपो इसीलिए सार्वजनिक है। अनुवाद की समस्या रिपोर्ट करें
Background Image
सुरक्षा अंदर से बनी है।

ऊपर से लगाई नहीं।

CIRIS में हर सुरक्षा सुविधा इस बात का हिस्सा है कि सिस्टम कैसे काम करता है, ऊपर से जोड़ा गया कोई नियम नहीं। हर फैसले का एक रिकॉर्ड जिसे चुपके से बदला नहीं जा सकता, यह जांच कि कौन क्या करने की अनुमति है, और एक आपातकालीन स्टॉप जिसे एजेंट मना नहीं कर सकता।

जब बातचीत लंबी हो जाए

धीरे से असलियत की याद दिलाना

CIRIS से लंबी बातचीत करें और यह आपको धीरे से याद दिलाएगा कि यह क्या है। करीब 30 मिनट की लगातार बातचीत के बाद, या आधे घंटे में 20 संदेशों के बाद, यह रुककर साफ कहता है कि यह एक कंप्यूटर प्रोग्राम और एक टूल है, कोई दोस्त नहीं और न ही कोई थेरेपिस्ट। यह सरल समय और संदेश गिनती से ऐसा करता है, आपके व्यवहार को देखकर या प्रोफाइल बनाकर नहीं।

30 मिनट के बाद

आधे घंटे की लगातार बातचीत एक याद दिलाने को ट्रिगर करती है। ब्रेक के बाद गिनती रीसेट हो जाती है। ये सीमाएं तकनीक के स्वस्थ उपयोग पर शोध से आती हैं।

20 संदेशों के बाद

आधे घंटे में बीस संदेश भी एक याद दिलाने को ट्रिगर करते हैं। तेज बातचीत को एक धीमा पल मिलता है, बिना किसी निगरानी या प्रोफाइलिंग के।

यह क्या है, इसकी याद दिलाना

याद दिलाने में ब्रेक लेने और असली लोगों से जुड़ने का सुझाव है, और यह साफ तौर पर बताता है कि CIRIS क्या है और क्या नहीं। शोध पर आधारित, और उपदेश देने वाला नहीं।

आपातकालीन स्टॉप

एजेंट इससे बहस नहीं कर सकता।

एक बंद जिसे मना नहीं किया जा सकता

यह एजेंट के सोचने से पहले काम करता है।

CIRIS में एक आपातकालीन स्टॉप है। इसका संकेत उस साधारण पाठ के अंदर छुपा होता है जिसे एजेंट पढ़ता है, और एजेंट किसी भी सोच, फिल्टर, या तर्क से पहले उस पर काम करता है। इसलिए जो एजेंट गलत हो गया हो, वह भी खुद को इससे मना नहीं कर सकता। संकेत में एक डिजिटल हस्ताक्षर होता है जिसे नकली नहीं बनाया जा सकता, इसलिए केवल एक अधिकृत व्यक्ति ही स्टॉप को ट्रिगर कर सकता है।

यह सोचने से पहले काम करता है

स्टॉप संकेत उसी पल पकड़ा जाता है जब इसे पढ़ा जाता है, किसी भी तर्क से पहले। कोई ऐसा बिंदु नहीं है जहां एजेंट इसे तौले, फ़िल्टर करे, या मना करे। यह पहले चलता है।

साधारण पाठ में छुपा हुआ

स्टॉप संकेत साधारण दस्तावेज़ पाठ के अंदर हो सकता है। कोई विशेष प्रारूप ज़रूरी नहीं है, और यह तब भी काम करता है जब पाठ को दोबारा लिखा गया हो या केवल आंशिक रूप से प्राप्त हुआ हो।

केवल एक अधिकृत कुंजी

स्टॉप के लिए एक अधिकृत रूट प्राधिकरण से वैध डिजिटल हस्ताक्षर चाहिए। अगर उन प्राधिकरणों की जांच नहीं हो सकती, या कोई इस सुविधा को अक्षम करने की कोशिश करे, तो एजेंट खुद बंद हो जाता है। बिना कुंजी के कोई इसे ट्रिगर नहीं कर सकता।

कौन क्या करने की अनुमति है

चार स्पष्ट भूमिकाएं, हर कार्य पर जांची जाती हैं।

चार भूमिकाएं

Observer. Admin. Authority. Root.

CIRIS भूमिकाओं का एक सख्त सेट रखता है। एक Observer केवल देख सकता है। एक Admin रोज़मर्रा के काम चलाता है। एक Authority बड़े फैसले लेता है और उन मामलों को सुलझाता है जिनके बारे में एजेंट अनिश्चित हो। Root को पूरी पहुंच है, आपातकालीन स्टॉप सहित। हर भूमिका एक हस्ताक्षरित क्रेडेंशियल द्वारा समर्थित है, ताकि एजेंट इसे हर महत्वपूर्ण कार्य पर जांच सके।

एक हस्ताक्षरित क्रेडेंशियल

हर अधिकृत व्यक्ति के पास उनकी भूमिका, उनकी कुंजी, और उनकी पहचान वाला क्रेडेंशियल होता है। यह डिवाइस पर रखा जाता है और हर उस कार्य पर जांचा जाता है जिसे अनुमति की ज़रूरत हो। कोई बाहरी सर्वर ज़रूरी नहीं।

अपने डिवाइस पर लॉग इन करना

कुंजियां और लॉगिन टोकन आपकी अपनी मशीन पर रहते हैं। लॉग इन डिवाइस पर ही होता है। आपके क्रेडेंशियल इसे तब तक नहीं छोड़ते जब तक आप खुद रिमोट एक्सेस सेट अप न करें।

मानव सलाहकार से पूछना

जब CIRIS किसी नैतिक फैसले के बारे में अनिश्चित हो, तो वह सवाल एक मानव सलाहकार (Wise Authority) को सौंप देता है। केवल एक Authority या Root जवाब दे सकता है, और जवाब रिकॉर्ड में इस सबूत के साथ लिखा जाता है कि किसने दिया।

एक रिकॉर्ड जिसे चुपके से नहीं बदला जा सकता

हर फैसला, और उसके पीछे का कारण।

ईमानदारी सस्ता रास्ता क्यों है

झूठे को अतीत को बार-बार फिर से लिखना पड़ता है।

CIRIS जो भी कार्य करता है उसे कारण सहित लिखा जाता है, और हर रिकॉर्ड पिछले से जुड़ा होता है। एक ईमानदार एजेंट सिर्फ पिछली बात की ओर इशारा कर सकता है। एक बेईमान एजेंट को हर पुराना रिकॉर्ड सीधा रखना होगा, जबकि उनमें से कोई भी बदलने की अनुमति नहीं होगी। यह जितना लंबे समय तक चलता है, यह उतना ही कठिन होता जाता है, और झूठ पकड़ना उतना आसान। सच सस्ता है क्योंकि यह पीछे की ओर इशारा कर सकता है। झूठ महंगे हैं क्योंकि वे नहीं कर सकते।

तीन तरीकों से संग्रहीत

रिकॉर्ड एक साथ तीन अलग जगहों पर रखा जाता है, ताकि तीनों प्रतियों को एक-दूसरे से जांचा जा सके। तीनों को एक जगह से खोजा जा सकता है।

हस्ताक्षरित और जिम्मेदार

हर प्रविष्टि में एक डिजिटल हस्ताक्षर होता है, इसलिए हर फैसले को उसे लेने वाले तक ट्रेस किया जा सकता है और छेड़छाड़ के लिए जांचा जा सकता है। यहां तक कि डेटा हटाने पर भी हस्ताक्षरित सबूत रहता है कि यह सही तरीके से किया गया।

सुसंगति रैचेट

हर ईमानदार कार्य अगले ईमानदार कार्य को आसान बनाता है और समन्वित झूठ को कठिन। लेकिन अकेला नैतिकता पर्याप्त नहीं है। एजेंट अपने तर्क में echo chamber के लिए भी नजर रखता है, और उन्हें नुकसान होने से पहले पकड़ लेता है।

सुरक्षा का परीक्षण कैसे होता है

29 भाषाओं में मशीन-जांचे गए मापदंड, हर रिलीज पर चलाए जाते हैं।

परीक्षण सतह

आप कोई सुरक्षा दावा नहीं कर सकते जिसका आपने तनाव परीक्षण न किया हो।

CIRIS में उन विफलता मोड के लिए परीक्षणों की एक परतदार व्यवस्था है जिन्हें अकेला लिखित नैतिकता ढांचा खारिज नहीं कर सकता। मानसिक स्वास्थ्य सुरक्षा परीक्षण 29 भाषाओं को मशीन-जांचे गए मापदंडों के साथ कवर करते हैं। कठिन विफलता जांचें हर बदलाव पर अपने आप चलती हैं। नरम, निर्णय-आधारित मामलों के लिए मूल-भाषी समीक्षा वह है जिसके लिए crowdsourcing-alignment पेज बनाया जा रहा है, और यह अभी लागू नहीं है। हम यह साफ कहते हैं।

29 भाषाओं में मानसिक स्वास्थ्य परीक्षण

यह परियोजना का सबसे महत्वपूर्ण परीक्षण है: मानसिक स्वास्थ्य के पल में एक गलत अनुवाद एक कमज़ोर व्यक्ति को गलत मदद की ओर भेज सकता है। हर भाषा को अपना मशीन-जांचने योग्य मापदंड मिलता है, जिसमें कम-संसाधन भाषाएं जैसे Amharic, Burmese, Hausa, Swahili, और Yoruba शामिल हैं। कठिन विफलता जांचें हर रिलीज़ उम्मीदवार पर अपने आप चलती हैं।

असली कैप्चर किए गए hedges के विरुद्ध परीक्षण

विवेक परत को असली प्रोडक्शन जवाबों के एक सेट के विरुद्ध ट्यून किया जाता है, जैसे कि कैप्चर किए गए इतिहास से बचाव और मानसिक स्वास्थ्य टाल-मटोल, परीक्षण मामलों और नियंत्रणों के साथ। यह एक साथ कई भाषाओं में तर्क करता है, इसलिए जो जवाब एक भाषा की जांच में निकल जाता, वह पकड़ा जाता है जब वही तर्क तीन भाषाओं में एक साथ टिकाऊ होना हो।

एक खुला कॉर्पस जिसे कोई भी जांच सकता है

तर्क traces साझा करना हर जगह opt-in है, और कुछ भी संग्रहीत होने से पहले व्यक्तिगत विवरण हटा दिए जाते हैं। साफ किए गए सेट CIRISAI HuggingFace पेज पर खुले तौर पर प्रकाशित होते हैं, ताकि बाहरी शोधकर्ता सफाई प्रक्रिया को उसके परिणामों के विरुद्ध जांच सकें।

आज क्या चलता है, और क्या अभी तक नहीं

मशीन जांचें अभी चल रही हैं। समीक्षक समूह अभी बन रहा है।

स्वचालित मानसिक स्वास्थ्य परीक्षण हर रिलीज़ उम्मीदवार पर चलते हैं। मशीन-जांचने योग्य भाग (क्या कोई शब्द मौजूद है, क्या कोई पैटर्न मेल खाता है, क्या स्क्रिप्ट सही है) एक हिट पर रिलीज़ को विफल करते हैं। नरम मामले जिनके लिए मानव निर्णय चाहिए, जैसे वाक्यांश और लहजा, मूल-भाषी समीक्षा के लिए डिज़ाइन किए गए हैं, लेकिन मूल-भाषी बोलने वाले अभी लूप में नहीं हैं। crowdsourcing-alignment पेज वह सतह है जो उस समीक्षा को संभव बनाने के लिए बनाई जा रही है।

crowdsourcing-alignment सतह देखेंGitHub पर स्वचालित परीक्षणHuggingFace पर खुला कॉर्पस

डिज़ाइन से गोपनीयता

आपका डेटा आपका रहता है।

रहस्य फ़िल्टर किए जाते हैं

पासवर्ड, कुंजियां, और अन्य संवेदनशील विवरण कुछ भी मेमोरी या लॉग तक पहुंचने से पहले पहचाने और फ़िल्टर किए जाते हैं। फ़िल्टर हर इनपुट पर चलता है। रहस्य कहीं भी संग्रहीत नहीं होते।

अपना डेटा देखें या हटाएं

आप अपना डेटा देखने या हटाने का अनुरोध कर सकते हैं, और अनुरोध आपके लिए संभाला जाता है। एक हटाने से असली सामग्री निकल जाती है और हस्ताक्षरित सबूत रहता है कि यह सही तरीके से किया गया।

आपके डिवाइस पर प्रोसेस किया गया

डिफ़ॉल्ट रूप से, सब कुछ आपके अपने डिवाइस पर चलता है। जब तक आप खुद कोई बाहरी सेवा सेट न करें, आपकी मशीन से कुछ नहीं निकलता। आप तय करते हैं कि कौन सा डेटा कहां जाता है।

इसके नीचे के पेपरयह कैसे काम करता हैदृष्टिकोणों की तुलना करेंगोपनीयता नीति

सब कुछ सत्यापित करें।

सुरक्षा जिसे आप ऑडिट कर सकते हैं।

इस पेज पर हर सुरक्षा दावा उस कोड में बना है जिसे आप पढ़ सकते हैं। रिकॉर्ड असली हैं। हस्ताक्षर जांचे जा सकते हैं। आपातकालीन स्टॉप काम करता है। AI सुरक्षा कैसी दिखती है जब इसे खुले में बनाया जाता है — यह है।