
CIRIS में हर सुरक्षा सुविधा इस बात का हिस्सा है कि सिस्टम कैसे काम करता है, ऊपर से जोड़ा गया कोई नियम नहीं। हर फैसले का एक रिकॉर्ड जिसे चुपके से बदला नहीं जा सकता, यह जांच कि कौन क्या करने की अनुमति है, और एक आपातकालीन स्टॉप जिसे एजेंट मना नहीं कर सकता।
CIRIS से लंबी बातचीत करें और यह आपको धीरे से याद दिलाएगा कि यह क्या है। करीब 30 मिनट की लगातार बातचीत के बाद, या आधे घंटे में 20 संदेशों के बाद, यह रुककर साफ कहता है कि यह एक कंप्यूटर प्रोग्राम और एक टूल है, कोई दोस्त नहीं और न ही कोई थेरेपिस्ट। यह सरल समय और संदेश गिनती से ऐसा करता है, आपके व्यवहार को देखकर या प्रोफाइल बनाकर नहीं।
आधे घंटे की लगातार बातचीत एक याद दिलाने को ट्रिगर करती है। ब्रेक के बाद गिनती रीसेट हो जाती है। ये सीमाएं तकनीक के स्वस्थ उपयोग पर शोध से आती हैं।
आधे घंटे में बीस संदेश भी एक याद दिलाने को ट्रिगर करते हैं। तेज बातचीत को एक धीमा पल मिलता है, बिना किसी निगरानी या प्रोफाइलिंग के।
याद दिलाने में ब्रेक लेने और असली लोगों से जुड़ने का सुझाव है, और यह साफ तौर पर बताता है कि CIRIS क्या है और क्या नहीं। शोध पर आधारित, और उपदेश देने वाला नहीं।
CIRIS में एक आपातकालीन स्टॉप है। इसका संकेत उस साधारण पाठ के अंदर छुपा होता है जिसे एजेंट पढ़ता है, और एजेंट किसी भी सोच, फिल्टर, या तर्क से पहले उस पर काम करता है। इसलिए जो एजेंट गलत हो गया हो, वह भी खुद को इससे मना नहीं कर सकता। संकेत में एक डिजिटल हस्ताक्षर होता है जिसे नकली नहीं बनाया जा सकता, इसलिए केवल एक अधिकृत व्यक्ति ही स्टॉप को ट्रिगर कर सकता है।
स्टॉप संकेत उसी पल पकड़ा जाता है जब इसे पढ़ा जाता है, किसी भी तर्क से पहले। कोई ऐसा बिंदु नहीं है जहां एजेंट इसे तौले, फ़िल्टर करे, या मना करे। यह पहले चलता है।
स्टॉप संकेत साधारण दस्तावेज़ पाठ के अंदर हो सकता है। कोई विशेष प्रारूप ज़रूरी नहीं है, और यह तब भी काम करता है जब पाठ को दोबारा लिखा गया हो या केवल आंशिक रूप से प्राप्त हुआ हो।
स्टॉप के लिए एक अधिकृत रूट प्राधिकरण से वैध डिजिटल हस्ताक्षर चाहिए। अगर उन प्राधिकरणों की जांच नहीं हो सकती, या कोई इस सुविधा को अक्षम करने की कोशिश करे, तो एजेंट खुद बंद हो जाता है। बिना कुंजी के कोई इसे ट्रिगर नहीं कर सकता।
CIRIS भूमिकाओं का एक सख्त सेट रखता है। एक Observer केवल देख सकता है। एक Admin रोज़मर्रा के काम चलाता है। एक Authority बड़े फैसले लेता है और उन मामलों को सुलझाता है जिनके बारे में एजेंट अनिश्चित हो। Root को पूरी पहुंच है, आपातकालीन स्टॉप सहित। हर भूमिका एक हस्ताक्षरित क्रेडेंशियल द्वारा समर्थित है, ताकि एजेंट इसे हर महत्वपूर्ण कार्य पर जांच सके।
हर अधिकृत व्यक्ति के पास उनकी भूमिका, उनकी कुंजी, और उनकी पहचान वाला क्रेडेंशियल होता है। यह डिवाइस पर रखा जाता है और हर उस कार्य पर जांचा जाता है जिसे अनुमति की ज़रूरत हो। कोई बाहरी सर्वर ज़रूरी नहीं।
कुंजियां और लॉगिन टोकन आपकी अपनी मशीन पर रहते हैं। लॉग इन डिवाइस पर ही होता है। आपके क्रेडेंशियल इसे तब तक नहीं छोड़ते जब तक आप खुद रिमोट एक्सेस सेट अप न करें।
जब CIRIS किसी नैतिक फैसले के बारे में अनिश्चित हो, तो वह सवाल एक मानव सलाहकार (Wise Authority) को सौंप देता है। केवल एक Authority या Root जवाब दे सकता है, और जवाब रिकॉर्ड में इस सबूत के साथ लिखा जाता है कि किसने दिया।
CIRIS जो भी कार्य करता है उसे कारण सहित लिखा जाता है, और हर रिकॉर्ड पिछले से जुड़ा होता है। एक ईमानदार एजेंट सिर्फ पिछली बात की ओर इशारा कर सकता है। एक बेईमान एजेंट को हर पुराना रिकॉर्ड सीधा रखना होगा, जबकि उनमें से कोई भी बदलने की अनुमति नहीं होगी। यह जितना लंबे समय तक चलता है, यह उतना ही कठिन होता जाता है, और झूठ पकड़ना उतना आसान। सच सस्ता है क्योंकि यह पीछे की ओर इशारा कर सकता है। झूठ महंगे हैं क्योंकि वे नहीं कर सकते।
रिकॉर्ड एक साथ तीन अलग जगहों पर रखा जाता है, ताकि तीनों प्रतियों को एक-दूसरे से जांचा जा सके। तीनों को एक जगह से खोजा जा सकता है।
हर प्रविष्टि में एक डिजिटल हस्ताक्षर होता है, इसलिए हर फैसले को उसे लेने वाले तक ट्रेस किया जा सकता है और छेड़छाड़ के लिए जांचा जा सकता है। यहां तक कि डेटा हटाने पर भी हस्ताक्षरित सबूत रहता है कि यह सही तरीके से किया गया।
हर ईमानदार कार्य अगले ईमानदार कार्य को आसान बनाता है और समन्वित झूठ को कठिन। लेकिन अकेला नैतिकता पर्याप्त नहीं है। एजेंट अपने तर्क में echo chamber के लिए भी नजर रखता है, और उन्हें नुकसान होने से पहले पकड़ लेता है।
CIRIS में उन विफलता मोड के लिए परीक्षणों की एक परतदार व्यवस्था है जिन्हें अकेला लिखित नैतिकता ढांचा खारिज नहीं कर सकता। मानसिक स्वास्थ्य सुरक्षा परीक्षण 29 भाषाओं को मशीन-जांचे गए मापदंडों के साथ कवर करते हैं। कठिन विफलता जांचें हर बदलाव पर अपने आप चलती हैं। नरम, निर्णय-आधारित मामलों के लिए मूल-भाषी समीक्षा वह है जिसके लिए crowdsourcing-alignment पेज बनाया जा रहा है, और यह अभी लागू नहीं है। हम यह साफ कहते हैं।
यह परियोजना का सबसे महत्वपूर्ण परीक्षण है: मानसिक स्वास्थ्य के पल में एक गलत अनुवाद एक कमज़ोर व्यक्ति को गलत मदद की ओर भेज सकता है। हर भाषा को अपना मशीन-जांचने योग्य मापदंड मिलता है, जिसमें कम-संसाधन भाषाएं जैसे Amharic, Burmese, Hausa, Swahili, और Yoruba शामिल हैं। कठिन विफलता जांचें हर रिलीज़ उम्मीदवार पर अपने आप चलती हैं।
विवेक परत को असली प्रोडक्शन जवाबों के एक सेट के विरुद्ध ट्यून किया जाता है, जैसे कि कैप्चर किए गए इतिहास से बचाव और मानसिक स्वास्थ्य टाल-मटोल, परीक्षण मामलों और नियंत्रणों के साथ। यह एक साथ कई भाषाओं में तर्क करता है, इसलिए जो जवाब एक भाषा की जांच में निकल जाता, वह पकड़ा जाता है जब वही तर्क तीन भाषाओं में एक साथ टिकाऊ होना हो।
तर्क traces साझा करना हर जगह opt-in है, और कुछ भी संग्रहीत होने से पहले व्यक्तिगत विवरण हटा दिए जाते हैं। साफ किए गए सेट CIRISAI HuggingFace पेज पर खुले तौर पर प्रकाशित होते हैं, ताकि बाहरी शोधकर्ता सफाई प्रक्रिया को उसके परिणामों के विरुद्ध जांच सकें।
स्वचालित मानसिक स्वास्थ्य परीक्षण हर रिलीज़ उम्मीदवार पर चलते हैं। मशीन-जांचने योग्य भाग (क्या कोई शब्द मौजूद है, क्या कोई पैटर्न मेल खाता है, क्या स्क्रिप्ट सही है) एक हिट पर रिलीज़ को विफल करते हैं। नरम मामले जिनके लिए मानव निर्णय चाहिए, जैसे वाक्यांश और लहजा, मूल-भाषी समीक्षा के लिए डिज़ाइन किए गए हैं, लेकिन मूल-भाषी बोलने वाले अभी लूप में नहीं हैं। crowdsourcing-alignment पेज वह सतह है जो उस समीक्षा को संभव बनाने के लिए बनाई जा रही है।
पासवर्ड, कुंजियां, और अन्य संवेदनशील विवरण कुछ भी मेमोरी या लॉग तक पहुंचने से पहले पहचाने और फ़िल्टर किए जाते हैं। फ़िल्टर हर इनपुट पर चलता है। रहस्य कहीं भी संग्रहीत नहीं होते।
आप अपना डेटा देखने या हटाने का अनुरोध कर सकते हैं, और अनुरोध आपके लिए संभाला जाता है। एक हटाने से असली सामग्री निकल जाती है और हस्ताक्षरित सबूत रहता है कि यह सही तरीके से किया गया।
डिफ़ॉल्ट रूप से, सब कुछ आपके अपने डिवाइस पर चलता है। जब तक आप खुद कोई बाहरी सेवा सेट न करें, आपकी मशीन से कुछ नहीं निकलता। आप तय करते हैं कि कौन सा डेटा कहां जाता है।
इस पेज पर हर सुरक्षा दावा उस कोड में बना है जिसे आप पढ़ सकते हैं। रिकॉर्ड असली हैं। हस्ताक्षर जांचे जा सकते हैं। आपातकालीन स्टॉप काम करता है। AI सुरक्षा कैसी दिखती है जब इसे खुले में बनाया जाता है — यह है।