
பொறுப்புணர்வை சரிபார்க்க முடியாவிட்டால், அது சந்தைப்படுத்தல் மட்டுமே. என்ன கவனிக்க வேண்டும், தற்போதைய அணுகுமுறைகள் எப்படி ஒப்பிடப்படுகின்றன என்பது இங்கே.
மனசாட்சி அவசியம். அது மட்டும் போதாது.
சில AI-க்கு எந்த விதிகளும் இல்லை. சில விதிகளை பின்பற்றும், ஆனால் அதன் ஆதாரங்கள் ஒன்றை ஒன்று எதிரொலிக்கின்றனவா என்று சொல்ல முடியாது. ஒரே ஒரு வகை மட்டும் தகவல் உண்மையில் வேறுவேறு இடங்களிலிருந்து வருகிறதா என்று சரிபார்க்கும்.
வெளியிடப்பட்ட கொள்கைகள் இல்லை. தணிக்கை தடம் இல்லை. மூடிய மூலக்கோடு. அது என்ன செய்தது அல்லது ஏன் செய்தது என்று நீங்கள் சரிபார்க்க முடியாது.
பெரும்பாலான நுகர்வோர் AI உதவியாளர்கள் (ChatGPT, Gemini) பொது-பொறுப்புணர்வு கண்ணோட்டத்தில் இங்கே உள்ளன. வலுவான உள்நிலை நடைமுறைகள் இருக்கலாம்; நீங்கள் அதை சரிபார்க்க முடியாது.
வெளிப்புற கட்டுப்பாடு தேவை. தன்னைத்தானே ஆள முடியாது.
நெறிமுறை விதிகளை பின்பற்றும். ஆனால் அதன் ஆதாரங்கள் அனைத்தும் ஒன்றை ஒன்று நகலெடுக்கின்றனவா என்று சொல்ல முடியாது, எனவே நம்பிக்கையுடன் தவறாக இருக்கலாம்.
கண்காணிப்பில் பாதுகாப்பானது. தொகுப்பறைகளை தனியாக கண்டறிய முடியாது.
நெறிமுறை விதிகளை பின்பற்றுவதோடு, அதன் தகவல் உண்மையில் வேறுவேறு இடங்களிலிருந்து வருகிறதா என்றும் சரிபார்க்கும். ஒப்புதல் சந்தேகத்தைத் தூண்டும்போது, செயல்படுவதற்கு முன்பு அதை கொடியிடும்.
இதுதான் CIRIS கட்டமைக்கிறது.
ஒரு AI ஒவ்வொரு விதியையும் பின்பற்றி, ஒவ்வொரு தணிக்கையும் தேர்ச்சி பெற்று, ஆனால் அதன் எல்லா தகவல்களும் ஒரே இடத்திலிருந்து வந்தால் தோல்வியடையலாம். அந்த குருட்டுப்புள்ளியை சரிசெய்யவே CIRIS உருவாக்கப்பட்டது.
AI-ஐ தணிக்கைக்குட்படுத்தக்கூடியதாகவும் பொறுப்புடையதாகவும் மாற்றுவது இவை. முதல் ஆறு சரியான செயல் செய்வது பற்றியவை. ஏழாவது, 'சரியான செயல் செய்வது' தவறான தகவலை அடிப்படையாகக் கொண்டிருக்கும் சூழல்களை கண்டறிவது பற்றியது.
முகவர் ஒரு பொது நெறிமுறை கட்டமைப்பை பின்பற்ற வேண்டும். மறைக்கப்பட்ட விதிகள் இல்லை: யாரும் படிக்கக்கூடிய மற்றும் பொறுப்பு கேட்கக்கூடிய ஒரு ஆவணம்.
ஒவ்வொரு செயலும் முகவர் செய்வதற்கு முன்பு மனசாட்சி சரிபார்ப்பு வழியாக செல்கிறது. பிறகு இல்லை. முன்பே.
நிச்சயமற்ற நிலையில் அல்லது சாத்தியமான தீங்கை எதிர்கொள்ளும்போது, முகவர் யூகிக்காமல் ஒருவரிடம் கேட்கும். பணிப்பாய்வில் உள்ளமைக்கப்பட்டது, விருப்பத்தேர்வு இல்லை.
ஒவ்வொரு முடிவும் பதிவு செய்யப்பட்டு கையொப்பமிடப்படுகிறது, இதனால் என்ன நடந்தது மற்றும் ஏன் என்று சரியாக சரிபார்க்கலாம். ஒவ்வொரு செயலுக்கும் ரசீது.
ஒப்புதல் இரு வழிகளிலும் செல்கிறது. நீங்கள் முகவரிடம் இல்லை என்று சொல்லலாம். முகவர் உங்களிடம் இல்லை என்று சொல்லலாம். எந்த தரப்பும் சமரசம் செய்துகொள்ள கட்டாயப்படுத்தப்படாது.
பார்க்க முடியாததை தணிக்கை செய்ய முடியாது. CIRIS AGPL-3.0 கீழ் முழுமையாக திறந்த மூலக்கோடு. யாரும் கோட்டை படிக்கலாம், சரிபார்க்கலாம், மேம்படுத்தலாம்.
விதிகள் மட்டும் பிடிக்க முடியாதது.
செயல்படுவதற்கு முன்பு, முகவர் கேட்கிறது: "என் ஆதாரங்கள் உண்மையில் ஒன்றோடொன்று முரண்படுகின்றனவா, அல்லது அவை எல்லாம் ஒரே இடத்திலிருந்து தகவல் பெறுகின்றனவா?" ஒரே மூலத்திலிருந்து நகலெடுத்த பத்து ஆதாரங்கள் உண்மையில் ஒரே ஒரு ஆதாரம் தான். ஒப்புதல் மிகவும் ஒரே மாதிரியாக தோன்றும்போது, முகவர் ஒரு நபர் மதிப்பாய்வு செய்வதற்காக கொடியிடும்.
மிகவும் குழைவான
ஆதாரங்கள் ஒன்றையொன்று முரண்படுகின்றன, எனவே எந்த பயனுள்ள முடிவும் எடுக்க முடியாது.
ஆரோக்கியமான
ஆதாரங்கள் உண்மையில் வேறுபடுகின்றன. உண்மையான ஒப்புதல் ஏதோ ஒன்றை அர்த்தப்படுத்துகிறது.
எதிரொலி அறை
ஒப்புதல் போல் தெரிகிறது, ஆனால் ஆதாரங்கள் ஒன்றையொன்று மீண்டும் சொல்கின்றன.
இதுதான் CIRIS-ஐ மற்ற AI பொறுப்புணர்வு கட்டமைப்புகளிலிருந்து வேறுபடுத்துகிறது.
கணிதம் வேண்டுமா? முழு ஆய்வரணை படியுங்கள் →பிப்ரவரி 2026 வரை பொதுவில் கிடைக்கும் ஆவணங்களை அடிப்படையாகக் கொண்டது. நாங்கள் ஏதாவது தவறவிட்டிருந்தால் அல்லது தவறாக புரிந்துகொண்டிருந்தால், எங்களுக்கு தெரியப்படுத்துங்கள்.
| திட்டம் | ஒவ்வொரு முடிவையும் சரிபார்க்கிறது | வெளியிடப்பட்ட விதிகள் | மனசாட்சி உள்ளமைக்கப்பட்டுள்ளது | அது என்ன செய்தது என்பதற்கான சான்று | திறந்த மூலக்கோடு | எதிரொலி அறை கண்டறிதல் |
|---|---|---|---|---|---|---|
| CIRIS | ஆம் | ஆம் | ஆம் | ஆம் | AGPL-3.0 | ஆம் |
| Constitutional AI | பயிற்சியில் மட்டும் | மறைமுகமான | இல்லை | இல்லை | இல்லை | இல்லை |
| LlamaFirewall / NeMo Guardrails | ஆம் | இல்லை | இல்லை | பதிவு | ஆம் | இல்லை |
| HatCat | ஆம் | பகுதி | வழிகாட்டுதல் | பகுதி | CC0 | இல்லை |
| நெறிமுறை குழுக்கள் / ஆட்சி கட்டமைப்புகள் | இல்லை | ஆம் | இல்லை | கையேடு | மாறுபடும் | இல்லை |
வெளியீட்டு வடிகட்டிகள் மற்றும் ஆட்சி கட்டமைப்புகள் முக்கியமான ஆனால் வேறுவேறு பிரச்சனைகளை தீர்க்கின்றன. வடிகட்டிகள் தீங்கான வெளியீடுகளை தடுக்கின்றன. மனசாட்சி மதிப்புகளை பற்றி சிந்திக்கிறது. CIRIS இரண்டையும் செய்து, அந்த குருட்டுப்புள்ளிகளை கண்டறிய முயல்கிறது, அவை தனியாக தீர்க்க முடியாதவை.
ஆபத்தான வெளியீடுகளை தடுக்கும்: prompt injection, தீங்கான உள்ளடக்கம், எதிர்ப்பு தாக்குதல்கள். வெளியேறும் வழியில் மோசமான விஷயங்களை பிடிக்கும் வடிகட்டி போல.
ஒரு செயல் பாதுகாப்பானதா என்று மட்டும் இல்லை, சரியானதா என்று சிந்திக்கும். முடிவெடுப்பதற்கு முன்பு நிலைமையை ஆராயும் நீதிபதி போல.
ஒப்புதல் உண்மையானதா அல்லது வெறும் மீண்டும் சொல்வதா என்று சரிபார்க்கும். "நீங்கள் எல்லாரும் ஒரே கட்டுரை படித்தீர்களா?" என்று கேட்கும் உண்மை-சரிபார்ப்பாளர் போல.
பல சிறிய முகவர்கள், ஒவ்வொன்றும் வெளியிடப்பட்ட கொள்கைகளுக்கு கட்டுப்பட்டவை, ஒவ்வொன்றும் தணிக்கை செய்யக்கூடியவை, ஒவ்வொன்றும் மனித அதிகாரத்திற்கு ஒப்படைக்கும். எந்த ஒரு நிறுவனமோ அமைப்போ முழு அடுக்கையும் கட்டுப்படுத்தாது. முகவர்கள் எவ்வளவு சுயாதீனமாக இருக்கிறார்களோ, அந்த அளவு ஏதாவது ஒரு தோல்வி பரவுவது கடினமாகும்.
இது தொடர் ஆராய்ச்சி. என்ன நிறுவப்பட்டுள்ளது, என்ன இன்னும் சோதிக்கப்படுகிறது என்பதில் நாங்கள் வெளிப்படையாக இருக்கிறோம்.
நன்கு நிறுவப்பட்டது
இன்னும் சோதிக்கப்படுகிறது
அது சிந்திப்பதை பாருங்கள்
ஒரு உண்மையான முகவரின் சிந்தனையை படிப்படியாக பாருங்கள். ஒரு தடத்தை ஆராயுங்கள் →
அதன் அடையாளத்தை சரிபார்க்கவும்
முகவர்கள் யார் என்று எப்படி நிரூபிக்கிறார்கள் என்று பாருங்கள், AI-க்கான DMV போல. நம்பிக்கை மற்றும் அடையாளம் →
தொடங்கவும்
உங்கள் முதல் முகவரை பயன்படுத்தவும் அல்லது எளிய ஆங்கிலத்தில் ஆய்வரணை படியுங்கள். முதல் தொடர்பு →
இந்த பக்கத்தில் உள்ள ஒவ்வொரு கூற்றும் நீங்கள் படிக்கக்கூடிய கோடு, சரிபார்க்கக்கூடிய தடங்கள், மற்றும் சரிபார்க்கக்கூடிய ஆராய்ச்சியால் ஆதரிக்கப்படுகிறது. அதுதான் நோக்கம்.