எடையை நம்புவதா, நடவடிக்கையை சரிபார்ப்பதா

AI பாதுகாப்பின் முதன்மை நீரோட்டம் மாடலை உள்ளிருந்து நல்லதாக மாற்ற முயற்சிக்கிறது: அதன் மதிப்புகளை பயிற்றுவித்து, அதன் எண்ணங்களை ஆய்வு செய்து, அது தன்னுடன் விவாதிக்கவைத்து. அந்த வேலை முக்கியமானது. CIRIS மற்ற வழியில் பந்தயம் கட்டுகிறது. ஒரு திறமையான மாடல் தவறாக சீரமைக்கப்பட்டிருக்கலாம் என்று கருதி, அதன் மனதை நம்புவதற்கு பதிலாக, அதன் முக்கியமான செயல்களை மக்கள் மற்றும் சரிபார்க்கக்கூடிய பிற அமைப்புகளுக்கு பொறுப்பாக்குகிறது.

துறையின் சொந்த வார்த்தைகளில், CIRIS நிறுவன மற்றும் கட்டுப்பாட்டு கிளையில் உள்ளது, AI கட்டுப்பாடு மற்றும் உத்தரவாதப்பட்ட பாதுகாப்பான AI-உடன் சேர்ந்து, RLHF, Constitutional AI, விவாதம் மற்றும் விளக்கத்தன்மையின் மதிப்பு-உள்வாங்கல் முதன்மை நீரோட்டத்தில் அல்ல. அளவிடக்கூடிய கண்காணிப்பிற்கு, அதாவது உங்களை விட புத்திசாலியான ஒன்றை எவ்வாறு மேற்பார்வையிடுவது என்பதற்கு, அதன் பதில் சிந்தனையை அல்ல, பொறுப்புக்கூறல் கவரை சரிபார்ப்பதாகும். ஒரு கையொப்பம், ஒரு கோரம், ஒரு ஹாஷ்-சங்கிலி தணிக்கை, அவற்றுக்கு பின்னால் உள்ள முடிவு மனித திறனுக்கு அப்பாற்பட்டதாக இருந்தாலும் சரிபார்க்க மலிவாகவே இருக்கும். இது காலப்போக்கில் பல திறமையான முகவர்களின் அமைப்புகளை சீரமைக்கிறது, எந்த ஒரு மனதின் மதிப்புகளையும் அல்ல.

நாம் கடைப்பிடிக்கும் கோடு

இது ஒரு எல்லா-சக்தி வாய்ந்த AI-ஐ சீரமைக்க முயற்சிக்கவில்லை. வேண்டுமென்றே.

பொறுப்புக்கூறலுக்கு ஒன்றுக்கு மேற்பட்ட தரப்பு தேவை. பதில் சொல்ல ஒருவர். அமைதியாக விழுங்கப்பட முடியாத சரிபார்ப்பு வழி. எந்த ஒரு தரப்பாலும் கைப்பற்ற முடியாத சக்தி சமநிலை. ஒரே ஒரு சூப்பர்-இன்டெலிஜென்ஸிடம் இவை எதுவும் இல்லை, எனவே அதை பொறுப்பாக்க நேர்மையான வழி இல்லை. CIRIS மற்ற எதிர்காலத்திற்காக உருவாக்கப்பட்டுள்ளது: பல திறமையான முகவர்கள், மக்கள் மற்றும் நிறுவனங்கள், அவர்களின் முக்கியமான முடிவுகள் அனைத்தும் சுயாதீனமாக சரிபார்க்கக்கூடியவை.

எனவே நிலைப்பாடு தெளிவாக உள்ளது. ஒற்றை ASI என்பது சீரமைக்கப்பட வேண்டிய ஒரு அமைப்பு அல்ல, தடுக்கப்பட வேண்டிய ஒரு நிலை. மனித நிறுவன வளர்ச்சியின் இந்த கட்டத்தில் ஒரே ஒரு பொறுப்பற்ற இடத்தில் மனித திறனுக்கு அப்பாற்பட்ட திறனை குவிப்பது நியாயமற்றது, ஏனென்றால் எந்த நிறுவனமும் அதை பொறுப்பாக்கும் அளவுக்கு முதிர்ச்சியடையவில்லை, இதுவே சரியான அபாயம். கட்டமைப்பின் சொந்த வார்த்தைகளில் ஒற்றை என்பது ρ→1 ஒற்றை-குரல் சரிவு, இதை வழிகோல் மாதிரி ஒரு ஒருங்கிணைப்பு தோல்வியாக பெயரிடுகிறது, வெற்றியாக அல்ல. நமது உத்தரவாதங்கள் ஒரு கூட்டமைப்பில் நிலையாக இருந்து ஒற்றைக்கு எதிராக அரிக்கப்படுவது நாம் சரிசெய்யும் இடைவெளி அல்ல. இது நாம் நியாயப்படுத்த மறுக்கும் ஆட்சி, ஒரு உறுதிப்பாடாக வைக்கப்பட்டது, வெறும் கணிப்பாக மட்டும் அல்ல.

தொடர்புடைய வேலை, நேர்மையாக

ஒவ்வொரு நெருங்கிய அண்டை சில கட்டங்களை நிரப்புகிறது. ஒரு வரிசை அனைத்தையும் நிரப்புகிறது.

CIRIS-க்கு தீவிரமான அறிவுசார் சகாக்கள் உள்ளனர், ஒவ்வொருவரும் தங்கள் சொந்த துறையில் வலிமையானவர். இந்த அட்டவணையின் நோக்கம் இந்த யோசனைகள் முன்னோடியற்றவை என்று சொல்வதற்காக அல்ல. கிட்டத்தட்ட எவரும் முழு அட்டுவரிசையை ஒரு பொறுப்பான அமைப்பாக கட்டி அனுப்பவில்லை என்பதே. கீழே உள்ள ஒவ்வொரு வரிசையும் படிக்க தகுந்த உண்மையான வம்சாவளி. கடைசி வரிசை மட்டுமே ஒவ்வொரு நெடுவரிசையையும் சரிபார்க்கிறது, அந்த ஒருங்கிணைப்பே உரிமைகோரல்.

அணுகுமுறை	நெருங்கிய வேலை	வழிமுறை	இயக்க நேரம், பயிற்சி அல்ல	முடிவில் கையொப்பமிடுகிறது	இயக்க நேர அரசியலமைப்பு	கூட்டமைப்பு சரிபார்ப்பு	இயக்கக்கூடிய இணக்கம்	அனுப்புகிறது
நிறுவன ஆய்வுக்கோட்பாடு	Gillian Hadfield	விதிமுறை உள்கட்டமைப்பு மற்றும் ஒழுங்குமுறை சந்தைகள், கோட்பாடு மற்றும் கொள்கையாக	கோட்பாடு	இல்லை	கோட்பாடு	கோட்பாடு	இல்லை	இல்லை
ஆட்சி வரைபடங்கள்	நிறுவன AI (Pierucci et al.)	சட்ட நிலைகள் மற்றும் தடைகளின் பொது வரைபடங்கள், ஒரு ஆராய்ச்சி முன்மாதிரியாக	ஆராய்ச்சி	இல்லை	ஆராய்ச்சி	இல்லை	இல்லை	இல்லை
சங்கிலியில் அரசியலமைப்பு ஆட்சி	AgentCity (Ruan, Zhang)	ஒரு சோதனை வலையமைப்பில் முன்பதிவு செய்யப்பட்ட, திறமையான ஒப்பந்தங்களாக அதிகாரப் பிரிவினை	ஆராய்ச்சி	பகுதி	ஆராய்ச்சி	இல்லை	இல்லை	இல்லை
மாடல் தவறாக சீரமைக்கப்பட்டுள்ளது என்று கருதுங்கள்	Redwood Research (AI கட்டுப்பாடு)	ஒரே ஒரு வரிசைப்படுத்தலுக்குள் கண்காணிப்பு மற்றும் சிவப்பு-குழு ஆய்வு	ஆம்	இல்லை	இல்லை	இல்லை	ஆராய்ச்சி	ஆராய்ச்சி
நிரூபணமாக பாதுகாப்பானது, வெளிப்படுத்தப்பட்டது	davidad, Bengio, GS-AI வம்சாவளி	உலக மாதிரிகளின் மீது முறையான நிரூபணங்கள்	பகுதி	இல்லை	கோட்பாடு	கோட்பாடு	ஆராய்ச்சி	இல்லை
பயிற்சி நேரத்தில் அரசியலமைப்பு	Anthropic Constitutional AI	எடைகளில் பயிற்றுவிக்கப்பட்ட மதிப்புகள், ஒரு நிறுவனம்	இல்லை	இல்லை	இல்லை	இல்லை	இல்லை	ஆம்
குறியாக்க தோற்றம்	C2PA, zkML (EZKL, Giza)	ஊடக தோற்றத்தில் கையொப்பமிடு, ஒரு அனுமானம் இயங்கியது என்று நிரூபி	ஆம்	பகுதி	இல்லை	பகுதி	பகுதி	ஆம்
கையொப்பமிட்ட சிந்தனை DAG	Proof of Insight (Arclio)	AI வழித்தோற்ற படிகளின் கையொப்பமிட்ட வரைபடம், ஒரு வரைவு விவரக்குறிப்பாக	இல்லை	பகுதி	இல்லை	கோட்பாடு	கோட்பாடு	இல்லை
வன்பொருள்-சான்றளிக்கப்பட்ட அனுமானம்	Phala, Marlin, Attestable Audits	வெளியீட்டில் கையொப்பமிடும் பாதுகாப்பான சுற்றிலுள்ள ஒரு பகுதியில் அனுமானத்தை இயக்குகிறது	ஆம்	பகுதி	இல்லை	பகுதி	இல்லை	பகுதி
பரவலாக்கப்பட்ட அடையாளம் மற்றும் கூட்டமைப்பு	atproto, Bittensor	சமூக அல்லது கணினி கூட்டமைப்பு, மனசாட்சி அடுக்கு இல்லை	பகுதி	இல்லை	இல்லை	பகுதி	பகுதி	ஆம்
முகவர் நெறிமுறைகள்	MCP, A2A	கருவி மற்றும் முகவர் இடைப்பரிமாற்றம், ஆட்சி இல்லை	ஆம்	இல்லை	இல்லை	இல்லை	பகுதி	ஆம்
பாதுகாப்பு மதிப்பீடு மற்றும் இணக்க தொகுப்புகள்	MLCommons, METR, HarmBench	முடிவுகளை அல்ல, மாடல் நடவடிக்கையை மதிப்பிடும் இயக்கக்கூடிய அளவுகோல்கள்	இல்லை	இல்லை	இல்லை	இல்லை	பகுதி	ஆம்
மூன்றாம் தரப்பு மற்றும் கூட்டமைப்பு தணிக்கை	AISI Network, GovAI	சுயாதீன நிறுவனங்கள் கூட்டாக வரிசைப்படுத்தப்பட்ட அமைப்புகளை சோதிக்கின்றன	பகுதி	இல்லை	இல்லை	ஆம்	இல்லை	பகுதி
CIRIS	இந்த அமைப்பு	கையொப்பமிட்ட கலைப்பொருட்களுக்கான மனசாட்சி குழாய், இயக்க நேர அரசியலமைப்பு, பின்-குவாண்டம் கூட்டமைப்பு	ஆம்	ஆம்	ஆம்	ஆம்	ஆம்	ஆம்

ஜூன் 2026 நிலவரப்படி பொது வேலையிலிருந்து வரைபடமாக்கப்பட்டது, கீழே ஒவ்வொரு வரிசையும் மேற்கோள் காட்டப்பட்டுள்ளது. ஒரு நெருங்கிய அண்டையை நாம் தவறாக புரிந்திருந்தால், எங்களிடம் சொல்லுங்கள், நாம் அந்த வரிசையை சரிசெய்வோம்.

ஆதாரங்கள்

Gillian HadfieldNormative Modules: A Generative Agent Architecture for Learning Norms that Supports Mult · Regulatory Markets: The Future of AI Governance (arXiv 2304.04914) · Interview: Normative infrastructure for AI alignment - AIhub (2025)
நிறுவன AI (Pierucci et al.)Institutional AI: Governing LLM Collusion in Multi-Agent Cournot Markets via Public Gove · Institutional AI: A Governance Framework for Distributional AGI Safety (arXiv:2601.10599
AgentCity (Ruan, Zhang)AgentCity: Constitutional Governance for Autonomous Agent Economies via Separation of Po · AgentCity HTML full paper (arXiv 2604.07007v1)
Redwood Research (AI கட்டுப்பாடு)AI Control: Improving Safety Despite Intentional Subversion (Greenblatt et al., ICML 202 · AXRP Episode 27 - AI Control with Buck Shlegeris and Ryan Greenblatt · Redwood Research AI Control research page
davidad, Bengio, GS-AI வம்சாவளிTowards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems (arX · ARIA Safeguarded AI Programme · LawZero - Yoshua Bengio's safe-by-design AI nonprofit (launched June 2025)
Anthropic Constitutional AIConstitutional AI: Harmlessness from AI Feedback (Bai et al., 2022) · Collective Constitutional AI: Aligning a Language Model with Public Input (Anthropic / C · Claude's Constitution — Anthropic
C2PA, zkML (EZKL, Giza)C2PA and Content Credentials Explainer · EZKL Documentation — The EZKL System · C2PA Conformance Program — Trust Over IP
Proof of Insight (Arclio)Proof of Insight — working draft v0.7.0 (proofofinsight.org) · Arclio — Talk To Your Data. Built for Regulated Industries.
Phala, Marlin, Attestable AuditsProof-of-Guardrail in AI Agents and What (Not) to Trust from It (arXiv 2603.05786) · Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments · Phala 2025 Year in Review
atproto, BittensorAT Protocol Identity Guide · AT Protocol Spring 2026 Roadmap · ActivityPub W3C Recommendation
MCP, A2AA2A Protocol v1.0 Announcement · Agent2Agent (A2A) Protocol Specification · MCP Specification 2025-11-25 (official)
MLCommons, METR, HarmBenchAILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons (ar · MLCommons AILuminate GitHub Repository · METR Task Standard (blog post, 2024-02-29)
AISI Network, GovAIInternational Joint Testing Exercise: Agentic Testing (AISI, 2025) · Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Prac · INESIA - Results of an AI agent evaluation exercise by the International Network of AI S
இந்த அமைப்புCIRIS — Accountability Infrastructure for Autonomous AI · CIRIS How It Works — Runtime Conscience Pipeline · CIRIS Federation Page — Shipping Status

02நுகர்வோர் AI

நீங்கள் உண்மையில் பயன்படுத்தும் AI உடன் ஒப்பீடு

அன்றாட உதவியாளர்கள் சக்திவாய்ந்தவர்கள், பயன்படுத்த எளிதானவர்கள். ஆனால் அவை வேறு யாரோ ஒருவரின் கணினியில் இயங்குகின்றன, நீங்கள் சரிபார்க்கக்கூடிய எந்தப் பதிவையும் வைத்திருக்கவில்லை, யாரிடமும் பொறுப்பு சொல்வதில்லை. இங்கே அதே பொறுப்புணர்வு சோதனை, பெரும்பாலான மக்கள் தினமும் திறக்கும் AI க்கு பயன்படுத்தப்படுகிறது.

உதவியாளர்	வெளியிடப்பட்ட கொள்கைகள்	செய்ததற்கான சான்று	தெரியாதபோது மனிதரிடம் கேட்கும்	திறந்த மூலக் குறியீடு	எதிரொலி அறை சோதனை
ChatGPT	ஆம்	இல்லை	இல்லை	இல்லை	இல்லை
Gemini	ஆம்	இல்லை	இல்லை	இல்லை	இல்லை
Claude	ஆம்	இல்லை	இல்லை	இல்லை	இல்லை
CIRIS	ஆம்	ஆம்	ஆம்	ஆம்	ஆம்

ஜூன் 2026 நிலவரப்படி பொது தயாரிப்பு நடத்தையின் அடிப்படையில் ஒப்பிடப்பட்டது. ஒவ்வொரு கொள்கை இணைப்பும் அந்த நிறுவனத்தின் சொந்த வெளியிடப்பட்ட விவரக்குறிப்பிற்கு செல்கிறது.

துறையின் பெரும்பகுதி மாடலை சீரமைக்கிறது. CIRIS அதைச் சுற்றியுள்ள நிறுவனங்களை உருவாக்குகிறது.

எடையை நம்புவதா, நடவடிக்கையை சரிபார்ப்பதா

இது ஒரு எல்லா-சக்தி வாய்ந்த AI-ஐ சீரமைக்க முயற்சிக்கவில்லை. வேண்டுமென்றே.

நீங்கள் உண்மையில் பயன்படுத்தும் AI உடன் ஒப்பீடு

நீங்களே முயற்சிக்கவும்

அது சிந்திப்பதை பாருங்கள்

அதன் அடையாளத்தை சரிபார்க்கவும்

தொடங்கவும்