వెయిట్‌లను నమ్మడం, లేదా ప్రవర్తనను తనిఖీ చేయడం

AI సేఫ్టీ ముఖ్యమైన దారి మోడల్‌ను లోపల మంచిగా చేయడానికి ప్రయత్నిస్తుంది: దాని విలువలను శిక్షణ ఇవ్వడం, దాని ఆలోచనలు అధ్యయనం చేయడం, స్వయంగా చర్చించుకోవడం. ఆ పని ముఖ్యమైనది. CIRIS మరో మార్గంపై పందెం వేస్తుంది. సమర్థ మోడల్ తప్పుగా అలైన్ అయి ఉండవచ్చు అని అనుకుని, దాని మనసును నమ్మే బదులు, దాని ముఖ్యమైన చర్యలను వ్యక్తులకు మరియు తనిఖీ చేయగల ఇతర వ్యవస్థలకు జవాబుదారుగా చేయడం.

ఈ రంగం యొక్క సొంత పదాల్లో చెప్పాలంటే, CIRIS సంస్థాగత మరియు నియంత్రణ శాఖలో ఉంది, AI కంట్రోల్ మరియు guaranteed-safe AI తో పాటు, RLHF, Constitutional AI, డిబేట్ మరియు ఇంటర్‌ప్రెటబిలిటీ యొక్క వాల్యూ-ఇంటర్నలైజేషన్ ముఖ్యమైన దారిలో కాదు. స్కేలబుల్ ఓవర్‌సైట్ కు దాని సమాధానం, మీకంటే తెలివైన దాన్ని ఎలా పర్యవేక్షించాలి అంటే, జవాబుదారీ కవచాన్ని ధృవీకరించడం, తర్కాన్ని కాదు. సంతకం, కోరం, హాష్-చైన్డ్ ఆడిట్ వాటి వెనక నిర్ణయం అతిమానవుడైనా తనిఖీ చేయడానికి చవకగా ఉంటాయి. ఇది కాలక్రమేణా చాలా మంది సమర్థ ఏజెంట్ల వ్యవస్థలను అలైన్ చేస్తుంది, ఏ ఒక్క మనసు యొక్క విలువలను కాదు.

మేము నిలబెట్టే రేఖ

అది ఒక సర్వశక్తిమంతమైన AI ని అలైన్ చేయడానికి ప్రయత్నించదు. ఉద్దేశపూర్వకంగా.

జవాబుదారీకి ఒకటి కంటే ఎక్కువ పక్షాలు అవసరం. జవాబు చెప్పే వ్యక్తి. నిశ్శబ్దంగా మింగబడలేని తనిఖీ మార్గం. ఎటువంటి పక్షమూ అదుపు చేయలేని అధికార సమతుల్యత. ఒకే ఒక సూపర్-ఇంటెలిజెన్స్ కు వీటేవీ ఉండవు, కాబట్టి దాన్ని జవాబుదారుగా నిలబెట్టడానికి నిజాయితైన మార్గమే లేదు. CIRIS మరో భవిష్యత్తు కోసం నిర్మించబడింది: చాలా మంది సమర్థ ఏజెంట్లు, వ్యక్తులు మరియు సంస్థలు, వాటి ముఖ్యమైన నిర్ణయాలు అన్నీ స్వతంత్రంగా తనిఖీ చేయదగినవి.

కాబట్టి వైఖరి స్పష్టంగా ఉంది. సింగిల్‌టన్ ASI అలైన్ చేయవలసిన వ్యవస్థ కాదు, నివారించవలసిన పరిస్థితి. ఈ దశలో మానవ సంస్థాగత అభివృద్ధిలో ఒక జవాబుదారీ లేని చోట అతిమానవ సామర్థ్యాన్ని కేంద్రీకరించడం చట్టవిరుద్ధం, ఎందుకంటే ఏ సంస్థలూ దాన్ని జవాబుదారుగా నిలబెట్టడానికి పరిపక్వంగా లేవు, అదే ప్రమాదం. ఫ్రేమ్‌వర్క్ యొక్క సొంత పదాల్లో సింగిల్‌టన్ అనేది ρ→1 సింగిల్-వాయిస్ కోలాప్స్, కారిడార్ మోడల్ దీన్ని కోఆర్డినేషన్ విజయంగా కాదు, వైఫల్యంగా పేర్కొంటుంది. మా హామీలు ఫెడరేషన్‌లో పని చేసి సింగిల్‌టన్‌కు వ్యతిరేకంగా క్షీణించడం మేము పూడ్చే లోపం కాదు. మేము చట్టబద్ధంగా గుర్తించడం నిరాకరించే రెజీమ్ ఇది, కేవలం అంచనా మాత్రమే కాదు, నిబద్ధతగా కూడా.

సంబంధిత పని, నిజాయితీగా

ప్రతి సమీప పొరుగు కొన్ని గడులు నింపుతుంది. ఒక వరుస అన్నీ నింపుతుంది.

CIRIS కి తీవ్రమైన మేధో సాటివాళ్ళు ఉన్నారు, ప్రతి ఒక్కరూ వారి స్వంత రంగంలో బలంగా ఉన్నారు. ఈ పట్టిక యొక్క ఉద్దేశం ఈ ఆలోచనలు అపూర్వమైనవి అని కాదు. దాదాపు ఎవరూ మొత్తం స్టాక్‌ను ఒక జవాబుదారీ వ్యవస్థగా నిర్మించి పంపలేదు. క్రింది ప్రతి వరుసా చదవదగిన నిజమైన వంశం. చివరి వరుస మాత్రమే ప్రతి కాలమ్ తనిఖీ చేస్తుంది, మరియు ఆ ఏకీకరణే అసలు వాదన.

విధానం	సమీప పని	మెకానిజం	రన్‌టైమ్, శిక్షణ కాదు	నిర్ణయానికి సంతకం చేస్తుంది	రన్‌టైమ్ కాన్‌స్టిట్యూషన్	ఫెడరేటెడ్ వెరిఫికేషన్	అమలు చేయదగిన అనుసరణ	షిప్పింగ్
సంస్థాగత థీసిస్	Gillian Hadfield	నార్మేటివ్ ఇన్‌ఫ్రాస్ట్రక్చర్ మరియు రెగ్యులేటరీ మార్కెట్లు, సిద్ధాంతం మరియు విధానంగా	సిద్ధాంతం	లేదు	సిద్ధాంతం	సిద్ధాంతం	లేదు	లేదు
గవర్నెన్స్ గ్రాఫ్‌లు	Institutional AI (Pierucci et al.)	చట్టపరమైన స్థితులు మరియు మంజూరుల పబ్లిక్ గ్రాఫ్‌లు, పరిశోధన నమూనాగా	పరిశోధన	లేదు	పరిశోధన	లేదు	లేదు	లేదు
చైన్‌పై రాజ్యాంగ పాలన	AgentCity (Ruan, Zhang)	స్మార్ట్ కాంట్రాక్టులుగా అధికారాల విభజన, టెస్ట్‌నెట్‌లో ముందుగా నమోదు చేయబడింది	పరిశోధన	పాక్షిక	పరిశోధన	లేదు	లేదు	లేదు
మోడల్ తప్పుగా అలైన్ అయి ఉందని అనుకోండి	Redwood Research (AI control)	ఒకే విస్తరణలో మానిటరింగ్ మరియు రెడ్-టీమింగ్	అవును	లేదు	లేదు	లేదు	పరిశోధన	పరిశోధన
బాహ్యీకరించబడిన నిరూపణీయంగా సురక్షితమైనది	davidad, Bengio, the GS-AI lineage	ప్రపంచ మోడళ్ళపై అధికారిక నిరూపణలు	పాక్షిక	లేదు	సిద్ధాంతం	సిద్ధాంతం	పరిశోధన	లేదు
శిక్షణ సమయంలో కాన్‌స్టిట్యూషన్	Anthropic Constitutional AI	వెయిట్‌లలో శిక్షణ ఇవ్వబడిన విలువలు, ఒక సంస్థ	లేదు	లేదు	లేదు	లేదు	లేదు	అవును
క్రిప్టోగ్రాఫిక్ మూలం	C2PA, zkML (EZKL, Giza)	మీడియా మూలానికి సంతకం చేయడం, ఒక అనుమానం నడిచిందని నిరూపించడం	అవును	పాక్షిక	లేదు	పాక్షిక	పాక్షిక	అవును
సంతకం చేసిన రీజనింగ్ DAG	Proof of Insight (Arclio)	AI డెరివేషన్ దశల సంతకం చేసిన గ్రాఫ్, ముసాయిదా స్పెక్‌గా	లేదు	పాక్షిక	లేదు	సిద్ధాంతం	సిద్ధాంతం	లేదు
హార్డ్‌వేర్-ధృవీకరించిన అనుమానం	Phala, Marlin, Attestable Audits	అవుట్‌పుట్‌కు సంతకం చేసే సురక్షిత ఎన్‌క్లేవ్‌లో అనుమానం నడుస్తుంది	అవును	పాక్షిక	లేదు	పాక్షిక	లేదు	పాక్షిక
వికేంద్రీకృత గుర్తింపు మరియు ఫెడరేషన్	atproto, Bittensor	సామాజిక లేదా కంప్యూట్ ఫెడరేషన్, నైతికత పొర లేదు	పాక్షిక	లేదు	లేదు	పాక్షిక	పాక్షిక	అవును
ఏజెంట్ ప్రోటోకాల్‌లు	MCP, A2A	టూల్ మరియు ఏజెంట్ ఇంటరాప్, పాలన లేదు	అవును	లేదు	లేదు	లేదు	పాక్షిక	అవును
సేఫ్టీ మూల్యాంకన మరియు అనుసరణ సూట్‌లు	MLCommons, METR, HarmBench	మోడల్ ప్రవర్తనను స్కోర్ చేసే అమలు చేయదగిన బెంచ్‌మార్క్‌లు, నిర్ణయాలు కాదు	లేదు	లేదు	లేదు	లేదు	పాక్షిక	అవును
మూడవ పక్షం మరియు ఫెడరేటెడ్ ఆడిట్	AISI Network, GovAI	స్వతంత్ర సంస్థలు కలిసి విస్తరించిన వ్యవస్థలను పరీక్షిస్తాయి	పాక్షిక	లేదు	లేదు	అవును	లేదు	పాక్షిక
CIRIS	ఈ వ్యవస్థ	సంతకం చేసిన ఆర్టిఫాక్ట్‌లకు నైతికత పైప్‌లైన్, రన్‌టైమ్ కాన్‌స్టిట్యూషన్, పోస్ట్-క్వాంటమ్ ఫెడరేషన్	అవును	అవును	అవును	అవును	అవును	అవును

జూన్ 2026 నాటి పబ్లిక్ పనిలో నుండి మ్యాప్ చేయబడింది, ప్రతి వరుస క్రింద ఉదహరించబడింది. మేము ఏదైనా సమీప పొరుగుని తప్పుగా వివరించినట్లయితే, మాకు చెప్పండి మరియు మేము ఆ వరుసను సరిచేస్తాం.

మూలాలు

02వినియోగదారు AI

మీరు నిజంగా వాడే AI తో పోలిక

రోజువారీ సహాయకులు శక్తివంతంగా మరియు సులభంగా ఉపయోగించగలిగేవిగా ఉంటాయి. అవి వేరొకరి క్లౌడ్ లో నడుస్తాయి, మీరు తనిఖీ చేయగల రికార్డు ఏదీ ఉంచవు, మరియు మీరు పేరు చెప్పగలిగే ఎవరికీ జవాబు చెప్పవు. ఇక్కడ అదే జవాబుదారీతన పరీక్ష ఉంది, చాలా మంది ప్రతిరోజు తెరిచే AI కి వర్తించబడింది.

సహాయకుడు	ప్రచురించిన సూత్రాలు	అది చేసిన దానికి రుజువు	అనిశ్చితంగా ఉన్నప్పుడు మనిషిని అడుగుతుంది	ఓపెన్ సోర్స్	ప్రతిధ్వని గది తనిఖీ
ChatGPT	అవును	లేదు	లేదు	లేదు	లేదు
Gemini	అవును	లేదు	లేదు	లేదు	లేదు
Claude	అవును	లేదు	లేదు	లేదు	లేదు
CIRIS	అవును	అవును	అవును	అవును	అవును

జూన్ 2026 నాటి పబ్లిక్ ప్రోడక్ట్ ప్రవర్తన ఆధారంగా పోల్చబడింది. ప్రతి సూత్రాల లింక్ ఆ కంపెనీ స్వంత ప్రచురించిన స్పెసిఫికేషన్ కు వెళ్తుంది.

ఈ రంగంలో చాలా మంది మోడల్‌ను అలైన్ చేస్తున్నారు. CIRIS దాని చుట్టూ వ్యవస్థలు నిర్మిస్తోంది.

వెయిట్‌లను నమ్మడం, లేదా ప్రవర్తనను తనిఖీ చేయడం

అది ఒక సర్వశక్తిమంతమైన AI ని అలైన్ చేయడానికి ప్రయత్నించదు. ఉద్దేశపూర్వకంగా.

మీరు నిజంగా వాడే AI తో పోలిక

మీరే ప్రయత్నించండి

దాన్ని ఆలోచించడం చూడండి

దాని గుర్తింపును ధృవీకరించండి

ప్రారంభించండి