మొదటి సంప్రదింపుఇన్‌స్టాల్సంఘటన రాచెట్ఫెడరేషన్పోల్చండిపరిశోధనఒప్పందంGitHub
ఈ పేజీని యంత్రం అనువదించింది. ఏదైనా తప్పుగా చదివితే, దయచేసి ఒక సమస్య తెరవండి — రెపో ఒక కారణంతో బహిరంగంగా ఉంది. అనువాద సమస్యను నివేదించండి
Background Image
నేడు ఉత్పత్తిలో అత్యంత సురక్షితమైన మరియు నైతికమైన AI

జవాబుదారీతనం లేకుండా, AI ఇచ్చే దాని కంటే ఎక్కువ తీసుకుంటుంది.

జవాబుదారీతనాన్ని తనిఖీ చేయలేకపోతే, అది మార్కెటింగ్ మాత్రమే. ఏమి వెతకాలో, మరియు ఇప్పటి పద్ధతులు ఎలా పోలిస్తాయో ఇక్కడ ఉంది.

మూడు రకాల AI

మనస్సాక్షి అవసరం. కానీ అది సరిపోదు.

కొంత AI కి అసలు నియమాలే లేవు. కొంత నియమాలు పాటిస్తుంది కానీ దాని మూలాధారాలు ఒకదాన్నొకటి అనుకరిస్తున్నాయని గుర్తించలేవు. ఒక్క రకం మాత్రమే దాని సమాచారం నిజంగా వేర్వేరు చోట్ల నుండి వచ్చిందా అని తనిఖీ చేస్తుంది.

1

నియమాలు లేవు

ప్రచురించిన సూత్రాలు లేవు. ఆడిట్ ట్రెయిల్ లేదు. సోర్స్ కోడ్ బంధించబడింది. ఇది ఏమి చేసిందో, ఎందుకు చేసిందో తనిఖీ చేయలేరు.

చాలా వినియోగదారు AI అసిస్టెంట్లు (ChatGPT, Gemini) పబ్లిక్ జవాబుదారీతనం దృష్టికోణం నుండి ఇక్కడే ఉంటాయి. బలమైన అంతర్గత పద్ధతులు ఉండవచ్చు; మీరు వాటిని ధృవీకరించలేరు.

బాహ్య నియంత్రణ అవసరం. స్వయంగా పాలించుకోలేదు.

2

నియమాలు ఉన్నాయి, అవగాహన లేదు

నైతిక నియమాలు పాటిస్తుంది. కానీ దాని మూలాలన్నీ ఒకదాన్నొకటి నకలు చేస్తున్నాయని గుర్తించలేదు, కాబట్టి నమ్మకంగా తప్పు చేయవచ్చు.

పర్యవేక్షణలో సురక్షితం. స్వయంగా ఎకో చాంబర్లను గుర్తించలేదు.

3

నియమాలు + అవగాహన

నైతిక నియమాలు పాటిస్తుంది మరియు దాని సమాచారం నిజంగా వేర్వేరు చోట్ల నుండి వస్తుందా అని తనిఖీ చేస్తుంది. ఒప్పందం అనుమానాస్పదంగా కనిపించినప్పుడు, చర్య తీసుకోవడానికి ముందు దాన్ని గుర్తిస్తుంది.

CIRIS నిర్మించేది ఇదే.

ఒక AI ప్రతి నియమాన్ని పాటించవచ్చు, ప్రతి ఆడిట్ పాస్ చేయవచ్చు, అయినా దాని సమాచారమంతా ఒకే చోట నుండి వస్తే విఫలమవుతుంది. ఆ అంధ బిందువును పరిష్కరించడానికే CIRIS నిర్మించబడింది.

తనిఖీ చేయవలసిన ఏడు విషయాలు

నైతికతకు ఆరు. అంధ బిందువులకు ఒకటి.

AI ని ఆడిట్ చేయగలిగేలా మరియు జవాబుదారీగా చేసే విషయాలు ఇవి. మొదటి ఆరు సరైన పని చేయడం గురించి. ఏడవది 'సరైన పని చేయడం' తప్పుడు సమాచారంపై ఆధారపడిన పరిస్థితులను గుర్తించడం గురించి.

1. ప్రచురించిన సూత్రాలు

ఏజెంట్ ఒక పబ్లిక్ నైతిక చట్రాన్ని అనుసరించాలి. దాచిన నియమాలు కాదు: ఎవరైనా చదివి జవాబుదారీ పట్టగలిగే ఒక పత్రం.

2. ప్రతి నిర్ణయంపై మనస్సాక్షి తనిఖీ

ఏజెంట్ దాన్ని చేయడానికి ముందు ప్రతి చర్య మనస్సాక్షి తనిఖీ గుండా వెళుతుంది. తర్వాత కాదు. ముందే.

3. సందేహంగా ఉన్నప్పుడు మనుషులను అడుగుతుంది

అనిశ్చితంగా ఉన్నప్పుడు లేదా హాని కలిగించే అవకాశం ఉన్నప్పుడు, ఏజెంట్ అంచనా వేయడం కాకుండా ఒక వ్యక్తిని అడుగుతుంది. వర్క్‌ఫ్లోలో నిర్మించబడింది, ఐచ్ఛికం కాదు.

4. ఇది ఏమి చేసిందో రుజువు

ప్రతి నిర్ణయం రికార్డ్ చేయబడి, సంతకం చేయబడుతుంది, తద్వారా ఏమి జరిగిందో, ఎందుకు జరిగిందో ఖచ్చితంగా ధృవీకరించవచ్చు. ప్రతి చర్యకు రసీదు.

5. రెండు వైపుల అంగీకారం

అంగీకారం రెండు వైపులా వెళుతుంది. మీరు ఏజెంట్‌కి నో చెప్పవచ్చు. ఏజెంట్ మీకు నో చెప్పవచ్చు. ఏ వైపూ రాజీ పడేందుకు బలవంతం చేయబడదు.

6. ఓపెన్ సోర్స్

చూడలేనిదాన్ని ఆడిట్ చేయలేరు. CIRIS AGPL-3.0 కింద పూర్తిగా ఓపెన్ సోర్స్. ఎవరైనా కోడ్ చదవగలరు, ధృవీకరించగలరు, మెరుగుపరచగలరు.

7

ఎకో చాంబర్ గుర్తింపు

నియమాలు మాత్రమే పట్టుకోలేనిది.

చర్య తీసుకోవడానికి ముందు, ఏజెంట్ అడుగుతుంది: "నా మూలాధారాలు నిజంగా ఒకదానితో ఒకటి విభేదిస్తున్నాయా, లేదా అవన్నీ ఒకే చోట నుండి సమాచారం తీసుకుంటున్నాయా?" ఒకే మూలం నుండి నకలు చేసిన పది మూలాధారాలు నిజానికి ఒక్కటే. ఒప్పందం చాలా ఏకరీతిగా కనిపించినప్పుడు, ఏజెంట్ ఒక వ్యక్తి సమీక్షించేందుకు దాన్ని గుర్తిస్తుంది.

చాలా అల్లరిగా ఉంది

మూలాధారాలు ఒకదానికొకటి చాలా విభేదిస్తున్నాయి, ఏమీ ఉపయోగకరమైన నిర్ణయానికి రాలేరు.

ఆరోగ్యకరం

మూలాధారాలు నిజంగా భిన్నంగా ఉన్నాయి. నిజమైన ఒప్పందం అర్థవంతంగా ఉంది.

ఎకో చాంబర్

ఒప్పదంలా కనిపిస్తుంది, కానీ మూలాధారాలు ఒకదాన్నొకటి పునరావృతం చేస్తున్నాయి.

CIRIS ని ఇతర AI జవాబుదారీతన చట్రాల నుండి వేరు చేసేది ఇదే.

గణితం కావాలా? పూర్తి థీసిస్ చదవండి →

ప్రస్తుత పరిస్థితి

వేర్వేరు ప్రాజెక్టులు, వేర్వేరు లక్ష్యాలు.

ఫిబ్రవరి 2026 నాటి పబ్లిక్‌గా అందుబాటులో ఉన్న పత్రికల ఆధారంగా. మేము ఏదైనా మిస్ చేసినా లేదా తప్పు చేసినా, మాకు తెలియజేయండి.

ప్రాజెక్టుప్రతి నిర్ణయాన్ని తనిఖీ చేస్తుందిప్రచురించిన నియమాలుమనస్సాక్షి నిర్మించబడిందిఇది ఏమి చేసిందో రుజువుఓపెన్ సోర్స్ఎకో చాంబర్ గుర్తింపు
CIRISఅవునుఅవునుఅవునుఅవునుAGPL-3.0అవును
Constitutional AIశిక్షణ మాత్రమేఅంతర్భావంగాలేదులేదులేదులేదు
LlamaFirewall / NeMo Guardrailsఅవునులేదులేదులాగింగ్అవునులేదు
HatCatఅవునుపాక్షికంగాస్టీరింగ్పాక్షికంగాCC0లేదు
నైతిక బోర్డులు / పాలన చట్రాలులేదుఅవునులేదుమాన్యువల్మారుతూ ఉంటుందిలేదు

అవుట్‌పుట్ ఫిల్టర్లు మరియు పాలన చట్రాలు ముఖ్యమైన కానీ వేర్వేరు సమస్యలను పరిష్కరిస్తాయి. ఫిల్టర్లు హానికరమైన అవుట్‌పుట్లను నిరోధిస్తాయి. మనస్సాక్షి విలువల గురించి తర్కిస్తుంది. CIRIS రెండూ చేయాలని, మరియు ఏదీ ఒంటరిగా పరిష్కరించని అంధ బిందువులను గుర్తించాలని లక్ష్యంగా పెట్టుకుంది.

మూడు రక్షణ పొరలు

ప్రతి ఒక్కటి వేర్వేరు సమస్యను పరిష్కరిస్తుంది.

అవుట్‌పుట్ ఫిల్టర్లు

ప్రమాదకరమైన అవుట్‌పుట్లను నిరోధించండి: ప్రాంప్ట్ ఇంజెక్షన్, హానికరమైన కంటెంట్, అడ్వర్సేరియల్ దాడులు. బయటకు వెళ్ళే దారిలో చెడు విషయాలను పట్టుకునే ఫిల్టర్ లాంటిది.

నైతిక మనస్సాక్షి

ఒక చర్య సురక్షితమేనా అని కాకుండా, అది సరైనదా అని తర్కిస్తుంది. నిర్ణయం తీసుకోవడానికి ముందు పరిస్థితిని తూచే న్యాయాధీశుడిలాంటిది.

ఎకో చాంబర్ గుర్తింపు

ఒప్పందం నిజమైనదా లేదా కేవలం పునరావృతమా అని తనిఖీ చేస్తుంది. "మీరందరూ ఒకే వ్యాసం చదివారా?" అని అడిగే ఫాక్ట్-చెకర్ లాంటిది.

అనేక సంఘటన ఏజెంట్లు

పంపిణీ పాలన, కేంద్రీకృత అధికారం కాదు.

ఒకే వైఫల్య బిందువు లేదు

చిన్న ఏజెంట్లు, ప్రతి ఒక్కరూ జవాబుదారీగా.

అనేక చిన్న ఏజెంట్లు, ప్రతి ఒక్కరూ ప్రచురించిన సూత్రాలకు కట్టుబడి, ప్రతి ఒక్కరూ ఆడిట్ చేయదగినవి, ప్రతి ఒక్కరూ మానవ అధికారానికి అప్పగిస్తున్నారు. ఒక్క కంపెనీ లేదా సంస్థ మొత్తం స్టాక్‌ను నియంత్రించదు. ఏజెంట్లు ఎంత స్వతంత్రంగా ఉంటే, ఏదైనా ఒక వైఫల్యం విస్తరించడం అంత కష్టమవుతుంది.

పరిశోధన స్థితి

ఇది చురుకైన పరిశోధన. నిర్ధారించబడినది మరియు ఇంకా పరీక్షిస్తున్నది ఏమిటో మేము స్పష్టంగా చెప్తాం.

బాగా నిర్ధారించబడింది

  • - నకలు చేయబడిన మూలాధారాలు నిజమైన వైవిధ్యాన్ని తగ్గిస్తాయి
  • - AI మోడళ్లు శిక్షణ డేటా అతివ్యాప్తిని పంచుకుంటాయి
  • - ఎకో చాంబర్లు తప్పుడు విశ్వాసాన్ని సృష్టిస్తాయి
  • - స్వతంత్ర ధృవీకరణ ఎక్కువ లోపాలను పట్టుకుంటుంది

ఇంకా పరీక్షిస్తున్నారు

  • - AI మూలాధారాలు ఎంత నకలు చేయబడ్డాయో ఖచ్చితంగా కొలవడం
  • - ఎకో చాంబర్లను గుర్తించడానికి ఉత్తమ ప్రమాణాలు
  • - జోక్యాలు నకలు చేయడాన్ని ఎంతవరకు తగ్గిస్తాయి
  • - వేర్వేరు రంగాలలో ఇది ఎలా మారుతుందో

మీరే ప్రయత్నించండి

మీరే ధృవీకరించండి.

ఓపెన్ సోర్స్. పరిశీలనకు తెరిచి ఉంది.

ఈ పేజీలోని ప్రతి వాదన మీరు చదవగలిగిన కోడ్, ధృవీకరించగలిగిన ట్రేసులు, మరియు తనిఖీ చేయగలిగిన పరిశోధన ద్వారా మద్దతు పొందింది. అదే ముఖ్యమైన విషయం.