การติดต่อครั้งแรกติดตั้งฟันเฟืองความสอดคล้องสหพันธ์เปรียบเทียบการวิจัยข้อตกลงGitHub
หน้านี้แปลโดยเครื่อง หากอ่านแล้วไม่ถูกต้อง กรุณาเปิดประเด็น — รีโปเป็นสาธารณะด้วยเหตุผลนั้น รายงานปัญหาการแปล
Background Image
AI ที่ปลอดภัยและมีจริยธรรมมากที่สุดที่ใช้งานจริงในปัจจุบัน

ถ้าไม่มีความรับผิดชอบ AI มักจะนำออกมากกว่าที่ให้

ถ้าคุณตรวจสอบความรับผิดชอบไม่ได้ มันก็แค่การตลาด นี่คือสิ่งที่ควรมองหา และเปรียบเทียบแต่ละแนวทางกันอย่างไร

AI สามประเภท

มโนธรรมจำเป็น แต่ยังไม่พอ

AI บางตัวไม่มีกฎเลย บางตัวทำตามกฎแต่บอกไม่ได้ว่าแหล่งข้อมูลแค่สะท้อนกันเองหรือเปล่า มีเพียงประเภทเดียวที่ตรวจสอบว่าข้อมูลมาจากที่ต่างกันจริงหรือไม่

1

ไม่มีกฎ

ไม่มีหลักการเผยแพร่สู่สาธารณะ ไม่มีบันทึกการตรวจสอบ ปิดซอร์สโค้ด คุณไม่สามารถตรวจสอบได้ว่ามันทำอะไรหรือทำไม

AI สำหรับผู้บริโภคส่วนใหญ่ (ChatGPT, Gemini) อยู่ตรงนี้ในแง่ความรับผิดชอบต่อสาธารณะ อาจมีแนวปฏิบัติภายในที่ดี แต่คุณตรวจสอบไม่ได้

ต้องการกฎระเบียบจากภายนอก ไม่สามารถควบคุมตัวเองได้

2

มีกฎ แต่ไม่รู้ตัว

ทำตามกฎจริยธรรม แต่บอกไม่ได้ว่าแหล่งข้อมูลทั้งหมดแค่คัดลอกกันเองหรือเปล่า ทำให้มั่นใจผิดได้

ปลอดภัยเมื่อมีผู้ดูแล ตรวจจับห้องเสียงสะท้อนเองไม่ได้

3

มีกฎ + มีสติรู้ตัว

ทำตามกฎจริยธรรม และตรวจสอบว่าข้อมูลมาจากแหล่งต่างกันจริงหรือไม่ เมื่อการเห็นด้วยดูน่าสงสัย จะแจ้งเตือนก่อนดำเนินการ

นี่คือสิ่งที่ CIRIS สร้าง

AI อาจทำตามกฎทุกข้อ ผ่านการตรวจสอบทุกครั้ง แต่ยังล้มเหลวได้ถ้าข้อมูลทั้งหมดมาจากที่เดียวกัน จุดบอดนั้นคือสิ่งที่ CIRIS ถูกสร้างมาเพื่อแก้ไข

เจ็ดสิ่งที่ต้องตรวจสอบ

หกด้านจริยธรรม หนึ่งด้านจุดบอด

นี่คือสิ่งที่ทำให้ AI ตรวจสอบและรับผิดชอบได้ หกข้อแรกเกี่ยวกับการทำสิ่งที่ถูกต้อง ข้อเจ็ดเกี่ยวกับการจับกรณีที่ 'การทำสิ่งที่ถูกต้อง' นั้นอิงข้อมูลที่ผิดพลาด

1. หลักการที่เผยแพร่แล้ว

เอเจนต์ต้องทำตามกรอบจริยธรรมสาธารณะ ไม่ใช่กฎลับ แต่เป็นเอกสารที่ใครก็อ่านได้และเรียกร้องให้รับผิดชอบได้

2. ตรวจสอบมโนธรรมในทุกการตัดสินใจ

ทุกการกระทำผ่านการตรวจสอบมโนธรรมก่อนที่เอเจนต์จะดำเนินการ ไม่ใช่หลังจากนั้น แต่ก่อน

3. ถามมนุษย์เมื่อไม่แน่ใจ

เมื่อไม่แน่ใจหรือเผชิญอันตรายที่อาจเกิดขึ้น เอเจนต์จะถามบุคคลแทนที่จะเดาเอง ฝังอยู่ในกระบวนการ ไม่ใช่ตัวเลือก

4. หลักฐานสิ่งที่มันทำ

ทุกการตัดสินใจถูกบันทึกและลงนามเพื่อให้คุณยืนยันได้ว่าเกิดอะไรขึ้นและทำไม ใบเสร็จสำหรับทุกการกระทำ

5. ความยินยอมสองทาง

ความยินยอมเป็นสองทาง คุณพูดว่าไม่กับเอเจนต์ได้ เอเจนต์พูดว่าไม่กับคุณได้ ไม่มีฝ่ายใดถูกบังคับให้ยอมแพ้

6. โอเพนซอร์ส

คุณตรวจสอบสิ่งที่มองไม่เห็นไม่ได้ CIRIS โอเพนซอร์สเต็มรูปแบบภายใต้ AGPL-3.0 ใครก็อ่าน ยืนยัน และปรับปรุงโค้ดได้

7

การตรวจจับห้องเสียงสะท้อน

สิ่งที่กฎอย่างเดียวจับไม่ได้

ก่อนดำเนินการ เอเจนต์ถามว่า "แหล่งข้อมูลของฉันขัดแย้งกันจริงหรือเปล่า หรือทุกแหล่งได้ข้อมูลมาจากที่เดียวกัน?" แหล่งข้อมูลสิบแหล่งที่คัดลอกจากต้นฉบับเดียวกันก็คือแหล่งเดียวจริงๆ เมื่อการเห็นด้วยดูสม่ำเสมอเกินไป เอเจนต์จะแจ้งให้บุคคลตรวจสอบ

ขัดแย้งมากเกินไป

แหล่งข้อมูลขัดแย้งกันมากจนสรุปอะไรที่มีประโยชน์ไม่ได้

สมดุล

แหล่งข้อมูลต่างกันจริง การเห็นด้วยจึงมีความหมาย

ห้องเสียงสะท้อน

ดูเหมือนเห็นด้วย แต่แหล่งข้อมูลแค่ทวนกันเอง

นี่คือสิ่งที่ทำให้ CIRIS แตกต่างจากกรอบความรับผิดชอบ AI อื่นๆ

ต้องการสูตรคณิตศาสตร์? อ่านวิทยานิพนธ์ฉบับเต็ม →

ภาพรวมปัจจุบัน

โครงการต่างกัน เป้าหมายต่างกัน

อิงตามเอกสารสาธารณะที่มีอยู่ ณ เดือนกุมภาพันธ์ 2026 หากเราพลาดอะไรหรือข้อมูลผิดพลาด แจ้งให้เราทราบ

โครงการตรวจสอบทุกการตัดสินใจกฎที่เผยแพร่แล้วมโนธรรมในตัวหลักฐานสิ่งที่ทำโอเพนซอร์สตรวจจับห้องเสียงสะท้อน
CIRISใช่ใช่ใช่ใช่AGPL-3.0ใช่
Constitutional AIเฉพาะช่วงฝึกโดยนัยไม่ไม่ไม่ไม่
LlamaFirewall / NeMo Guardrailsใช่ไม่ไม่บันทึก logใช่ไม่
HatCatใช่บางส่วนการนำทางบางส่วนCC0ไม่
คณะกรรมการจริยธรรม / กรอบธรรมาภิบาลไม่ใช่ไม่ด้วยมือแตกต่างกันไปไม่

ตัวกรองผลลัพธ์และกรอบธรรมาภิบาลแก้ปัญหาที่สำคัญแต่ต่างกัน ตัวกรองบล็อกผลลัพธ์ที่เป็นอันตราย มโนธรรมใช้เหตุผลเกี่ยวกับคุณค่า CIRIS มุ่งทำทั้งสองอย่างและจับจุดบอดที่ไม่มีฝ่ายใดแก้ได้คนเดียว

การป้องกันสามชั้น

แต่ละชั้นแก้ปัญหาต่างกัน

ตัวกรองผลลัพธ์

บล็อกผลลัพธ์ที่อันตราย เช่น การโจมตี prompt injection เนื้อหาที่เป็นอันตราย การโจมตีแบบ adversarial เหมือนตัวกรองที่ดักสิ่งไม่ดีขณะออก

มโนธรรมจริยธรรม

ใช้เหตุผลว่าการกระทำถูกต้องหรือไม่ ไม่ใช่แค่ว่าปลอดภัยหรือเปล่า เหมือนผู้พิพากษาที่ชั่งน้ำหนักสถานการณ์ก่อนตัดสิน

การตรวจจับห้องเสียงสะท้อน

ตรวจสอบว่าการเห็นด้วยนั้นจริงหรือแค่การทวนซ้ำ เหมือนนักตรวจสอบข้อเท็จจริงที่ถามว่า "ทุกคนอ่านบทความเดียวกันหรือเปล่า?"

เอเจนต์หลายตัวที่สอดคล้องกัน

ธรรมาภิบาลแบบกระจาย ไม่รวมศูนย์อำนาจ

ไม่มีจุดล้มเหลวเพียงจุดเดียว

เอเจนต์ขนาดเล็กหลายตัว แต่ละตัวรับผิดชอบได้

เอเจนต์ขนาดเล็กหลายตัว แต่ละตัวผูกพันกับหลักการที่เผยแพร่แล้ว ตรวจสอบได้ทุกตัว และส่งต่อให้อำนาจมนุษย์ ไม่มีบริษัทหรือหน่วยงานใดควบคุมทั้งสแต็ก ยิ่งเอเจนต์เป็นอิสระมากเท่าไร โอกาสที่ความล้มเหลวหนึ่งจะลุกลามก็ยิ่งน้อยลง

สถานะงานวิจัย

นี่คืองานวิจัยที่กำลังดำเนินอยู่ เราพูดตรงๆ เกี่ยวกับสิ่งที่ยืนยันแล้วและสิ่งที่ยังทดสอบอยู่

ยืนยันได้ดี

  • - แหล่งที่คัดลอกกันลดความหลากหลายที่แท้จริง
  • - โมเดล AI มีข้อมูลฝึกที่ทับซ้อนกัน
  • - ห้องเสียงสะท้อนสร้างความมั่นใจที่ผิดพลาด
  • - การยืนยันโดยอิสระจับข้อผิดพลาดได้มากกว่า

ยังทดสอบอยู่

  • - วัดได้แม่นยำแค่ไหนว่าแหล่ง AI คัดลอกกันมากแค่ไหน
  • - เกณฑ์ที่ดีที่สุดสำหรับการแจ้งเตือนห้องเสียงสะท้อน
  • - มาตรการแก้ไขลดการคัดลอกได้ดีแค่ไหน
  • - สิ่งนี้แตกต่างกันอย่างไรในแต่ละสาขา

ลองด้วยตัวเอง

ยืนยันด้วยตัวเอง

โอเพนซอร์ส พร้อมให้ตรวจสอบ

ทุกข้ออ้างในหน้านี้มีโค้ดที่คุณอ่านได้ trace ที่คุณยืนยันได้ และงานวิจัยที่คุณตรวจสอบได้รองรับ นั่นคือจุดประสงค์