
ถ้าคุณตรวจสอบความรับผิดชอบไม่ได้ มันก็แค่การตลาด นี่คือสิ่งที่ควรมองหา และเปรียบเทียบแต่ละแนวทางกันอย่างไร
มโนธรรมจำเป็น แต่ยังไม่พอ
AI บางตัวไม่มีกฎเลย บางตัวทำตามกฎแต่บอกไม่ได้ว่าแหล่งข้อมูลแค่สะท้อนกันเองหรือเปล่า มีเพียงประเภทเดียวที่ตรวจสอบว่าข้อมูลมาจากที่ต่างกันจริงหรือไม่
ไม่มีหลักการเผยแพร่สู่สาธารณะ ไม่มีบันทึกการตรวจสอบ ปิดซอร์สโค้ด คุณไม่สามารถตรวจสอบได้ว่ามันทำอะไรหรือทำไม
AI สำหรับผู้บริโภคส่วนใหญ่ (ChatGPT, Gemini) อยู่ตรงนี้ในแง่ความรับผิดชอบต่อสาธารณะ อาจมีแนวปฏิบัติภายในที่ดี แต่คุณตรวจสอบไม่ได้
ต้องการกฎระเบียบจากภายนอก ไม่สามารถควบคุมตัวเองได้
ทำตามกฎจริยธรรม แต่บอกไม่ได้ว่าแหล่งข้อมูลทั้งหมดแค่คัดลอกกันเองหรือเปล่า ทำให้มั่นใจผิดได้
ปลอดภัยเมื่อมีผู้ดูแล ตรวจจับห้องเสียงสะท้อนเองไม่ได้
ทำตามกฎจริยธรรม และตรวจสอบว่าข้อมูลมาจากแหล่งต่างกันจริงหรือไม่ เมื่อการเห็นด้วยดูน่าสงสัย จะแจ้งเตือนก่อนดำเนินการ
นี่คือสิ่งที่ CIRIS สร้าง
AI อาจทำตามกฎทุกข้อ ผ่านการตรวจสอบทุกครั้ง แต่ยังล้มเหลวได้ถ้าข้อมูลทั้งหมดมาจากที่เดียวกัน จุดบอดนั้นคือสิ่งที่ CIRIS ถูกสร้างมาเพื่อแก้ไข
นี่คือสิ่งที่ทำให้ AI ตรวจสอบและรับผิดชอบได้ หกข้อแรกเกี่ยวกับการทำสิ่งที่ถูกต้อง ข้อเจ็ดเกี่ยวกับการจับกรณีที่ 'การทำสิ่งที่ถูกต้อง' นั้นอิงข้อมูลที่ผิดพลาด
เอเจนต์ต้องทำตามกรอบจริยธรรมสาธารณะ ไม่ใช่กฎลับ แต่เป็นเอกสารที่ใครก็อ่านได้และเรียกร้องให้รับผิดชอบได้
ทุกการกระทำผ่านการตรวจสอบมโนธรรมก่อนที่เอเจนต์จะดำเนินการ ไม่ใช่หลังจากนั้น แต่ก่อน
เมื่อไม่แน่ใจหรือเผชิญอันตรายที่อาจเกิดขึ้น เอเจนต์จะถามบุคคลแทนที่จะเดาเอง ฝังอยู่ในกระบวนการ ไม่ใช่ตัวเลือก
ทุกการตัดสินใจถูกบันทึกและลงนามเพื่อให้คุณยืนยันได้ว่าเกิดอะไรขึ้นและทำไม ใบเสร็จสำหรับทุกการกระทำ
ความยินยอมเป็นสองทาง คุณพูดว่าไม่กับเอเจนต์ได้ เอเจนต์พูดว่าไม่กับคุณได้ ไม่มีฝ่ายใดถูกบังคับให้ยอมแพ้
คุณตรวจสอบสิ่งที่มองไม่เห็นไม่ได้ CIRIS โอเพนซอร์สเต็มรูปแบบภายใต้ AGPL-3.0 ใครก็อ่าน ยืนยัน และปรับปรุงโค้ดได้
สิ่งที่กฎอย่างเดียวจับไม่ได้
ก่อนดำเนินการ เอเจนต์ถามว่า "แหล่งข้อมูลของฉันขัดแย้งกันจริงหรือเปล่า หรือทุกแหล่งได้ข้อมูลมาจากที่เดียวกัน?" แหล่งข้อมูลสิบแหล่งที่คัดลอกจากต้นฉบับเดียวกันก็คือแหล่งเดียวจริงๆ เมื่อการเห็นด้วยดูสม่ำเสมอเกินไป เอเจนต์จะแจ้งให้บุคคลตรวจสอบ
ขัดแย้งมากเกินไป
แหล่งข้อมูลขัดแย้งกันมากจนสรุปอะไรที่มีประโยชน์ไม่ได้
สมดุล
แหล่งข้อมูลต่างกันจริง การเห็นด้วยจึงมีความหมาย
ห้องเสียงสะท้อน
ดูเหมือนเห็นด้วย แต่แหล่งข้อมูลแค่ทวนกันเอง
นี่คือสิ่งที่ทำให้ CIRIS แตกต่างจากกรอบความรับผิดชอบ AI อื่นๆ
ต้องการสูตรคณิตศาสตร์? อ่านวิทยานิพนธ์ฉบับเต็ม →อิงตามเอกสารสาธารณะที่มีอยู่ ณ เดือนกุมภาพันธ์ 2026 หากเราพลาดอะไรหรือข้อมูลผิดพลาด แจ้งให้เราทราบ
| โครงการ | ตรวจสอบทุกการตัดสินใจ | กฎที่เผยแพร่แล้ว | มโนธรรมในตัว | หลักฐานสิ่งที่ทำ | โอเพนซอร์ส | ตรวจจับห้องเสียงสะท้อน |
|---|---|---|---|---|---|---|
| CIRIS | ใช่ | ใช่ | ใช่ | ใช่ | AGPL-3.0 | ใช่ |
| Constitutional AI | เฉพาะช่วงฝึก | โดยนัย | ไม่ | ไม่ | ไม่ | ไม่ |
| LlamaFirewall / NeMo Guardrails | ใช่ | ไม่ | ไม่ | บันทึก log | ใช่ | ไม่ |
| HatCat | ใช่ | บางส่วน | การนำทาง | บางส่วน | CC0 | ไม่ |
| คณะกรรมการจริยธรรม / กรอบธรรมาภิบาล | ไม่ | ใช่ | ไม่ | ด้วยมือ | แตกต่างกันไป | ไม่ |
ตัวกรองผลลัพธ์และกรอบธรรมาภิบาลแก้ปัญหาที่สำคัญแต่ต่างกัน ตัวกรองบล็อกผลลัพธ์ที่เป็นอันตราย มโนธรรมใช้เหตุผลเกี่ยวกับคุณค่า CIRIS มุ่งทำทั้งสองอย่างและจับจุดบอดที่ไม่มีฝ่ายใดแก้ได้คนเดียว
บล็อกผลลัพธ์ที่อันตราย เช่น การโจมตี prompt injection เนื้อหาที่เป็นอันตราย การโจมตีแบบ adversarial เหมือนตัวกรองที่ดักสิ่งไม่ดีขณะออก
ใช้เหตุผลว่าการกระทำถูกต้องหรือไม่ ไม่ใช่แค่ว่าปลอดภัยหรือเปล่า เหมือนผู้พิพากษาที่ชั่งน้ำหนักสถานการณ์ก่อนตัดสิน
ตรวจสอบว่าการเห็นด้วยนั้นจริงหรือแค่การทวนซ้ำ เหมือนนักตรวจสอบข้อเท็จจริงที่ถามว่า "ทุกคนอ่านบทความเดียวกันหรือเปล่า?"
เอเจนต์ขนาดเล็กหลายตัว แต่ละตัวผูกพันกับหลักการที่เผยแพร่แล้ว ตรวจสอบได้ทุกตัว และส่งต่อให้อำนาจมนุษย์ ไม่มีบริษัทหรือหน่วยงานใดควบคุมทั้งสแต็ก ยิ่งเอเจนต์เป็นอิสระมากเท่าไร โอกาสที่ความล้มเหลวหนึ่งจะลุกลามก็ยิ่งน้อยลง
นี่คืองานวิจัยที่กำลังดำเนินอยู่ เราพูดตรงๆ เกี่ยวกับสิ่งที่ยืนยันแล้วและสิ่งที่ยังทดสอบอยู่
ยืนยันได้ดี
ยังทดสอบอยู่
ทุกข้ออ้างในหน้านี้มีโค้ดที่คุณอ่านได้ trace ที่คุณยืนยันได้ และงานวิจัยที่คุณตรวจสอบได้รองรับ นั่นคือจุดประสงค์