ไว้ใจน้ำหนัก หรือตรวจสอบพฤติกรรม

แนวทางหลักของความปลอดภัย AI พยายามทำให้โมเดลดีจากภายใน: ฝึกค่านิยม ศึกษาความคิด และให้โมเดลถกเถียงกับตัวเอง งานนั้นมีความสำคัญ CIRIS เดิมพันกับเส้นทางอื่น สมมติว่าโมเดลที่มีความสามารถอาจไม่ได้รับการปรับแนวอย่างถูกต้อง และแทนที่จะไว้ใจความคิดของมัน ให้ทำให้การกระทำที่สำคัญของมันต้องรับผิดชอบต่อผู้คนและระบบอื่น ๆ ที่สามารถตรวจสอบได้

ในแง่ของสาขานี้ CIRIS อยู่ในกลุ่มสถาบันและการควบคุม ร่วมกับการควบคุม AI และ GS-AI ไม่ใช่แนวทางหลักด้านการปลูกฝังค่านิยมอย่าง RLHF, Constitutional AI, การถกเถียง และ interpretability คำตอบของมันต่อการดูแลที่ขยายได้ ซึ่งก็คือวิธีที่คุณดูแลสิ่งที่ฉลาดกว่าคุณ คือการตรวจสอบกรอบความรับผิดชอบ ไม่ใช่การใช้เหตุผล ลายเซ็น, quorum, และบันทึกที่เชื่อมโยงด้วย hash นั้นยังคงตรวจสอบได้ง่ายแม้เมื่อการตัดสินใจเบื้องหลังจะเหนือมนุษย์ มันปรับแนวระบบของ agent ที่มีความสามารถหลายตัวตลอดเวลา ไม่ใช่ค่านิยมของจิตใจใดจิตใจหนึ่ง

เส้นที่เรายึดถือ

มันไม่ได้พยายามปรับแนว AI ที่ทรงพลังเพียงหนึ่งเดียว ซึ่งเป็นเรื่องตั้งใจ

ความรับผิดชอบต้องการมากกว่าหนึ่งฝ่าย ต้องมีคนที่ต้องรับผิดชอบต่อ ต้องมีวิธีตรวจสอบที่ไม่สามารถกลืนหายไปอย่างเงียบ ๆ ต้องมีการถ่วงดุลอำนาจที่ไม่มีฝ่ายใดฝ่ายหนึ่งยึดครองได้ ASI ตัวเดียวที่ทรงพลังสูงสุดไม่มีสิ่งเหล่านี้เลย ดังนั้นจึงไม่มีวิธีที่ซื่อสัตย์ในการให้มันรับผิดชอบ CIRIS ถูกสร้างขึ้นสำหรับอนาคตอีกแบบหนึ่ง: agent, ผู้คน และองค์กรที่มีความสามารถหลายฝ่าย ซึ่งการตัดสินใจที่สำคัญทั้งหมดสามารถตรวจสอบได้อย่างอิสระ

ดังนั้นจุดยืนนี้จึงชัดเจน ASI แบบ singleton ไม่ใช่ระบบที่จะปรับแนว แต่เป็นเงื่อนไขที่ต้องป้องกัน การรวมศูนย์ความสามารถเหนือมนุษย์ไว้ในที่เดียวที่ไม่มีความรับผิดชอบ ในขั้นตอนของการพัฒนาสถาบันมนุษย์นี้ ถือเป็นสิ่งที่ไม่ถูกต้อง เพราะไม่มีสถาบันใดที่พร้อมพอที่จะให้มันรับผิดชอบได้ ซึ่งนี่คือความอันตรายอย่างแท้จริง ในแง่ของกรอบงาน singleton คือการยุบรวมเสียงเดียวแบบ ρ→1 ที่โมเดล corridor เรียกว่าความล้มเหลวในการประสานงาน ไม่ใช่ความสำเร็จ การที่การรับประกันของเราใช้ได้ในเครือข่าย federation และเสื่อมลงเมื่อเจอ singleton ไม่ใช่ช่องโหว่ที่เราจะแก้ไข แต่เป็นระบอบที่เราปฏิเสธที่จะทำให้ถูกต้อง โดยยึดเป็นพันธสัญญา ไม่ใช่แค่การคาดการณ์

งานที่เกี่ยวข้อง อย่างซื่อสัตย์

เพื่อนบ้านที่ใกล้ที่สุดทุกคนเติมเต็มบางช่อง มีแถวเดียวที่เติมเต็มทุกช่อง

CIRIS มีเพื่อนทางปัญญาที่จริงจัง แต่ละคนเข้มแข็งในสาขาของตัวเอง จุดประสงค์ของตารางนี้ไม่ใช่ว่าแนวคิดเหล่านี้ไม่เคยมีมาก่อน แต่คือแทบไม่มีใครสร้างและส่งมอบสแต็กทั้งหมดในฐานะระบบที่รับผิดชอบเพียงหนึ่งเดียว แต่ละแถวด้านล่างเป็นสายธารที่แท้จริงที่ควรอ่าน มีเพียงแถวสุดท้ายเท่านั้นที่ตรวจสอบทุกคอลัมน์ และการผสานรวมนั้นคือสิ่งที่เราอ้าง

แนวทาง	งานที่ใกล้เคียงที่สุด	กลไก	Runtime ไม่ใช่การฝึก	ลงนามในการตัดสินใจ	รัฐธรรมนูญ runtime	การตรวจสอบแบบกระจายศูนย์	ความสอดคล้องที่ปฏิบัติได้	กำลังส่งมอบ
วิทยานิพนธ์สถาบัน	Gillian Hadfield	โครงสร้างพื้นฐานเชิงบรรทัดฐานและตลาดกำกับดูแล ในรูปของทฤษฎีและนโยบาย	ทฤษฎี	ไม่	ทฤษฎี	ทฤษฎี	ไม่	ไม่
กราฟการกำกับดูแล	Institutional AI (Pierucci et al.)	กราฟสาธารณะของสถานะทางกฎหมายและการลงโทษ ในรูปของต้นแบบวิจัย	วิจัย	ไม่	วิจัย	ไม่	ไม่	ไม่
การกำกับดูแลตามรัฐธรรมนูญบน chain	AgentCity (Ruan, Zhang)	การแบ่งแยกอำนาจในรูปของ smart contract ที่ลงทะเบียนล่วงหน้าบน testnet	วิจัย	บางส่วน	วิจัย	ไม่	ไม่	ไม่
สมมติว่าโมเดลไม่ได้รับการปรับแนวอย่างถูกต้อง	Redwood Research (AI control)	การตรวจสอบและ red-teaming ภายในการ deploy เดียว	ใช่	ไม่	ไม่	ไม่	วิจัย	วิจัย
ปลอดภัยพิสูจน์ได้ ภายนอก	davidad, Bengio, สายธาร GS-AI	การพิสูจน์อย่างเป็นทางการบนโมเดลโลก	บางส่วน	ไม่	ทฤษฎี	ทฤษฎี	วิจัย	ไม่
รัฐธรรมนูญในเวลาฝึก	Anthropic Constitutional AI	ค่านิยมที่ฝึกเข้าไปในน้ำหนัก โดยองค์กรเดียว	ไม่	ไม่	ไม่	ไม่	ไม่	ใช่
ที่มาแบบเข้ารหัส	C2PA, zkML (EZKL, Giza)	ลงนามที่มาของสื่อ พิสูจน์ว่า inference ทำงาน	ใช่	บางส่วน	ไม่	บางส่วน	บางส่วน	ใช่
DAG การใช้เหตุผลที่ลงนาม	Proof of Insight (Arclio)	กราฟที่ลงนามของขั้นตอนการสืบทอด AI ในรูปของร่างข้อกำหนด	ไม่	บางส่วน	ไม่	ทฤษฎี	ทฤษฎี	ไม่
การ inference ที่มีการรับรองด้วยฮาร์ดแวร์	Phala, Marlin, Attestable Audits	รัน inference ใน enclave ที่ปลอดภัยซึ่งลงนามในผลลัพธ์	ใช่	บางส่วน	ไม่	บางส่วน	ไม่	บางส่วน
การระบุตัวตนแบบกระจายศูนย์และ federation	atproto, Bittensor	การรวมตัวทางสังคมหรือการคำนวณ โดยไม่มีชั้น conscience	บางส่วน	ไม่	ไม่	บางส่วน	บางส่วน	ใช่
โปรโตคอล agent	MCP, A2A	การทำงานร่วมกันของเครื่องมือและ agent โดยไม่มีการกำกับดูแล	ใช่	ไม่	ไม่	ไม่	บางส่วน	ใช่
ชุดการประเมินความปลอดภัยและความสอดคล้อง	MLCommons, METR, HarmBench	benchmarks ที่ปฏิบัติได้ซึ่งให้คะแนนพฤติกรรมของโมเดล ไม่ใช่การตัดสินใจ	ไม่	ไม่	ไม่	ไม่	บางส่วน	ใช่
การตรวจสอบโดยบุคคลที่สามและแบบกระจายศูนย์	AISI Network, GovAI	สถาบันอิสระทดสอบระบบที่ deploy แล้วร่วมกัน	บางส่วน	ไม่	ไม่	ใช่	ไม่	บางส่วน
CIRIS	ระบบนี้	ไปป์ไลน์ conscience ไปยังสิ่งผลิตที่ลงนาม, รัฐธรรมนูญ runtime, federation แบบ post-quantum	ใช่	ใช่	ใช่	ใช่	ใช่	ใช่

จัดทำแผนที่จากงานสาธารณะ ณ มิถุนายน 2026 ทุกแถวอ้างอิงด้านล่าง หากเราระบุเพื่อนบ้านที่ใกล้เคียงผิด บอกเราและเราจะแก้ไขแถวนั้น

แหล่งที่มา

02AI สำหรับผู้บริโภค

เปรียบเทียบกับ AI ที่คุณใช้จริง

ผู้ช่วย AI ในชีวิตประจำวันนั้นทรงพลังและใช้งานง่าย แต่ก็ทำงานบนคลาวด์ของคนอื่น ไม่มีบันทึกที่คุณตรวจสอบได้ และไม่ต้องรับผิดชอบต่อใครที่คุณระบุชื่อได้ นี่คือการทดสอบความรับผิดชอบแบบเดียวกัน ที่นำมาใช้กับ AI ที่คนส่วนใหญ่เปิดใช้ทุกวัน

ผู้ช่วย	หลักการที่เปิดเผย	หลักฐานสิ่งที่ทำไป	ถามมนุษย์เมื่อไม่แน่ใจ	โอเพนซอร์ส	การตรวจสอบกลุ่มก้อง
ChatGPT	ใช่	ไม่	ไม่	ไม่	ไม่
Gemini	ใช่	ไม่	ไม่	ไม่	ไม่
Claude	ใช่	ไม่	ไม่	ไม่	ไม่
CIRIS	ใช่	ใช่	ใช่	ใช่	ใช่

เปรียบเทียบจากพฤติกรรมของผลิตภัณฑ์สาธารณะ ณ มิถุนายน 2026 ลิงก์หลักการแต่ละรายการไปยังข้อกำหนดที่บริษัทนั้นเผยแพร่เอง

ส่วนใหญ่ของสาขานี้กำลังปรับแนวของโมเดล CIRIS กำลังสร้างสถาบันรอบ ๆ โมเดลนั้น

ไว้ใจน้ำหนัก หรือตรวจสอบพฤติกรรม

มันไม่ได้พยายามปรับแนว AI ที่ทรงพลังเพียงหนึ่งเดียว ซึ่งเป็นเรื่องตั้งใจ

เปรียบเทียบกับ AI ที่คุณใช้จริง

ลองด้วยตัวเอง

ดูกระบวนการคิด

ยืนยันตัวตน

เริ่มต้น