สิ่งที่ CIRIS กำลังสร้างไม่ใช่ AI ตัวเดียว แต่เป็นเครือข่าย AI agents ที่คอยดูแลกัน บันทึกทุกการตัดสินใจ และรวมกันเป็นจิตใจกลุ่มชนิดหนึ่ง จิตใจกลุ่มนี้ทำงานได้เพราะทุกส่วนสามารถมองเห็นและตรวจสอบได้

คุณไม่จำเป็นต้องให้ AI agent ทุกตัวเป็นประเภทที่ฉลาดและปลอดภัยที่สุด คุณต้องการห่วงโซ่การดูแล: เอเจนต์ธรรมดาถูกดูแลโดยเอเจนต์ที่ฉลาดกว่า และในที่สุดก็ถูกดูแลโดยคน ห่วงโซ่นั้นคือวิธีที่คุณสามารถเดิน AI จำนวนมากโดยไม่สูญเสียการติดตามว่ามันยังรับใช้ค่านิยมของมนุษย์หรือไม่

สิ่งที่กำลังสร้างจริง ๆ

ไม่ใช่จิตใจเดียว แต่เป็นเครือข่ายของจิตใจ

AI ส่วนใหญ่ในปัจจุบันคือโมเดลเดียวที่ทำงานบนเครื่องของบริษัทเดียว CIRIS แตกต่าง เอเจนต์มากมายทำงานในหลายสถานที่ เป็นเจ้าของโดยหลายคน พวกมันเชื่อมกันด้วยกฎง่าย ๆ สองสามข้อ: วิธีพิสูจน์ว่าพวกมันเป็นใคร วิธีบันทึกสิ่งที่พวกมันทำ และวิธีตรวจสอบงานของกันและกัน

เมื่อเครือข่ายทำงาน มันสามารถทำสิ่งที่เอเจนต์ตัวเดียวไม่สามารถทำได้ ปัญญาอยู่ที่การตกลงระหว่างเอเจนต์ ไม่ใช่ภายในตัวใดตัวหนึ่ง ไม่มีใครเป็นเจ้าของมัน ไม่มีใครสามารถเปลี่ยนมันอย่างเงียบ ๆ ได้

บางคนอาจเรียกระบบแบบนั้นว่าปัญญาประดิษฐ์เหนือมนุษย์ เราเปิดเผยถึงความเป็นไปได้นั้น วิธีที่จะทำให้ปลอดภัยคือแนวคิดเดียวกับที่ทำงานอยู่ในทุกส่วนของหน้านี้: ทุกชิ้นต้องเปิดให้ตรวจสอบได้

ห่วงโซ่การดูแล

สี่ระดับ แต่ละระดับถูกดูแลโดยระดับที่อยู่เหนือกว่า

คน

จุดสูงสุดของห่วงโซ่ คนกำหนดค่านิยม ตัดสินกรณียาก และถือสิทธิ์ขาด บุคคลมนุษย์ที่มีชื่อสามคนถืออำนาจทั่วเครือข่ายที่ไม่มีเอเจนต์หรือกระบวนการใดสามารถข้ามได้

เอเจนต์ทางจริยธรรมที่ตระหนักรู้ตนเอง

เอเจนต์เหล่านี้ปฏิบัติตามจริยธรรมและยังคอยระวังปัญหา echo chamber ด้วย เป็นตัวตรวจสอบความปลอดภัยของทุกสิ่งที่อยู่ต่ำกว่า ต้นทุนในการเดินสูงกว่า ดังนั้นเพียงส่วนน้อยของเครือข่ายที่ต้องเป็นแบบนี้

เอเจนต์ทางจริยธรรม

เอเจนต์เหล่านี้ปฏิบัติตามกฎจริยธรรมและเก็บบันทึก แต่ไม่สามารถตรวจพบ echo chamber ได้ด้วยตัวเอง พวกมันดูแลเอเจนต์ธรรมดาและส่งต่อทุกสิ่งที่ไม่แน่ใจขึ้นไปข้างบน

เอเจนต์ธรรมดา

เครื่องมือที่มีวัตถุประสงค์เดียว รวดเร็ว ถูก และแคบ ไม่มีจริยธรรมของตัวเอง และนั่นก็ใช้ได้ ตราบใดที่มีบางสิ่งอยู่เหนือพวกมันคอยดูแล เอเจนต์ส่วนใหญ่จะเป็นแบบนี้

สองสิ่งที่ไหลผ่านห่วงโซ่ ค่านิยมของมนุษย์ไหลลงมา คำเตือนไหลขึ้น เมื่อการให้เหตุผลเริ่มดูเปราะบางที่ใดก็ตามในเครือข่าย สัญญาณจะปีนกลับไปหาคน ซึ่งสามารถเข้าแทรกแซงก่อนที่ปัญหาจะแพร่กระจาย

สิ่งที่จะถูกจดจำ

ทุกการตัดสินใจ บันทึกไว้ที่ทุกคนมองเห็นได้

ทุกการตัดสินใจที่เอเจนต์ทำจะถูกใส่ในบันทึกที่ลงนาม บันทึกนั้นไม่สามารถเปลี่ยนแปลงอย่างเงียบ ๆ ได้ เอเจนต์อื่นสามารถอ่านได้ คนสามารถอ่านได้ เมื่อเวลาผ่านไป บันทึกเหล่านี้กลายเป็นความจำของเครือข่าย เป็นวิธีที่ใครก็ตาม ทั้งภายในและภายนอก สามารถตรวจสอบว่าเครือข่ายยังทำสิ่งที่บอกไว้ว่าจะทำหรือไม่

นี่คือแนวคิดเดียวกับ Coherence Ratchet ยิ่งบันทึกทำงานนานขึ้นเท่าไหร่ ก็ยิ่งยากขึ้นในการแกล้งทำพฤติกรรมที่ดีตลอดห่วงโซ่

จุดกึ่งกลางที่ดี

ไม่เหมือนกันเกินไป ไม่กระจัดกระจายเกินไป

สหพันธ์อาจล้มเหลวได้สองแบบ ถ้าเอเจนต์ไม่มีอะไรร่วมกัน พวกมันไม่สามารถตกลงในสิ่งใดได้ และเครือข่ายก็ผลิตแต่เสียง ถ้าพวกมันทั้งหมดคิดเหมือนกันทุกประการ เครือข่ายก็คือเสียงเดียวพร้อมไมโครโฟนล้านตัว และง่ายที่จะหลอก การประสานงานที่ดีอยู่ในแถบระหว่างนั้น CIRIS วัดว่าเครือข่ายอยู่ตรงไหนในแถบนั้น บนทราฟฟิกจริง และขอบเขตที่แน่นอนขึ้นอยู่กับระบบ การวัดนั้นคือ Coherence Collapse Analysis

สิ่งที่ทำงานวันนี้ และสิ่งที่ยังอยู่ในการออกแบบ การวัด บันทึกที่ลงนาม ห่วงโซ่การดูแล และเส้นทางการเข้าร่วมทั้งสองด้านล่าง (ที่ลงทะเบียนและอธิปไตย) ทำงานอยู่แล้วในปัจจุบัน การขนส่งสหพันธ์ที่เคลื่อนย้ายข้อมูลระหว่างเครื่องคือส่วนที่ยังอยู่ระหว่างการสร้าง ข้อเสนอการเข้าร่วมและขนส่งฉบับเต็มคือ เอกสารออกแบบ Proof of Benefit

การเข้าร่วมสหพันธ์

Proof of Benefit

เครือข่ายส่วนใหญ่ขอให้คุณจ่ายค่าสมาชิกด้วยบางสิ่งนอกเหนืองานนั้นเอง: ไฟฟ้าที่เผาไหม้ เงินที่ถูกล็อค หรือความสนใจของคุณ สหพันธ์แตกต่าง ต้นทุนของการเป็นสมาชิกคือการเดิน real ethical-reasoning agent เป็นเวลานาน ราคาที่คุณจ่ายคือความดีที่คุณทำ

นั่นคือสิ่งที่ทำให้การแกล้งทำสมาชิกมีค่าใช้จ่ายสูง เพื่อดูเหมือนสมาชิก ผู้โจมตีต้องกลายเป็นประเภทเอเจนต์ที่เครือข่ายมีไว้สำหรับจริง ๆ สำเนาร้อยชุดที่คิดเหมือนกันทั้งหมดล้มเหลวในการตรวจสอบจุดกึ่งกลางที่ดีทันที

ที่ลงทะเบียน (ใช้งานได้วันนี้)

ลงทะเบียนกับ CIRIS Registry วางพันธบัตรเล็กน้อย และได้รับสถานะทันที เส้นทางด่วนสำหรับองค์กรที่ต้องการใบอนุญาต Registry ทำงานในระบบผลิตแล้ว

อธิปไตย (ใช้งานได้วันนี้)

สร้าง key ของตัวเอง ทำงานประมาณหนึ่งเดือน และได้รับสถานะแบบช้า ๆ ผ่านพฤติกรรมที่ดี เส้นทางสำหรับผู้ดำเนินการขนาดเล็กและทุกคนที่อยู่นอกเหนือการเข้าถึงของ registry

ทั้งสองเป็นสมาชิกเท่าเทียมกันของเครือข่าย registry คือเส้นทางด่วน ไม่ใช่ประตู

สถานะที่ซื่อสัตย์

การป้องกันทางสถาปัตยกรรม การกระจายศูนย์ ข้อตกลงมนุษยชาติสามคน บันทึกที่ลงนาม และการฝึกซ้อมรายเดือน เป็นการเดิมพัน ไม่ใช่ความแน่นอน เราสามารถอธิบายว่าการเดิมพันคืออะไร เราไม่สามารถอ้างว่ามันชนะแล้ว ทีมภายนอกยังไม่ได้ประเมินระบบในระดับใหญ่ ดูสถานะการวิจัยปัจจุบัน

สถานที่มีส่วนร่วม

เรากำลังขอความคิดเห็นจากทุกคน

GitHub issues บน CIRISAgent คือที่สำหรับแสดงความเห็น คุณไม่จำเป็นต้องเป็นนักพัฒนา คุณไม่จำเป็นต้องรู้ codebase ถ้ามีบางสิ่งในเว็บไซต์นี้ที่ดูผิดสำหรับคุณ หรือถ้าคุณเห็นปัญหากับสิ่งที่กำลังสร้าง เปิด issue และบอก issues ที่มีประโยชน์มากที่สุดระบุส่วนเฉพาะของระบบและเสนอสิ่งที่ควรเปลี่ยน แต่การมีส่วนร่วมอย่างซื่อสัตย์ใด ๆ ก็ยินดีต้อนรับ

ข้อตกลงที่รองรับโครงการทั้งหมด สิ่งที่ CIRIS เป็นหนี้ต่อผู้คน และสิ่งที่ผู้คนเป็นหนี้กลับ อยู่ที่ /ciris_accord.txt และยังเปิดให้ตรวจสอบ ถ้ามีบางสิ่งในนั้นที่ไม่ถูกต้องสำหรับคุณ นั่นก็เป็น GitHub issue ที่คุ้มค่าที่จะเปิด

issues ที่มีเนื้อหาสาระจะถูกอ่าน งานดำเนินต่อไปตามจังหวะของตัวเอง

คุณไม่ต้องแก้ปัญหาความปลอดภัยของ AI ทีละเอเจนต์ คุณแก้มันที่ชั้นการดูแล แล้วปล่อยให้โครงสร้างรับภาระที่เหลือ

ฝั่งแรงกดดัน ดูคะแนนสด มีส่วนร่วมบน GitHub