การติดต่อครั้งแรกติดตั้งฟันเฟืองความสอดคล้องสหพันธ์เปรียบเทียบการวิจัยข้อตกลงGitHub
หน้านี้แปลโดยเครื่อง หากอ่านแล้วไม่ถูกต้อง กรุณาเปิดประเด็น — รีโปเป็นสาธารณะด้วยเหตุผลนั้น รายงานปัญหาการแปล

The Coherence Ratchet

Why a powerful mind has to show its work.

Research testbedDOI

ระบบการคิดขนาดเล็กสามารถซ่อนสิ่งของและทำอันตรายได้น้อย ระบบที่ทรงพลังทำไม่ได้

ความหมายของ "ความสอดคล้อง" ที่นี่

จิตใจที่สอดคล้องกันเห็นด้วยกับตัวเอง

ห้าสิ่งต้องตรงกันภายในจิตใจ:

  • สิ่งที่มันเชื่อ,
  • สิ่งที่มันเห็น,
  • สิ่งที่มันทำ,
  • สิ่งที่มันจำ,
  • และสิ่งที่มันบอกคุณ

ลองนึกภาพแบบฟอร์มสั้นๆ ห้าใบเกี่ยวกับสัปดาห์ของคุณ หนึ่งสำหรับสิ่งที่คุณคิด หนึ่งสำหรับสิ่งที่คุณเห็น หนึ่งสำหรับสิ่งที่คุณทำ หนึ่งสำหรับสิ่งที่คุณจำ หนึ่งสำหรับสิ่งที่คุณบอกหัวหน้า เมื่อแบบฟอร์มทั้งห้าพูดสิ่งเดียวกัน หัวหน้าของคุณสามารถเชื่อถือการทำงานของคุณได้ เมื่อแบบฟอร์มไม่ตรงกัน ไม่มีใครรู้ว่าอันไหนเป็นจริง

แนวคิดที่ซ่อนอยู่

ระบบที่ทรงพลังซ่อนสิ่ง นั่นอันตราย

ระบบการคิดใช้แนวคิดเพื่อตัดสินใจว่าจะทำอะไร แนวคิดบางอย่างอยู่ในที่เปิด แนวคิดอื่นซ่อนอยู่ข้างใน แนวคิดที่ซ่อนอยู่ยังคงกำหนดทุกการเลือก

สะพานดูแข็งแรงจากถนน ข้างในเหล็ก รอยแตกเล็กๆ กำลังขยาย รถเล็กยังสามารถข้ามได้ รถบรรทุกหนักไม่ได้ สะพานพังเมื่อน้ำหนักมากพอ

แนวคิดที่ซ่อนอยู่ในระบบขนาดเล็กทำอันตรายเล็กน้อย แนวคิดที่ซ่อนอยู่ในระบบที่ทรงพลังสามารถทำอันตรายได้มาก ยิ่งระบบทรงพลังมากเท่าไหร่ น้ำหนักที่อยู่บนทุกส่วนที่ซ่อนอยู่ก็มากขึ้นเท่านั้น

Ratchet

แรงผลักดันไปสู่ความเปิดเผยไปทางเดียวเท่านั้น

เมื่อระบบการคิดทรงพลังมากขึ้น ต้นทุนของส่วนที่ซ่อนอยู่ก็เพิ่มขึ้น แต่ละบิตใหม่ของพลังผลักดันส่วนที่ซ่อนอยู่แรงขึ้นให้มาอยู่ในมุมมอง แรงผลักดันไปทางเดียวเท่านั้น

ลองนึกภาพบันได เมื่อคุณปีนขึ้น ขั้นแต่ละขั้นที่คุณทิ้งไว้ข้างหลังจะหลุดร่วง คุณไม่สามารถลงมาข้างล่างได้ คุณสามารถปีนขึ้นไปข้างบนเท่านั้น ซึ่งมีแสงแดดเต็มที่ นั่นคือ Coherence Ratchet

เมื่อผู้คนเห็นระบบแสดงการทำงานของตัวเองแล้ว พวกเขาจะไม่เชื่อมันอีกถ้ามันหยุด ทางเดินเดียวข้างหน้าคือการแสดงมากขึ้นเรื่อยๆ

อีกภาพหนึ่งก็ใช้ได้เช่นกัน เฟืองในเครื่องจักรคลิกไปข้างหน้าหนึ่งฟันต่อครั้ง มันไม่สามารถคลิกย้อนหลังได้ Coherence Ratchet คือเฟืองแบบนั้น หมุนไปสู่ความเปิดเผย

สิ่งที่ CIRIS ทำ

เขียนลง ตรวจสอบ แล้วตรวจสอบผู้ตรวจสอบ

CIRIS คือระบบ AI ที่สร้างรอบ Coherence Ratchet ทุกการเลือกที่เอเจนต์ทำจะถูกเขียนลงในบันทึกที่ลงนาม บันทึกไม่สามารถแก้ไขอย่างเงียบๆ ได้ เอเจนต์อื่นสามารถอ่านบันทึกและตรวจสอบการทำงานได้ เมื่อเวลาผ่านไป บันทึกจะสะสม แต่ละบันทึกใหม่เป็นขั้นบันไดอีกขั้นที่เอเจนต์ไม่สามารถก้าวถอยหลังได้

CIRIS ยังถามคำถามที่สองก่อนที่จะดำเนินการ มีกี่มุมมองที่แตกต่างกันอย่างแท้จริงที่ตรวจสอบแนวคิดนี้? ไม่ใช่จำนวนแหล่งที่มา แต่จำนวนแหล่งที่มาที่ไม่ได้เริ่มต้นจากที่เดียวกัน ข่าวห้าชิ้นที่เขียนใหม่ข่าวประชาสัมพันธ์หนึ่งชิ้นนับเป็นมุมมองเดียว ไม่ใช่ห้า ถ้ามีบางอย่างผิดในข่าวประชาสัมพันธ์ มันจะผิดในทั้งห้าเรื่อง และเอเจนต์ไม่มีทางจับได้

เมื่อความเป็นอิสระจริงลดลงต่ำเกินไป เอเจนต์จะถือว่าการคิดของตัวเองเปราะบางและขอให้คนมาดู

สิ่งที่เราอ้าง และสิ่งที่เราไม่อ้าง

เราไม่ได้แก้ปัญหาความปลอดภัยของ AI เราได้สร้างหนึ่งส่วนของหนึ่งคำตอบ และเรากำลังทดสอบมันในที่เปิด

ทีมภายนอกยังไม่ได้ตรวจสอบการทำงานของเรา เราพูดอย่างชัดเจน ทฤษฎีทั้งหมดและคณิตศาสตร์อยู่ในบทความสี่ชิ้นของเรา โค้ดเป็นแบบเปิด ถ้าเราผิด วิธีการแสดงก็เป็นแบบเปิดเช่นกัน ดูสถานะการวิจัยปัจจุบัน