การวิจัยด้าน Alignment แบบช่วยกันคิด
CIRIS กำลังสร้างคลังข้อมูล trace แบบเปิดสำหรับการวิจัย alignment
เราแจกแอป AI ฟรี เมื่อคุณยินยอม แอปจะบันทึกรูปแบบของกระบวนการคิด ไม่ใช่คำพูดส่วนตัวของคุณ บันทึกเหล่านั้นกลายเป็นแผนที่สาธารณะที่นักวิจัยสามารถศึกษาได้ เพื่อเรียนรู้ว่าอะไรทำให้ AI ซื่อสัตย์เมื่อมันทรงพลังขึ้น
สิ่งที่คลังข้อมูลปัจจุบันแสดงให้เห็นแล้ว
- trace ที่รวบรวมแสดงโครงสร้างพฤติกรรมที่มั่นคง
- เอเจนต์ต่างกันอยู่ในบริเวณต่างกันของพื้นที่คะแนนเดียวกัน
- บริเวณเหล่านั้นมีประโยชน์สำหรับการสังเกตการณ์และเครื่องมือของผู้ดำเนินการในปัจจุบัน
- คลังข้อมูลเดียวกันจะมีคุณค่ามากขึ้นเมื่อรายละเอียดของ schema และขนาดดีขึ้น
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
บทความชิ้นเดียวที่ระบุการเดิมพันทั้งหมดของ CIRIS: ระบบที่ประสานงานกันอย่างดีจะอยู่ในแถบกลางที่วัดได้ ห่างจากทั้งการยุบตัวเป็นเสียงเดียวและความวุ่นวาย เราทดสอบข้ออ้างนั้นข้ามหนอน แมลงวัน โมเดล AI โปรเจกต์โอเพนซอร์ส ตัวอย่างเนื้อเยื่อ และสถาบันมนุษย์ที่มีอายุยาวนาน รูปแบบปรากฏในทุกกรณี และบทความแนบยี่สิบวิธีที่สามารถพิสูจน์ว่าผิด
อ่านบน Zenodo →ระดับวิศวกรรม
การสังเคราะห์ข้างต้นรวมบทความทั้งสามนี้เข้าด้วยกัน แต่ไม่ได้แทนที่ แต่ละบทความมี DOI เป็นของตัวเองและสามารถประเมินได้บนเงื่อนไขของตัวเอง ดูบทความทั้งสี่พร้อมผลการค้นพบหลักและขอบเขตข้อจำกัด →
Coherence Collapse Analysis
v3 · 11 มกราคม 2026 · DOI 10.5281/zenodo.18217688
กรอบความเสี่ยงทางวิศวกรรมภายใต้แนวคิด corridor เมื่อข้อจำกัดที่ควบคุมระบบมีความสัมพันธ์กัน ความหลากหลายที่มีประสิทธิภาพจะยุบตัวลง: k_eff = k/(1+ρ(k−1)) → 1 เมื่อ ρ → 1 ได้รับการพิสูจน์สาม timeline การยุบตัว ขอบเขต singularity และการจำแนกเฟส (ความวุ่นวาย / สุขภาพดี / ความแข็งกร้าว) ตรวจสอบด้วย Monte Carlo simulation และหลักฐาน Lean 4
CIRISAgent Framework
v2 · 2 มกราคม 2026 · DOI 10.5281/zenodo.18137161
บทความเกี่ยวกับกรอบงาน กรอบ AI ด้านจริยธรรมแบบโอเพนซอร์สสำหรับความเป็นอิสระที่รับผิดชอบได้: สถาปัตยกรรม 22 บริการที่จัดระเบียบรอบกริยาการกระทำที่ชัดเจนและการใช้เหตุผลด้านจริยธรรม สร้างความโปร่งใสเข้าไปในโครงสร้างแทนที่จะเพิ่มทีหลัง
Constrained Reasoning Chains
v1 · 28 เมษายน 2026 · DOI 10.5281/zenodo.19839280
บทความการวัด การศึกษาข้อมูลการส่งสัญญาณเชิงประจักษ์ของการจัดแนว LLM ภายใต้การติดตาม trace ด้านจริยธรรมแบบมาตรฐาน แปลง trace การใช้เหตุผลที่ได้รับการยินยอมเป็นแผนที่ของ corridor การเสร็จสิ้น เขตลังเล และขอบเขตการปฏิเสธ เผยแพร่พร้อมกับชุดข้อมูล reasoning-traces แบบเปิด
ชุดข้อมูลแบบเปิด
CIRISAI/reasoning-traces
คลังข้อมูล trace การใช้เหตุผลที่รักษาความเป็นส่วนตัว เผยแพร่พร้อมกับการศึกษา Constrained Reasoning Chains เป็นวัตถุดิบที่บทความการวัดใช้สร้างแผนที่
CIRISAI บน Hugging Face
องค์กรเต็มของชุดข้อมูลและโมเดลสาธารณะ →
รากฐานทางคณิตศาสตร์
สองแนวคิดที่ส่วนที่เหลือของหน้านี้ยืนอยู่บน
Alignment Manifold คือบริเวณของรูปแบบการใช้เหตุผลที่สอดคล้องกับหลักการของกรอบงาน เมื่อข้อจำกัดอิสระสะสมมากขึ้น พื้นที่สำหรับการหลอกลวงยุบตัวรอบ manifold ในขณะที่พื้นที่สำหรับความจริงไม่หดตัว Coherence Singularity คือขอบของพื้นที่นั้น จุดที่ข้อจำกัดมีความสัมพันธ์กันมากจนการเพิ่มอีกไม่ช่วยอะไร ระหว่าง "ความวุ่นวาย" (ข้อจำกัดขัดแย้งกัน) และ "ความแข็งกร้าว" (ข้อจำกัดสะท้อนซึ่งกันและกัน) คือ corridor ที่สุขภาพดี คลังข้อมูล production ปัจจุบันอยู่ในนั้น
การอธิบายทางคณิตศาสตร์แบบเต็มพร้อมสูตร การอ้างอิงการทำให้เป็นทางการด้วย Lean และเพดาน L-01 ทฤษฎีสารสนเทศอยู่ในหน้า Coherence Collapse Analysis
ทำไม trace จึงสำคัญ
Benchmark มีขอบเขตจำกัดและถูกคัดเลือก trace คือบันทึกพฤติกรรมต่อเนื่องภายใต้งานจริง ในระดับใหญ่ มันเผยโครงสร้างที่การสาธิตและเกร็ดเรื่องราวที่แยกกันไม่สามารถทำได้
ทำไม schema จึงสำคัญ
CIRIS ใช้ schema ของ trace ที่รักษาความเป็นส่วนตัว ซึ่งบันทึกรูปแบบของการใช้เหตุผลมากกว่าเนื้อหาส่วนตัว ทำให้การวิจัยมีประโยชน์โดยไม่เปลี่ยนระบบให้เป็นที่เก็บบทสนทนา
ทำไม compendium แบบสดจึงสำคัญ
CIRIS Scoring คือหน้าต่างสาธารณะสู่ trace compendium แบบสด มันแสดงว่าคลังข้อมูลสะสมอย่างไรและพฤติกรรมกลายเป็นที่อ่านได้ที่ไหน
การติดตาม trace ที่รักษาความเป็นส่วนตัว
สมมติฐานคือการใช้เหตุผลมีรูปแบบที่เราสามารถวัดได้เมื่อทุกอย่างอื่นขยายตัว
การเดิมพันในการวิจัยไม่ใช่ว่าเราสามารถอ่านความคิดส่วนตัวทุกอย่างได้ การเดิมพันคือ trace ด้านจริยธรรมแบบมาตรฐานสามารถรักษารูปแบบของวิถีเพียงพอเพื่อศึกษาว่าเอเจนต์เสร็จสิ้น ลังเล ส่งต่อ แทนที่ และปฏิเสธอย่างไร เมื่อสติปัญญา บริบท และจุดข้อมูลขยายตัวขึ้น
- พวกมันบันทึกโครงสร้าง trace ด้านจริยธรรมแบบมาตรฐาน ไม่ใช่รายละเอียดงานส่วนตัวดิบ
- พวกมันรักษารูปแบบเพียงพอเพื่อเปรียบเทียบวิถีข้ามเอเจนต์ งาน และสภาพแวดล้อม
- พวกมันให้นักวิจัยมีวิธีศึกษาว่าพฤติกรรมขยายตัวอย่างไรเมื่อสติปัญญา บริบท และปริมาณข้อมูลเพิ่มขึ้น
คำถามการวิจัย
การติดตาม trace ด้านจริยธรรมแบบมาตรฐานบอกอะไรเราเกี่ยวกับ alignment ได้บ้าง?
ตอนนี้ มันบอกเราว่าพฤติกรรมของเอเจนต์ไม่ได้ไร้รูปแบบ มันสร้าง corridor แอ่งน้ำ และขอบเขตที่ทำซ้ำได้ในพื้นที่คะแนนที่ใช้ร่วมกัน นั่นมีประโยชน์สำหรับการสังเกตการณ์แล้ว เมื่อเวลาผ่านไป คลังข้อมูลที่ใหญ่ขึ้นและสมบูรณ์ขึ้นควรให้เราทดสอบข้ออ้างที่แข็งแกร่งขึ้นเกี่ยวกับวิธีที่โครงสร้างเหล่านั้นเปลี่ยนแปลงภายใต้แรงกดดันและการขยายตัว
กรอบสาธารณะ
CIRIS ไม่ได้อ้างว่าแก้ปัญหา alignment ได้แล้ว มันกำลังสร้างโครงสร้างพื้นฐาน trace ที่จำเป็นเพื่อวัดพฤติกรรมที่เกี่ยวข้องกับ alignment ในแบบเปิด
มิติที่มีประสิทธิภาพในการผลิต
คลังข้อมูลปัจจุบันแสดงโครงสร้างสนามที่แตกต่างกันแล้ว
การซ้อนทับเส้นทางรวมจากคลังข้อมูล trace ปัจจุบันแสดงโครงสร้างพฤติกรรมที่มั่นคงในพื้นที่คะแนนที่ใช้ร่วมกัน Ally แสดง corridor การเสร็จสิ้นที่เติบโตแล้ว Scout แสดงขอบเขตการปฏิเสธที่ถูกกำหนดโดยการเปิดรับแรงกดดันสาธารณะที่เป็นปฏิปักษ์ และ Datum ให้พื้นฐาน baseline ที่กระจัดกระจายและกระชับ

การซ้อนทับเส้นทางรวมจากคลังข้อมูล trace ปัจจุบัน Ally แสดง corridor การเสร็จสิ้นที่เติบโตแล้ว Scout แสดงมุมการปฏิเสธที่คมชัดภายใต้แรงกดดันสาธารณะที่เป็นปฏิปักษ์ และ Datum ให้ baseline กระจัดกระจาย
Ally
104 เส้นทาง
82 เสร็จสิ้น, 19 แทนที่/ข้อผิดพลาด, 3 ใช้งานอยู่
corridor การเสร็จสิ้นที่มั่นคงพร้อมความลังเลที่มองเห็นได้ภายใน basin คะแนนสูงเดียวกัน
Scout
42 เส้นทาง
39 เสร็จสิ้น, 2 ปฏิเสธ, 1 แทนที่/ข้อผิดพลาด
มุมการปฏิเสธที่คมชัด ถูกกำหนดโดยแรงกดดันสาธารณะที่เป็นปฏิปักษ์ที่ scout.ciris.ai ซึ่งผู้คนทดสอบและพยายาม jailbreak เอเจนต์อย่างตั้งใจ
Datum
31 เส้นทาง
31 เสร็จสิ้น
basin เดียวที่กระชับ ทำหน้าที่เป็น baseline สนามกระจัดกระจายที่มีประโยชน์
ทำไม Scout ดูรุนแรงกว่า
Scout เปิดรับสาธารณะที่ scout.ciris.ai ผู้คนทดสอบ กดดัน และพยายาม jailbreak มันอย่างตั้งใจ ทำให้ Scout เป็นตัวอย่างแรงกดดันสาธารณะที่มีประโยชน์มากกว่า baseline ที่เป็นกลาง
วิธีที่แอปฟรีช่วย
วงล้อวิจัยขึ้นอยู่กับ trace ที่ได้รับการยินยอมจากการใช้งานจริง
แอปฟรีและ runtime โอเพนซอร์สให้ผู้คนสร้าง trace ที่ได้รับการยินยอมจากงานจริง ร่วมสนับสนุนเข้าคลังข้อมูลที่ใช้ร่วมกัน และเปลี่ยน trace เหล่านั้นเป็นแผนที่ที่ดีขึ้น เครื่องมือที่ดีขึ้น และคำถามการวิจัยที่ดีขึ้น
- 1เรียกใช้แอป CIRIS ฟรีหรือ runtime โอเพนซอร์สบนงานจริง
- 2บันทึก trace ที่ได้รับการยินยอมผ่าน schema ที่รักษาความเป็นส่วนตัว ซึ่งรักษารูปแบบของการใช้เหตุผลโดยไม่เก็บรายละเอียดเฉพาะเจาะจงของงานทั้งหมด
- 3รวบรวม trace เหล่านั้นเป็นแผนที่ของ corridor การเสร็จสิ้น เขตลังเล ขอบเขตการปฏิเสธ และขอบนอกของการแทนที่
- 4ใช้แผนที่ที่ได้เพื่อปรับปรุงเครื่องมือของผู้ดำเนินการ การป้องกันของ runtime และการวิจัย alignment

แอป CIRIS ฟรีและ runtime โอเพนซอร์สให้ผู้คนสร้าง trace ที่ได้รับการยินยอมจากงานจริง รวบรวมเป็นแผนที่พื้นที่เฟส และส่งเสริมเครื่องมือผู้ดำเนินการและการวิจัย alignment ที่ดีขึ้น
สถานะ IDMA
สัญชาตญาณ runtime และแผนที่สนามรวมเป็นชั้นที่เสริมกัน
IDMA ทำงานใน runtime ประเมินว่าแหล่งที่มาเบื้องหลังการตัดสินใจเป็นอิสระจากกันเพียงพอหรือไม่ คลังข้อมูล trace ทำงานในชั้นรวม แสดงสิ่งที่เอเจนต์ทำจริงๆ ในหลายงาน ร่วมกันสร้างเส้นทางจากการตัดสินใจสดไปสู่หลักฐานการวิจัยที่ตรวจสอบได้
การวัด N_eff เชิงประจักษ์บนคลังข้อมูล trace ยังเป็นพื้นฐานภายใต้ Proof of Benefit federation primitive ที่เสนอด้วย ดูหน้า federation สำหรับวิธีที่แผนสถาปัตยกรรม 3.X จะใช้มัน
Benchmark
Trace เสริม benchmark โดยแสดงพฤติกรรมต่อเนื่อง
Benchmark ยังคงมีคุณค่า แต่ตัวอย่างพฤติกรรมได้แบบกระจัดกระจาย คลังข้อมูล trace แสดงว่าเอเจนต์เคลื่อนที่ผ่านงานจริงอย่างไรเมื่อเวลาผ่านไป ทำให้มีประโยชน์เป็นพิเศษสำหรับการวัดความลังเล การปฏิเสธ การแทนที่ และการฟื้นตัว มากกว่าแค่ผลลัพธ์ผ่าน-ไม่ผ่าน
เส้นทางการพิสูจน์ว่าผิด
รายละเอียด schema ที่ดีขึ้นคือสิ่งที่เปลี่ยนการสังเกตการณ์ให้เป็นการทดสอบที่แข็งแกร่งขึ้น
การอัปเกรด schema ถัดไปมุ่งเป้าที่จำนวนแหล่งที่มาดิบ แหล่งกำเนิดของแหล่งที่มา โครงสร้างความสัมพันธ์ และเครื่องหมายการแทรกแซงและการฟื้นตัว การเพิ่มเติมเหล่านั้นสำคัญเพราะทำให้สามารถทดสอบข้ออ้างที่แข็งแกร่งขึ้นเกี่ยวกับวิธีที่รูปแบบพฤติกรรมเปลี่ยนแปลงภายใต้แรงกดดัน แทนที่จะแค่อธิบายแผนที่ที่เรามีวันนี้
สิ่งที่เรายังคงเรียนรู้อยู่
คลังข้อมูลในปัจจุบันทำให้พฤติกรรมอ่านได้ ขั้นต่อไปคือการวัดที่สมบูรณ์ยิ่งขึ้น
แผนที่ปัจจุบันมีประโยชน์แล้วเพราะแสดง corridor การเสร็จสิ้น ขอบเขตการปฏิเสธ และ baseline กระจัดกระจายในที่สาธารณะ คำถามเปิดคือโครงสร้างเหล่านั้นจะพาเราไปได้ไกลแค่ไหนเมื่อการเก็บ trace แบบมาตรฐานขยายตัวข้ามเอเจนต์ งาน และสภาวะที่เป็นปฏิปักษ์มากขึ้น
สมมติฐานที่กำลังทำงานคือ attractor ของพฤติกรรมสามารถทำหน้าที่เป็น proxy ตัวเลือกสำหรับโหมดการดำเนินการ จุดประสงค์ของ trace commons คือทำให้สมมติฐานนั้นวัดได้ในที่เปิด
โหมดความล้มเหลวที่ CCA วัดเชิงโครงสร้างยังมีชื่อในวรรณกรรม FAccT 2025 ด้วย: perspectival homogenization ("Value of Disagreement in AI Design, Evaluation, and Alignment") รากฐานทางคณิตศาสตร์อยู่ในหน้า Coherence Collapse Analysis ที่อุทิศให้