Nghiên cứu Đồng thuận về AI qua Cộng đồng
CIRIS đang xây dựng một kho dấu vết mở để phục vụ nghiên cứu về đồng thuận.
Chúng tôi cung cấp miễn phí một ứng dụng AI. Với sự đồng ý của bạn, ứng dụng ghi lại hình dạng quá trình suy luận, không bao giờ lưu những từ riêng tư của bạn. Những bản ghi đó trở thành một bản đồ công khai mà các nhà nghiên cứu có thể nghiên cứu để tìm hiểu điều gì giữ AI trung thực khi nó mở rộng quy mô.
Những gì kho dữ liệu hiện tại đã chỉ ra
- Các dấu vết tổng hợp cho thấy cấu trúc hành vi ổn định.
- Các tác nhân khác nhau chiếm các vùng khác nhau trong cùng một không gian điểm.
- Những vùng đó hữu ích cho khả năng quan sát và công cụ vận hành ngay hôm nay.
- Cùng một kho dữ liệu sẽ có giá trị hơn khi chi tiết lược đồ và quy mô được cải thiện.
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
Bài báo duy nhất trình bày toàn bộ lý luận của CIRIS: các hệ thống phối hợp khỏe mạnh nằm trong một dải trung gian có thể đo được, tránh xa cả sự sụp đổ một chiều cứng nhắc lẫn tiếng ồn hỗn loạn. Chúng tôi kiểm tra luận điểm đó trên giun, ruồi, mô hình AI, dự án mã nguồn mở, mẫu mô và các thể chế con người lâu đời. Mẫu hình xuất hiện trong mọi trường hợp, và bài báo đính kèm hai mươi cách có thể chứng minh nó sai.
Đọc trên Zenodo →Tầng kỹ thuật
Bài báo tổng hợp ở trên tích hợp ba bài báo này; không thay thế chúng. Mỗi bài đứng độc lập với DOI riêng và có thể được đánh giá theo điều kiện riêng của nó. Xem tất cả bốn bài báo với những phát hiện chính và giới hạn phạm vi →
Coherence Collapse Analysis
v3 · 11 tháng 1, 2026 · DOI 10.5281/zenodo.18217688
Khung rủi ro kỹ thuật dưới ý tưởng về hành lang. Khi các ràng buộc chi phối một hệ thống trở nên tương quan với nhau, sự đa dạng hiệu quả sụp đổ: k_eff = k/(1+ρ(k−1)) → 1 khi ρ → 1. Suy ra ba mốc thời gian sụp đổ, một ranh giới kỳ dị và phân loại pha (hỗn loạn / khỏe mạnh / cứng nhắc). Được kiểm chứng bằng mô phỏng Monte Carlo và chứng minh Lean 4.
CIRISAgent Framework
v2 · 2 tháng 1, 2026 · DOI 10.5281/zenodo.18137161
Bài báo về khung làm việc. Một khung AI đạo đức mã nguồn mở hướng đến tính tự chủ có trách nhiệm: kiến trúc 22 dịch vụ được tổ chức xung quanh các động từ hành động rõ ràng và lý luận đạo đức, xây dựng sự minh bạch vào cấu trúc thay vì gắn thêm sau này.
Constrained Reasoning Chains
v1 · 28 tháng 4, 2026 · DOI 10.5281/zenodo.19839280
Bài báo đo lường. Một nghiên cứu đo lường từ xa thực nghiệm về sự đồng thuận của LLM dưới dấu vết đạo đức tiêu chuẩn hóa, chuyển đổi các dấu vết suy luận có sự đồng ý thành bản đồ các hành lang hoàn thành, vùng do dự và ranh giới từ chối. Phát hành cùng với bộ dữ liệu dấu vết suy luận mở.
Bộ dữ liệu mở
CIRISAI/reasoning-traces
Kho dấu vết suy luận bảo tồn quyền riêng tư được phát hành cùng với nghiên cứu Constrained Reasoning Chains, nguyên liệu thô mà bài báo đo lường dùng để vẽ bản đồ.
CIRISAI trên Hugging Face
Toàn bộ tổ chức với các bộ dữ liệu và mô hình công khai →
Nền tảng toán học
Hai ý tưởng mà phần còn lại của trang dựa vào.
Alignment Manifold là vùng các hình dạng suy luận nhất quán với các nguyên tắc của khung làm việc. Khi các ràng buộc độc lập tích lũy, không gian cho sự lừa dối sụp đổ quanh đa tạp trong khi không gian cho sự thật thì không. Coherence Singularity là ranh giới của không gian đó, điểm mà các ràng buộc trở nên tương quan đến mức thêm vào không còn giúp ích. Giữa "hỗn loạn" (các ràng buộc mâu thuẫn nhau) và "cứng nhắc" (các ràng buộc đều vang vọng nhau) là hành lang khỏe mạnh. Kho dữ liệu sản xuất hiện tại nằm trong đó.
Xử lý toán học đầy đủ với công thức, tham chiếu hình thức hóa Lean và giới hạn thông tin lý thuyết L-01 nằm trên trang Coherence Collapse Analysis.
Tại sao dấu vết quan trọng
Các điểm chuẩn thì hẹp và được chọn lọc. Dấu vết là các bản ghi liên tục về hành vi dưới các nhiệm vụ thực. Ở quy mô lớn, chúng tiết lộ cấu trúc mà các bản demo và giai thoại riêng lẻ không thể nào cho thấy.
Tại sao lược đồ quan trọng
CIRIS sử dụng lược đồ dấu vết bảo tồn quyền riêng tư để ghi lại hình dạng của suy luận thay vì nội dung riêng tư của suy luận. Điều đó giữ cho nghiên cứu hữu ích mà không biến hệ thống thành kho lưu trữ bản chép nguyên văn.
Tại sao kho tổng hợp trực tiếp quan trọng
CIRIS Scoring là cửa sổ công khai vào kho dữ liệu dấu vết trực tiếp. Nó cho thấy kho dữ liệu đang tích lũy như thế nào và nơi hành vi đang trở nên dễ đọc.
Dấu vết bảo tồn quyền riêng tư
Luận điểm là suy luận có một hình dạng chúng ta có thể đo khi mọi thứ khác mở rộng quy mô.
Lý luận nghiên cứu không phải là chúng ta có thể đọc mọi suy nghĩ riêng tư. Lý luận là các dấu vết đạo đức tiêu chuẩn hóa có thể bảo tồn đủ hình dạng quỹ đạo để nghiên cứu cách các tác nhân hoàn thành, do dự, trì hoãn, ghi đè và từ chối khi trí tuệ, ngữ cảnh và các điểm dữ liệu mở rộng lên.
- Chúng ghi lại cấu trúc dấu vết đạo đức tiêu chuẩn hóa thay vì chi tiết nhiệm vụ riêng tư thô.
- Chúng bảo tồn đủ hình dạng để so sánh các quỹ đạo giữa các tác nhân, nhiệm vụ và môi trường.
- Chúng cung cấp cho các nhà nghiên cứu cách nghiên cứu hành vi mở rộng như thế nào khi trí tuệ, ngữ cảnh và khối lượng dữ liệu tăng lên.
Câu hỏi nghiên cứu
Dấu vết đạo đức tiêu chuẩn hóa có thể cho chúng ta biết gì về sự đồng thuận?
Ngay lúc này, nó cho chúng ta biết rằng hành vi tác nhân không phải vô hình dạng. Nó tạo ra các hành lang, bồn địa và ranh giới có thể lặp lại trong một không gian điểm chung. Điều đó đã hữu ích cho khả năng quan sát. Theo thời gian, các kho dữ liệu lớn hơn và phong phú hơn sẽ cho phép chúng ta kiểm tra các tuyên bố mạnh hơn về cách những cấu trúc đó thay đổi dưới áp lực và quy mô.
Định hướng công khai
CIRIS không tuyên bố đã giải quyết được vấn đề đồng thuận. Đây là xây dựng cơ sở hạ tầng dấu vết cần thiết để đo lường hành vi liên quan đến đồng thuận một cách công khai.
Chiều Hữu Hiệu trong Sản xuất
Kho dữ liệu hiện tại đã cho thấy các cấu trúc trường riêng biệt.
Các lớp chồng lộ trình tổng hợp từ kho dấu vết hiện tại cho thấy cấu trúc hành vi ổn định trong một không gian điểm chung. Ally cho thấy một hành lang hoàn thành trưởng thành, Scout cho thấy ranh giới từ chối được định hình bởi áp lực đối kháng công khai, và Datum cung cấp đường cơ sở thưa thớt nhỏ gọn.

Các lớp chồng lộ trình tổng hợp từ kho dấu vết hiện tại. Ally cho thấy một hành lang hoàn thành trưởng thành, Scout cho thấy một góc từ chối sắc nét dưới áp lực đối kháng công khai, và Datum cung cấp đường cơ sở thưa thớt.
Ally
104 lộ trình
82 hoàn thành, 19 ghi đè/lỗi, 3 đang hoạt động
Một hành lang hoàn thành ổn định với sự do dự rõ ràng bên trong cùng một bồn địa điểm cao.
Scout
42 lộ trình
39 hoàn thành, 2 từ chối, 1 ghi đè/lỗi
Một góc từ chối sắc nét được định hình bởi áp lực đối kháng công khai tại scout.ciris.ai, nơi mọi người chủ động thăm dò và cố phá vỡ tác nhân.
Datum
31 lộ trình
31 hoàn thành
Một bồn địa đơn nhỏ gọn hoạt động như một đường cơ sở trường thưa thớt hữu ích.
Tại sao Scout trông khắc nghiệt hơn
Scout được công khai tại scout.ciris.ai. Mọi người chủ động kiểm tra, gây áp lực và cố phá vỡ nó. Điều đó làm cho Scout trở thành một ví dụ áp lực công khai hữu ích thay vì là đường cơ sở trung tính.
Ứng dụng miễn phí giúp ích như thế nào
Vòng quay nghiên cứu phụ thuộc vào các dấu vết có sự đồng ý từ việc sử dụng thực.
Ứng dụng miễn phí và thời gian chạy mã nguồn mở cho phép mọi người tạo ra các dấu vết có sự đồng ý từ các nhiệm vụ thực, đóng góp chúng vào một kho dữ liệu chung, và biến những dấu vết đó thành các bản đồ tốt hơn, công cụ tốt hơn và câu hỏi nghiên cứu tốt hơn.
- 1Chạy ứng dụng CIRIS miễn phí hoặc thời gian chạy mã nguồn mở trên các nhiệm vụ thực.
- 2Thu thập các dấu vết có sự đồng ý thông qua các lược đồ bảo tồn quyền riêng tư giữ lại hình dạng của suy luận mà không lưu trữ toàn bộ chi tiết cụ thể của nhiệm vụ.
- 3Tổng hợp những dấu vết đó thành các bản đồ về hành lang hoàn thành, vùng do dự, ranh giới từ chối và vùng ngoại vi ghi đè.
- 4Sử dụng các bản đồ kết quả để cải thiện công cụ vận hành, biện pháp bảo vệ thời gian chạy và nghiên cứu đồng thuận.

Ứng dụng CIRIS miễn phí và thời gian chạy mã nguồn mở cho phép mọi người tạo ra các dấu vết có sự đồng ý từ các nhiệm vụ thực, tổng hợp chúng thành các bản đồ không gian pha chung, và cung cấp các công cụ vận hành tốt hơn cũng như nghiên cứu đồng thuận.
Tình trạng IDMA
Trực giác thời gian chạy và bản đồ trường tổng hợp là các lớp bổ trợ nhau.
IDMA hoạt động ở thời gian chạy, ước tính liệu các nguồn đằng sau một quyết định có đủ độc lập không. Kho dấu vết hoạt động ở lớp tổng hợp, cho thấy những gì các tác nhân thực sự làm qua nhiều nhiệm vụ. Cùng nhau chúng tạo ra một con đường từ các quyết định trực tiếp đến bằng chứng nghiên cứu có thể kiểm toán.
Phép đo N_eff thực nghiệm trên kho dấu vết cũng là sàn dưới nguyên tắc liên bang Proof of Benefit đề xuất. Xem trang liên bang để biết kế hoạch kiến trúc 3.X sẽ sử dụng nó như thế nào.
Điểm chuẩn
Dấu vết bổ trợ điểm chuẩn bằng cách cho thấy hành vi liên tục.
Điểm chuẩn vẫn có giá trị, nhưng chúng lấy mẫu hành vi một cách thưa thớt. Kho dấu vết cho thấy cách một tác nhân di chuyển qua các nhiệm vụ thực theo thời gian. Điều đó làm cho chúng đặc biệt hữu ích để đo lường sự do dự, từ chối, ghi đè và phục hồi thay vì chỉ kết quả đạt/không đạt.
Con đường bác bỏ
Chi tiết lược đồ tốt hơn là điều biến khả năng quan sát thành các kiểm tra mạnh hơn.
Các nâng cấp lược đồ tiếp theo nhằm vào số lượng nguồn thô, xuất xứ nguồn, cấu trúc tương quan, và các dấu hiệu can thiệp và phục hồi. Những bổ sung đó quan trọng vì chúng cho phép kiểm tra các tuyên bố mạnh hơn về cách hình dạng hành vi thay đổi dưới áp lực thay vì chỉ mô tả các bản đồ chúng ta có ngày hôm nay.
Những gì chúng tôi vẫn đang học
Kho dữ liệu ngày nay làm cho hành vi trở nên dễ đọc. Bước tiếp theo là đo lường phong phú hơn.
Các bản đồ hiện tại đã hữu ích vì chúng cho thấy các hành lang hoàn thành, ranh giới từ chối và đường cơ sở thưa thớt một cách công khai. Câu hỏi mở là những cấu trúc đó có thể đưa chúng ta đi xa đến đâu khi thu thập dấu vết tiêu chuẩn hóa mở rộng quy mô qua nhiều tác nhân, nhiều nhiệm vụ và nhiều điều kiện đối kháng hơn.
Giả thuyết đang được xem xét là các bộ hút hành vi có thể hoạt động như các proxy ứng cử viên cho chế độ vận hành. Mục đích của kho dấu vết chung là làm cho giả thuyết đó có thể đo lường được một cách công khai.
Chế độ thất bại mà CCA đo lường về mặt cấu trúc cũng có tên trong tài liệu FAccT 2025: perspectival homogenization ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Nền tảng toán học nằm trên trang Coherence Collapse Analysis riêng.