Tin tưởng các trọng số, hay kiểm tra hành vi

Dòng chính của an toàn AI cố gắng làm cho mô hình tốt từ bên trong: huấn luyện các giá trị của nó, nghiên cứu suy nghĩ của nó, để nó tự tranh luận với chính mình. Công việc đó quan trọng. CIRIS đặt cược vào con đường kia. Giả định rằng một mô hình có năng lực có thể bị lệch lạc, và thay vì tin tưởng vào tâm trí của nó, hãy làm cho các hành động quan trọng của nó phải chịu trách nhiệm trước con người và các hệ thống khác có thể kiểm tra chúng.

Theo thuật ngữ của lĩnh vực này, CIRIS thuộc nhánh thể chế và kiểm soát, cùng với kiểm soát AI và AI đảm bảo an toàn, chứ không phải dòng chính nội hóa giá trị của RLHF, Constitutional AI, tranh luận và khả năng diễn giải. Câu trả lời của nó cho giám sát có thể mở rộng, tức là cách bạn giám sát thứ gì đó thông minh hơn bạn, là xác minh phong bì trách nhiệm, không phải lý luận. Một chữ ký, một đại biểu số đông, một kiểm tra hash chuỗi vẫn rẻ để kiểm tra ngay cả khi quyết định đằng sau chúng là siêu nhân. Nó căn chỉnh các hệ thống gồm nhiều tác nhân có năng lực theo thời gian, không phải các giá trị của bất kỳ tâm trí đơn lẻ nào.

Ranh giới chúng tôi giữ

Nó không cố gắng căn chỉnh một AI toàn năng duy nhất. Đó là chủ đích.

Trách nhiệm cần nhiều hơn một bên. Cần có người để trả lời. Cần một cách kiểm tra không thể bị nuốt chửng lặng lẽ. Cần một sự cân bằng quyền lực mà không bên nào có thể nắm bắt. Một siêu trí tuệ duy nhất không có bất kỳ điều nào trong số này, vì vậy không có cách trung thực nào để buộc nó phải chịu trách nhiệm. CIRIS được xây dựng cho tương lai kia: nhiều tác nhân có năng lực, con người và tổ chức mà các quyết định quan trọng của họ đều có thể được kiểm tra độc lập.

Vì vậy lập trường này là rõ ràng. Một ASI độc nhất không phải là hệ thống cần được căn chỉnh mà là điều kiện cần được ngăn chặn. Tập trung năng lực siêu nhân vào một nơi không chịu trách nhiệm, ở giai đoạn phát triển thể chế con người hiện nay, là không hợp pháp, vì không có thể chế nào đủ trưởng thành để buộc nó phải chịu trách nhiệm, và đó chính xác là mối nguy hiểm. Theo thuật ngữ của khung này, một thực thể độc nhất là sự sụp đổ tiếng nói đơn ρ→1 mà mô hình hành lang gọi là thất bại phối hợp, không phải thành công. Việc các đảm bảo của chúng tôi duy trì trong một liên đoàn và suy yếu trước một thực thể độc nhất không phải là khoảng trống chúng tôi đang vá lại. Đó là chế độ chúng tôi từ chối hợp pháp hóa, được giữ như một cam kết, không chỉ là một dự đoán.

Công trình liên quan, một cách trung thực

Mỗi người hàng xóm gần điền vào một số ô. Một hàng điền vào tất cả.

CIRIS có những người đồng nghiệp trí tuệ nghiêm túc, mỗi người mạnh trong lĩnh vực riêng của mình. Mục đích của bảng này không phải là các ý tưởng chưa từng có tiền lệ. Mà là hầu như không ai đã xây dựng và vận chuyển toàn bộ ngăn xếp như một hệ thống chịu trách nhiệm duy nhất. Mỗi hàng dưới đây là một dòng thực sự đáng đọc. Chỉ có hàng cuối cùng kiểm tra mọi cột, và sự tích hợp đó là tuyên bố.

Phương pháp	Công trình gần nhất	Cơ chế	Thời gian chạy, không phải huấn luyện	Ký quyết định	Hiến pháp thời gian chạy	Xác minh liên đoàn	Tuân thủ có thể thực thi	Vận chuyển
Luận điểm thể chế	Gillian Hadfield	Cơ sở hạ tầng chuẩn mực và thị trường quy định, dưới dạng lý thuyết và chính sách	Lý thuyết	Không	Lý thuyết	Lý thuyết	Không	Không
Đồ thị quản trị	Institutional AI (Pierucci và cộng sự)	Đồ thị công khai về các trạng thái pháp lý và chế tài, dưới dạng nguyên mẫu nghiên cứu	Nghiên cứu	Không	Nghiên cứu	Không	Không	Không
Quản trị hiến pháp trên chuỗi	AgentCity (Ruan, Zhang)	Phân chia quyền lực dưới dạng hợp đồng thông minh, được đăng ký trước trên một mạng thử nghiệm	Nghiên cứu	Một phần	Nghiên cứu	Không	Không	Không
Giả định mô hình bị lệch lạc	Redwood Research (kiểm soát AI)	Giám sát và kiểm tra đỏ trong một triển khai	Có	Không	Không	Không	Nghiên cứu	Nghiên cứu
Có thể chứng minh an toàn, bên ngoài hóa	davidad, Bengio, dòng GS-AI	Bằng chứng hình thức trên các mô hình thế giới	Một phần	Không	Lý thuyết	Lý thuyết	Nghiên cứu	Không
Hiến pháp tại thời điểm huấn luyện	Anthropic Constitutional AI	Các giá trị được huấn luyện vào trọng số, một tổ chức	Không	Không	Không	Không	Không	Có
Xuất xứ mật mã	C2PA, zkML (EZKL, Giza)	Ký xuất xứ phương tiện, chứng minh một suy luận đã chạy	Có	Một phần	Không	Một phần	Một phần	Có
DAG lý luận được ký	Proof of Insight (Arclio)	Một đồ thị được ký của các bước suy diễn AI, dưới dạng bản thảo đặc tả	Không	Một phần	Không	Lý thuyết	Lý thuyết	Không
Suy luận được chứng thực phần cứng	Phala, Marlin, Attestable Audits	Chạy suy luận trong một vùng enclave bảo mật ký đầu ra	Có	Một phần	Không	Một phần	Không	Một phần
Danh tính phi tập trung và liên đoàn	atproto, Bittensor	Liên đoàn xã hội hoặc tính toán, không có lớp lương tâm	Một phần	Không	Không	Một phần	Một phần	Có
Giao thức tác nhân	MCP, A2A	Khả năng tương tác công cụ và tác nhân, không có quản trị	Có	Không	Không	Không	Một phần	Có
Bộ đánh giá an toàn và tuân thủ	MLCommons, METR, HarmBench	Các điểm chuẩn có thể thực thi chấm điểm hành vi mô hình, không phải quyết định	Không	Không	Không	Không	Một phần	Có
Kiểm toán bên thứ ba và liên đoàn	AISI Network, GovAI	Các viện độc lập cùng nhau kiểm tra các hệ thống đã triển khai	Một phần	Không	Không	Có	Không	Một phần
CIRIS	Hệ thống này	Chuỗi lương tâm đến các tạo phẩm được ký, hiến pháp thời gian chạy, liên đoàn hậu lượng tử	Có	Có	Có	Có	Có	Có

Được lập bản đồ từ công trình công khai tính đến tháng 6 năm 2026, mỗi hàng được trích dẫn bên dưới. Nếu chúng tôi hiểu sai một người hàng xóm gần, hãy cho chúng tôi biết và chúng tôi sẽ sửa hàng đó.

Nguồn

02AI Tiêu Dùng

So sánh với AI bạn thực sự dùng

Các trợ lý hàng ngày rất mạnh mẽ và dễ sử dụng. Chúng cũng chạy trên đám mây của người khác, không lưu lại bất kỳ hồ sơ nào bạn có thể kiểm tra, và không chịu trách nhiệm trước bất kỳ ai bạn có thể nêu tên. Đây là bài kiểm tra trách nhiệm giải trình tương tự, áp dụng cho AI mà hầu hết mọi người mở ra mỗi ngày.

Trợ Lý	Nguyên tắc đã công bố	Bằng chứng về việc nó đã làm	Hỏi người khi không chắc	Mã nguồn mở	Kiểm tra buồng vọng
ChatGPT	Có	Không	Không	Không	Không
Gemini	Có	Không	Không	Không	Không
Claude	Có	Không	Không	Không	Không
CIRIS	Có	Có	Có	Có	Có

So sánh dựa trên hành vi sản phẩm công khai tính đến tháng 6 năm 2026. Mỗi liên kết nguyên tắc dẫn đến thông số kỹ thuật đã công bố của chính công ty đó.

Hầu hết lĩnh vực này đang căn chỉnh mô hình. CIRIS đang xây dựng các thể chế xung quanh nó.

Tin tưởng các trọng số, hay kiểm tra hành vi

Nó không cố gắng căn chỉnh một AI toàn năng duy nhất. Đó là chủ đích.

So sánh với AI bạn thực sự dùng

Tự Mình Thử

Xem Nó Suy Nghĩ

Xác Minh Danh Tính Của Nó

Bắt Đầu