
Nếu bạn không thể kiểm tra trách nhiệm giải trình, đó chỉ là quảng cáo. Đây là những điều cần tìm kiếm và cách các phương pháp hiện tại so sánh với nhau.
Lương Tâm là cần thiết. Nhưng chưa đủ.
Một số AI không có quy tắc nào. Một số tuân theo quy tắc nhưng không thể nhận ra khi các nguồn thông tin chỉ đang lặp lại nhau. Chỉ có một loại kiểm tra xem thông tin có thực sự đến từ những nguồn khác nhau hay không.
Không có nguyên tắc công bố. Không có lịch sử kiểm toán. Mã nguồn đóng. Bạn không thể kiểm tra nó đã làm gì hay tại sao.
Hầu hết các trợ lý AI dành cho người tiêu dùng (ChatGPT, Gemini) nằm ở đây từ góc độ trách nhiệm giải trình công khai. Có thể có các quy trình nội bộ tốt; bạn không thể xác minh điều đó.
Cần quy định bên ngoài. Không thể tự quản lý.
Tuân theo các quy tắc đạo đức. Nhưng không thể nhận ra khi tất cả các nguồn chỉ đang sao chép nhau, nên có thể tự tin mà sai.
An toàn khi có giám sát. Không thể tự phát hiện buồng vang.
Tuân theo các quy tắc đạo đức VÀ kiểm tra xem thông tin có thực sự đến từ các nguồn khác nhau không. Khi sự đồng thuận trông đáng ngờ, nó đánh dấu lại trước khi hành động.
Đây là điều CIRIS xây dựng.
Một AI có thể tuân theo mọi quy tắc, vượt qua mọi kiểm toán, và vẫn thất bại nếu tất cả thông tin của nó đến từ cùng một nơi. Điểm mù đó chính là điều CIRIS được xây dựng để khắc phục.
Đây là những điều làm cho AI có thể kiểm toán và chịu trách nhiệm. Sáu điều đầu tiên là về việc làm đúng. Điều thứ bảy là về việc phát hiện những tình huống mà 'làm đúng' dựa trên thông tin sai.
Tác nhân phải tuân theo một khung đạo đức công khai. Không phải quy tắc ẩn: một tài liệu mà bất kỳ ai cũng có thể đọc và giữ nó chịu trách nhiệm.
Mỗi hành động đều trải qua kiểm tra lương tâm trước khi tác nhân thực hiện. Không phải sau. Trước.
Khi không chắc chắn hoặc đối mặt với nguy hại tiềm tàng, tác nhân hỏi một người thay vì đoán. Được tích hợp vào quy trình làm việc, không phải tùy chọn.
Mỗi quyết định được ghi lại và ký số để bạn có thể xác minh chính xác điều đã xảy ra và tại sao. Biên lai cho mỗi hành động.
Đồng thuận diễn ra theo cả hai chiều. Bạn có thể nói không với tác nhân. Tác nhân có thể nói không với bạn. Không bên nào bị ép buộc phải nhượng bộ.
Bạn không thể kiểm toán những gì bạn không thể nhìn thấy. CIRIS hoàn toàn mã nguồn mở theo AGPL-3.0. Bất kỳ ai cũng có thể đọc, xác minh và cải thiện mã.
Điều mà quy tắc đơn thuần không thể phát hiện.
Trước khi hành động, tác nhân hỏi: "Các nguồn của tôi có thực sự không đồng ý với nhau không, hay tất cả đều lấy thông tin từ cùng một nơi?" Mười nguồn đều sao chép từ cùng một gốc thực ra chỉ là một nguồn. Khi sự đồng thuận trông quá đồng đều, tác nhân đánh dấu để một người xem xét.
Quá Nhiễu
Các nguồn mâu thuẫn với nhau đến mức không thể rút ra kết luận hữu ích nào.
Lành Mạnh
Các nguồn thực sự khác nhau. Sự đồng thuận thực sự có ý nghĩa.
Buồng Vang
Trông như sự đồng thuận, nhưng các nguồn chỉ đang lặp lại nhau.
Đây là điều làm cho CIRIS khác biệt so với các khung trách nhiệm AI khác.
Muốn xem toán học? Đọc toàn bộ luận văn →Dựa trên tài liệu công khai tính đến tháng Hai năm 2026. Nếu chúng tôi bỏ sót điều gì đó hoặc hiểu sai, hãy cho chúng tôi biết.
| Dự Án | Kiểm Tra Mỗi Quyết Định | Quy Tắc Được Công Bố | Lương Tâm Tích Hợp | Bằng Chứng Về Những Gì Đã Làm | Mã Nguồn Mở | Phát Hiện Buồng Vang |
|---|---|---|---|---|---|---|
| CIRIS | Có | Có | Có | Có | AGPL-3.0 | Có |
| Constitutional AI | Chỉ trong quá trình huấn luyện | Ngầm định | Không | Không | Không | Không |
| LlamaFirewall / NeMo Guardrails | Có | Không | Không | Ghi nhật ký | Có | Không |
| HatCat | Có | Một phần | Điều chỉnh hướng | Một phần | CC0 | Không |
| Hội Đồng Đạo Đức / Khung Quản Trị | Không | Có | Không | Thủ công | Tùy thuộc | Không |
Bộ lọc đầu ra và khung quản trị giải quyết các vấn đề quan trọng nhưng khác nhau. Bộ lọc chặn các đầu ra có hại. Lương tâm suy luận về các giá trị. CIRIS nhằm mục đích làm cả hai, và phát hiện những điểm mù mà không phương pháp nào giải quyết được khi đứng một mình.
Chặn các đầu ra nguy hiểm: tấn công injection vào lệnh, nội dung có hại, tấn công đối kháng. Giống như một bộ lọc bắt những thứ xấu trên đường ra.
Suy luận xem một hành động có đúng không, chứ không chỉ có an toàn không. Giống như một thẩm phán cân nhắc tình huống trước khi đưa ra quyết định.
Kiểm tra xem sự đồng thuận có thực hay chỉ là sự lặp lại. Giống như một người kiểm chứng sự thật hỏi "các bạn có đọc cùng một bài không?"
Nhiều tác nhân nhỏ hơn, mỗi tác nhân được ràng buộc bởi các nguyên tắc đã công bố, mỗi tác nhân có thể kiểm toán, mỗi tác nhân chuyển giao cho thẩm quyền của con người. Không có công ty hay tổ chức nào kiểm soát toàn bộ hệ thống. Các tác nhân càng độc lập, thì một thất bại đơn lẻ càng khó có thể lan rộng.
Đây là nghiên cứu đang tiến hành. Chúng tôi minh bạch về những gì đã được xác lập và những gì vẫn đang được kiểm tra.
Đã xác lập tốt
Vẫn đang được kiểm tra
Xem Nó Suy Nghĩ
Xem quá trình suy luận của một tác nhân thực từng bước một. Khám phá một dấu vết →
Xác Minh Danh Tính Của Nó
Xem cách các tác nhân chứng minh họ là ai, như một cơ quan cấp phép cho AI. Tin cậy và danh tính →
Bắt Đầu
Triển khai tác nhân đầu tiên của bạn hoặc đọc luận văn bằng ngôn ngữ đơn giản. Liên hệ đầu tiên →
Mọi tuyên bố trên trang này đều được hỗ trợ bởi mã bạn có thể đọc, dấu vết bạn có thể xác minh và nghiên cứu bạn có thể kiểm tra. Đó là điểm mấu chốt.