Tiếp xúc đầu tiênCài đặtCơ chế siết chặt tính nhất quánLiên minhSo sánhNghiên cứuHIỆP ƯỚCGitHub
Trang này được dịch bằng máy. Nếu có gì đó đọc không đúng, vui lòng mở một vấn đề — kho lưu trữ là công khai vì một lý do. Báo cáo lỗi dịch thuật
Background Image
AI An Toàn và Có Đạo Đức Nhất Đang Hoạt Động Hiện Nay

Không có trách nhiệm giải trình, AI có xu hướng lấy đi nhiều hơn những gì nó mang lại.

Nếu bạn không thể kiểm tra trách nhiệm giải trình, đó chỉ là quảng cáo. Đây là những điều cần tìm kiếm và cách các phương pháp hiện tại so sánh với nhau.

Ba Loại AI

Lương Tâm là cần thiết. Nhưng chưa đủ.

Một số AI không có quy tắc nào. Một số tuân theo quy tắc nhưng không thể nhận ra khi các nguồn thông tin chỉ đang lặp lại nhau. Chỉ có một loại kiểm tra xem thông tin có thực sự đến từ những nguồn khác nhau hay không.

1

Không Có Quy Tắc

Không có nguyên tắc công bố. Không có lịch sử kiểm toán. Mã nguồn đóng. Bạn không thể kiểm tra nó đã làm gì hay tại sao.

Hầu hết các trợ lý AI dành cho người tiêu dùng (ChatGPT, Gemini) nằm ở đây từ góc độ trách nhiệm giải trình công khai. Có thể có các quy trình nội bộ tốt; bạn không thể xác minh điều đó.

Cần quy định bên ngoài. Không thể tự quản lý.

2

Có Quy Tắc, Không Có Nhận Thức

Tuân theo các quy tắc đạo đức. Nhưng không thể nhận ra khi tất cả các nguồn chỉ đang sao chép nhau, nên có thể tự tin mà sai.

An toàn khi có giám sát. Không thể tự phát hiện buồng vang.

3

Có Quy Tắc + Có Nhận Thức

Tuân theo các quy tắc đạo đức VÀ kiểm tra xem thông tin có thực sự đến từ các nguồn khác nhau không. Khi sự đồng thuận trông đáng ngờ, nó đánh dấu lại trước khi hành động.

Đây là điều CIRIS xây dựng.

Một AI có thể tuân theo mọi quy tắc, vượt qua mọi kiểm toán, và vẫn thất bại nếu tất cả thông tin của nó đến từ cùng một nơi. Điểm mù đó chính là điều CIRIS được xây dựng để khắc phục.

Bảy Điều Cần Kiểm Tra

Sáu điều về đạo đức. Một điều về điểm mù.

Đây là những điều làm cho AI có thể kiểm toán và chịu trách nhiệm. Sáu điều đầu tiên là về việc làm đúng. Điều thứ bảy là về việc phát hiện những tình huống mà 'làm đúng' dựa trên thông tin sai.

1. Nguyên Tắc Được Công Bố

Tác nhân phải tuân theo một khung đạo đức công khai. Không phải quy tắc ẩn: một tài liệu mà bất kỳ ai cũng có thể đọc và giữ nó chịu trách nhiệm.

2. Kiểm Tra Lương Tâm Trên Mỗi Quyết Định

Mỗi hành động đều trải qua kiểm tra lương tâm trước khi tác nhân thực hiện. Không phải sau. Trước.

3. Hỏi Con Người Khi Không Chắc

Khi không chắc chắn hoặc đối mặt với nguy hại tiềm tàng, tác nhân hỏi một người thay vì đoán. Được tích hợp vào quy trình làm việc, không phải tùy chọn.

4. Bằng Chứng Về Những Gì Nó Đã Làm

Mỗi quyết định được ghi lại và ký số để bạn có thể xác minh chính xác điều đã xảy ra và tại sao. Biên lai cho mỗi hành động.

5. Đồng Thuận Hai Chiều

Đồng thuận diễn ra theo cả hai chiều. Bạn có thể nói không với tác nhân. Tác nhân có thể nói không với bạn. Không bên nào bị ép buộc phải nhượng bộ.

6. Mã Nguồn Mở

Bạn không thể kiểm toán những gì bạn không thể nhìn thấy. CIRIS hoàn toàn mã nguồn mở theo AGPL-3.0. Bất kỳ ai cũng có thể đọc, xác minh và cải thiện mã.

7

Phát Hiện Buồng Vang

Điều mà quy tắc đơn thuần không thể phát hiện.

Trước khi hành động, tác nhân hỏi: "Các nguồn của tôi có thực sự không đồng ý với nhau không, hay tất cả đều lấy thông tin từ cùng một nơi?" Mười nguồn đều sao chép từ cùng một gốc thực ra chỉ là một nguồn. Khi sự đồng thuận trông quá đồng đều, tác nhân đánh dấu để một người xem xét.

Quá Nhiễu

Các nguồn mâu thuẫn với nhau đến mức không thể rút ra kết luận hữu ích nào.

Lành Mạnh

Các nguồn thực sự khác nhau. Sự đồng thuận thực sự có ý nghĩa.

Buồng Vang

Trông như sự đồng thuận, nhưng các nguồn chỉ đang lặp lại nhau.

Đây là điều làm cho CIRIS khác biệt so với các khung trách nhiệm AI khác.

Muốn xem toán học? Đọc toàn bộ luận văn →

Bối Cảnh Hiện Tại

Các dự án khác nhau, mục tiêu khác nhau.

Dựa trên tài liệu công khai tính đến tháng Hai năm 2026. Nếu chúng tôi bỏ sót điều gì đó hoặc hiểu sai, hãy cho chúng tôi biết.

Dự ÁnKiểm Tra Mỗi Quyết ĐịnhQuy Tắc Được Công BốLương Tâm Tích HợpBằng Chứng Về Những Gì Đã LàmMã Nguồn MởPhát Hiện Buồng Vang
CIRISAGPL-3.0
Constitutional AIChỉ trong quá trình huấn luyệnNgầm địnhKhôngKhôngKhôngKhông
LlamaFirewall / NeMo GuardrailsKhôngKhôngGhi nhật kýKhông
HatCatMột phầnĐiều chỉnh hướngMột phầnCC0Không
Hội Đồng Đạo Đức / Khung Quản TrịKhôngKhôngThủ côngTùy thuộcKhông

Bộ lọc đầu ra và khung quản trị giải quyết các vấn đề quan trọng nhưng khác nhau. Bộ lọc chặn các đầu ra có hại. Lương tâm suy luận về các giá trị. CIRIS nhằm mục đích làm cả hai, và phát hiện những điểm mù mà không phương pháp nào giải quyết được khi đứng một mình.

Ba Lớp Bảo Vệ

Mỗi lớp giải quyết một vấn đề khác nhau.

Bộ Lọc Đầu Ra

Chặn các đầu ra nguy hiểm: tấn công injection vào lệnh, nội dung có hại, tấn công đối kháng. Giống như một bộ lọc bắt những thứ xấu trên đường ra.

Lương Tâm Đạo Đức

Suy luận xem một hành động có đúng không, chứ không chỉ có an toàn không. Giống như một thẩm phán cân nhắc tình huống trước khi đưa ra quyết định.

Phát Hiện Buồng Vang

Kiểm tra xem sự đồng thuận có thực hay chỉ là sự lặp lại. Giống như một người kiểm chứng sự thật hỏi "các bạn có đọc cùng một bài không?"

Nhiều Tác Nhân Nhất Quán

Quản trị phi tập trung, không tập trung quyền lực.

Không Có Điểm Thất Bại Đơn

Các tác nhân nhỏ hơn, mỗi tác nhân đều có trách nhiệm.

Nhiều tác nhân nhỏ hơn, mỗi tác nhân được ràng buộc bởi các nguyên tắc đã công bố, mỗi tác nhân có thể kiểm toán, mỗi tác nhân chuyển giao cho thẩm quyền của con người. Không có công ty hay tổ chức nào kiểm soát toàn bộ hệ thống. Các tác nhân càng độc lập, thì một thất bại đơn lẻ càng khó có thể lan rộng.

Trạng Thái Nghiên Cứu

Đây là nghiên cứu đang tiến hành. Chúng tôi minh bạch về những gì đã được xác lập và những gì vẫn đang được kiểm tra.

Đã xác lập tốt

  • - Các nguồn sao chép làm giảm sự đa dạng thực sự
  • - Các mô hình AI chia sẻ dữ liệu huấn luyện chồng chéo
  • - Buồng vang tạo ra sự tự tin sai lầm
  • - Xác minh độc lập phát hiện nhiều lỗi hơn

Vẫn đang được kiểm tra

  • - Đo chính xác mức độ sao chép của các nguồn AI
  • - Ngưỡng tốt nhất để đánh dấu buồng vang
  • - Mức độ hiệu quả của các biện pháp can thiệp trong việc giảm sao chép
  • - Điều này thay đổi như thế nào trên các lĩnh vực khác nhau

Tự Mình Thử

Tự Mình Xác Minh.

Mã nguồn mở. Mở để kiểm tra.

Mọi tuyên bố trên trang này đều được hỗ trợ bởi mã bạn có thể đọc, dấu vết bạn có thể xác minh và nghiên cứu bạn có thể kiểm tra. Đó là điểm mấu chốt.