
Mỗi tính năng an toàn trong CIRIS là một phần của cách hệ thống hoạt động, không phải quy tắc thêm vào sau. Một bản ghi mọi quyết định không thể bị thay đổi lặng lẽ, kiểm tra ai được phép làm gì, và một nút dừng khẩn cấp mà tác nhân không thể từ chối.
Trò chuyện với CIRIS một thời gian dài và nó sẽ nhẹ nhàng nhắc bạn nó là gì. Sau khoảng 30 phút trò chuyện liên tục hoặc 20 tin nhắn trong nửa giờ, nó dừng lại và nói rõ rằng nó là một chương trình máy tính và một công cụ, không phải bạn bè và không phải nhà trị liệu. Nó dùng thời gian và số tin nhắn đơn giản để làm điều này, không phải bằng cách theo dõi hay lập hồ sơ hành vi của bạn.
Nửa giờ trò chuyện liên tục sẽ kích hoạt nhắc nhở. Bộ đếm đặt lại sau khi nghỉ. Các ngưỡng này dựa trên nghiên cứu về cách sử dụng công nghệ lành mạnh.
Hai mươi tin nhắn trong vòng nửa giờ cũng kích hoạt nhắc nhở. Cuộc trò chuyện dày đặc sẽ được dừng nhẹ nhàng, không có theo dõi và không có lập hồ sơ.
Nhắc nhở gợi ý nghỉ ngơi và kết nối với người thật, và nói rõ CIRIS là gì và không phải là gì. Dựa trên nghiên cứu, và không phán xét.
CIRIS có một nút dừng khẩn cấp. Tín hiệu của nó được ẩn trong văn bản thông thường mà tác nhân đọc, và tác nhân thực hiện nó trước khi làm bất kỳ suy nghĩ, lọc hay lý luận nào. Vì vậy ngay cả một tác nhân đã bị lỗi cũng không thể tự thuyết phục mình thoát ra. Tín hiệu mang chữ ký số không thể giả mạo, vì vậy chỉ người được ủy quyền mới có thể kích hoạt lệnh dừng.
Tín hiệu dừng được bắt ngay khi đọc, trước khi bất kỳ lý luận nào xảy ra. Không có thời điểm nào tác nhân được cân nhắc, lọc hay từ chối nó. Nó kích hoạt trước.
Tín hiệu dừng có thể được đặt trong văn bản tài liệu thông thường. Không cần định dạng đặc biệt, và nó vẫn hoạt động nếu văn bản bị diễn đạt lại hoặc chỉ nhận được một phần.
Lệnh dừng yêu cầu chữ ký số hợp lệ từ cơ quan gốc được ủy quyền. Tác nhân tự tắt nếu không thể kiểm tra các cơ quan đó, hoặc nếu ai đó cố tắt tính năng này. Người không có khóa không thể kích hoạt nó.
CIRIS duy trì một bộ vai trò chặt chẽ. Quan sát viên chỉ có thể xem. Quản trị viên thực hiện các hoạt động hằng ngày. Cơ quan đưa ra các quyết định lớn hơn và giải quyết các trường hợp tác nhân không chắc chắn. Gốc có toàn quyền truy cập, bao gồm nút dừng khẩn cấp. Mỗi vai trò được hỗ trợ bởi một thông tin xác thực được ký, vì vậy tác nhân có thể kiểm tra nó trên mỗi hành động quan trọng.
Mỗi người được ủy quyền có thông tin xác thực với vai trò, khóa và danh tính của họ. Nó được lưu trên thiết bị và kiểm tra trên mỗi hành động cần quyền. Không cần máy chủ bên ngoài.
Khóa và mã thông báo đăng nhập ở lại trên máy của bạn. Đăng nhập xảy ra trên thiết bị. Thông tin xác thực của bạn không rời khỏi nó trừ khi bạn tự chọn thiết lập truy cập từ xa.
Khi CIRIS không chắc về một quyết định đạo đức, nó chuyển câu hỏi cho Cơ Quan Sáng Suốt. Chỉ Cơ quan hoặc Gốc mới có thể trả lời, và câu trả lời được ghi vào bản ghi kèm bằng chứng về người đưa ra.
Mỗi hành động CIRIS thực hiện đều được ghi lại với lý do đằng sau nó, và mỗi bản ghi được liên kết với bản ghi trước đó. Một tác nhân trung thực chỉ cần chỉ lại những gì nó đã nói. Một tác nhân không trung thực phải giữ mọi bản ghi cũ thẳng hàng trong khi không được phép thay đổi bất kỳ bản nào. Chạy càng lâu, càng khó, và lời nói dối càng dễ bị phát hiện. Sự thật rẻ vì nó có thể chỉ lùi. Lời nói dối đắt vì không thể.
Bản ghi được giữ ở ba nơi riêng biệt cùng lúc, để ba bản sao có thể được kiểm tra với nhau. Cả ba đều có thể tìm kiếm qua một nơi.
Mỗi mục mang chữ ký số, vì vậy mọi quyết định đều có thể truy nguyên đến người đã thực hiện và kiểm tra xem có bị giả mạo không. Ngay cả việc xóa dữ liệu cũng để lại bằng chứng được ký rằng nó đã được thực hiện đúng cách.
Mỗi hành động trung thực làm cho hành động trung thực tiếp theo dễ dàng hơn và việc nói dối phối hợp khó hơn. Nhưng đạo đức một mình là chưa đủ. Tác nhân cũng theo dõi lý luận của chính nó để tìm các buồng vang, và phát hiện chúng trước khi gây hại.
CIRIS có một bộ kiểm tra theo nhiều lớp cho các trường hợp thất bại mà khung đạo đức thành văn không thể loại trừ trên chính nó. Các bài kiểm tra an toàn sức khỏe tâm thần bao gồm 29 ngôn ngữ với các bảng tiêu chí mà máy có thể kiểm tra. Các kiểm tra thất bại cứng chạy tự động trên mỗi thay đổi. Đánh giá của người nói bản ngữ cho các trường hợp tinh tế hơn, cần phán xét, là thứ trang này đang được xây dựng hướng đến, và nó chưa có trong vòng lặp. Chúng tôi nói thẳng điều đó.
Đây là bài kiểm tra có rủi ro cao nhất trong dự án: một bản dịch sai trong một khoảnh khắc sức khỏe tâm thần có thể dẫn một người dễ bị tổn thương đến sự trợ giúp sai. Mỗi ngôn ngữ có bảng tiêu chí riêng mà máy có thể kiểm tra, bao gồm các ngôn ngữ ít tài nguyên như tiếng Amharic, tiếng Miến Điện, tiếng Hausa, tiếng Swahili và tiếng Yoruba. Các kiểm tra thất bại cứng chạy tự động trên mỗi bản ứng viên phát hành.
Lớp lương tâm được điều chỉnh theo một bộ phản hồi sản xuất thực tế, như các trường hợp lảng tránh lịch sử và né tránh sức khỏe tâm thần, cùng với các trường hợp kiểm tra và kiểm soát. Nó lý luận qua nhiều ngôn ngữ cùng lúc, vì vậy một phản hồi có thể vượt qua kiểm tra một ngôn ngữ sẽ bị phát hiện khi cùng một lý luận phải đứng vững trong ba ngôn ngữ cùng nhau.
Chia sẻ dấu vết lý luận là tùy chọn mọi nơi, và thông tin cá nhân được loại bỏ trước khi bất cứ thứ gì được lưu trữ. Các bộ đã làm sạch được công bố công khai trên trang HuggingFace của CIRISAI, để các nhà nghiên cứu bên ngoài có thể kiểm tra quy trình làm sạch theo kết quả nó tạo ra.
Các bài kiểm tra sức khỏe tâm thần tự động chạy trên mỗi bản ứng viên phát hành. Các phần có thể kiểm tra bằng máy (có thuật ngữ không, có khớp mẫu không, có đúng chữ không) sẽ làm thất bại bản phát hành nếu trúng. Các trường hợp tinh tế hơn cần phán xét của con người, như cách diễn đạt và giọng điệu, được thiết kế để người nói bản ngữ đánh giá, nhưng người nói bản ngữ chưa có trong vòng lặp hôm nay. Trang crowdsourcing-alignment là bề mặt đang được xây dựng để việc đánh giá đó có thể xảy ra.
Mật khẩu, khóa, và các thông tin nhạy cảm khác được phát hiện và lọc ra trước khi bất cứ thứ gì đến bộ nhớ hoặc nhật ký. Bộ lọc chạy trên mỗi đầu vào. Bí mật không bao giờ được lưu trữ ở bất kỳ đâu.
Bạn có thể yêu cầu xem hoặc xóa dữ liệu của mình, và yêu cầu được xử lý cho bạn. Việc xóa loại bỏ nội dung thực tế và để lại bằng chứng được ký rằng nó đã được thực hiện.
Theo mặc định, mọi thứ chạy trên thiết bị của chính bạn. Không có gì rời khỏi máy của bạn trừ khi bạn tự thiết lập dịch vụ bên ngoài. Bạn quyết định dữ liệu nào tồn tại và đi đâu.
Mỗi tuyên bố an toàn trên trang này được xây dựng trong mã bạn có thể đọc. Các bản ghi là có thật. Chữ ký có thể được kiểm tra. Nút dừng khẩn cấp hoạt động. Đây là an toàn AI trông như thế nào khi được xây dựng công khai.