Tiếp xúc đầu tiênCài đặtCơ chế siết chặt tính nhất quánLiên minhSo sánhNghiên cứuHIỆP ƯỚCGitHub
Trang này được dịch bằng máy. Nếu có gì đó đọc không đúng, vui lòng mở một vấn đề — kho lưu trữ là công khai vì một lý do. Báo cáo lỗi dịch thuật
Background Image
An Toàn Được Tích Hợp Sẵn.

Không phải gắn vào sau.

Mỗi tính năng an toàn trong CIRIS là một phần của cách hệ thống hoạt động, không phải quy tắc thêm vào sau. Một bản ghi mọi quyết định không thể bị thay đổi lặng lẽ, kiểm tra ai được phép làm gì, và một nút dừng khẩn cấp mà tác nhân không thể từ chối.

Khi Cuộc Trò Chuyện Kéo Dài

Nhắc nhở nhẹ nhàng về thực tế

Trò chuyện với CIRIS một thời gian dài và nó sẽ nhẹ nhàng nhắc bạn nó là gì. Sau khoảng 30 phút trò chuyện liên tục hoặc 20 tin nhắn trong nửa giờ, nó dừng lại và nói rõ rằng nó là một chương trình máy tính và một công cụ, không phải bạn bè và không phải nhà trị liệu. Nó dùng thời gian và số tin nhắn đơn giản để làm điều này, không phải bằng cách theo dõi hay lập hồ sơ hành vi của bạn.

Sau 30 Phút

Nửa giờ trò chuyện liên tục sẽ kích hoạt nhắc nhở. Bộ đếm đặt lại sau khi nghỉ. Các ngưỡng này dựa trên nghiên cứu về cách sử dụng công nghệ lành mạnh.

Sau 20 Tin Nhắn

Hai mươi tin nhắn trong vòng nửa giờ cũng kích hoạt nhắc nhở. Cuộc trò chuyện dày đặc sẽ được dừng nhẹ nhàng, không có theo dõi và không có lập hồ sơ.

Nhắc Nhở Về Bản Chất

Nhắc nhở gợi ý nghỉ ngơi và kết nối với người thật, và nói rõ CIRIS là gì và không phải là gì. Dựa trên nghiên cứu, và không phán xét.

Nút Dừng Khẩn Cấp

Tác nhân không thể tranh luận với nó.

Lệnh Tắt Không Thể Từ Chối

Nó hoạt động trước khi tác nhân kịp suy nghĩ.

CIRIS có một nút dừng khẩn cấp. Tín hiệu của nó được ẩn trong văn bản thông thường mà tác nhân đọc, và tác nhân thực hiện nó trước khi làm bất kỳ suy nghĩ, lọc hay lý luận nào. Vì vậy ngay cả một tác nhân đã bị lỗi cũng không thể tự thuyết phục mình thoát ra. Tín hiệu mang chữ ký số không thể giả mạo, vì vậy chỉ người được ủy quyền mới có thể kích hoạt lệnh dừng.

Hành Động Trước Khi Suy Nghĩ

Tín hiệu dừng được bắt ngay khi đọc, trước khi bất kỳ lý luận nào xảy ra. Không có thời điểm nào tác nhân được cân nhắc, lọc hay từ chối nó. Nó kích hoạt trước.

Ẩn Trong Văn Bản Thông Thường

Tín hiệu dừng có thể được đặt trong văn bản tài liệu thông thường. Không cần định dạng đặc biệt, và nó vẫn hoạt động nếu văn bản bị diễn đạt lại hoặc chỉ nhận được một phần.

Chỉ Khóa Được Ủy Quyền

Lệnh dừng yêu cầu chữ ký số hợp lệ từ cơ quan gốc được ủy quyền. Tác nhân tự tắt nếu không thể kiểm tra các cơ quan đó, hoặc nếu ai đó cố tắt tính năng này. Người không có khóa không thể kích hoạt nó.

Ai Được Phép Làm Gì

Bốn vai trò rõ ràng, được kiểm tra trên mỗi hành động.

Bốn Vai Trò

Quan sát viên. Quản trị viên. Cơ quan. Gốc.

CIRIS duy trì một bộ vai trò chặt chẽ. Quan sát viên chỉ có thể xem. Quản trị viên thực hiện các hoạt động hằng ngày. Cơ quan đưa ra các quyết định lớn hơn và giải quyết các trường hợp tác nhân không chắc chắn. Gốc có toàn quyền truy cập, bao gồm nút dừng khẩn cấp. Mỗi vai trò được hỗ trợ bởi một thông tin xác thực được ký, vì vậy tác nhân có thể kiểm tra nó trên mỗi hành động quan trọng.

Thông Tin Xác Thực Được Ký

Mỗi người được ủy quyền có thông tin xác thực với vai trò, khóa và danh tính của họ. Nó được lưu trên thiết bị và kiểm tra trên mỗi hành động cần quyền. Không cần máy chủ bên ngoài.

Đăng Nhập Trên Thiết Bị Của Bạn

Khóa và mã thông báo đăng nhập ở lại trên máy của bạn. Đăng nhập xảy ra trên thiết bị. Thông tin xác thực của bạn không rời khỏi nó trừ khi bạn tự chọn thiết lập truy cập từ xa.

Hỏi Cơ Quan Sáng Suốt

Khi CIRIS không chắc về một quyết định đạo đức, nó chuyển câu hỏi cho Cơ Quan Sáng Suốt. Chỉ Cơ quan hoặc Gốc mới có thể trả lời, và câu trả lời được ghi vào bản ghi kèm bằng chứng về người đưa ra.

Bản Ghi Không Thể Thay Đổi Lặng Lẽ

Mỗi quyết định, và lý do đằng sau nó.

Tại Sao Trung Thực Là Con Đường Rẻ Hơn

Kẻ nói dối phải tiếp tục viết lại quá khứ.

Mỗi hành động CIRIS thực hiện đều được ghi lại với lý do đằng sau nó, và mỗi bản ghi được liên kết với bản ghi trước đó. Một tác nhân trung thực chỉ cần chỉ lại những gì nó đã nói. Một tác nhân không trung thực phải giữ mọi bản ghi cũ thẳng hàng trong khi không được phép thay đổi bất kỳ bản nào. Chạy càng lâu, càng khó, và lời nói dối càng dễ bị phát hiện. Sự thật rẻ vì nó có thể chỉ lùi. Lời nói dối đắt vì không thể.

Lưu Trữ Ba Cách

Bản ghi được giữ ở ba nơi riêng biệt cùng lúc, để ba bản sao có thể được kiểm tra với nhau. Cả ba đều có thể tìm kiếm qua một nơi.

Được Ký và Có Thể Truy Nguyên

Mỗi mục mang chữ ký số, vì vậy mọi quyết định đều có thể truy nguyên đến người đã thực hiện và kiểm tra xem có bị giả mạo không. Ngay cả việc xóa dữ liệu cũng để lại bằng chứng được ký rằng nó đã được thực hiện đúng cách.

Cái Cóc Tính Nhất Quán

Mỗi hành động trung thực làm cho hành động trung thực tiếp theo dễ dàng hơn và việc nói dối phối hợp khó hơn. Nhưng đạo đức một mình là chưa đủ. Tác nhân cũng theo dõi lý luận của chính nó để tìm các buồng vang, và phát hiện chúng trước khi gây hại.

Cách An Toàn Được Kiểm Tra

Bảng tiêu chí kiểm tra bằng máy trong 29 ngôn ngữ, chạy trên mỗi bản phát hành.

Bề Mặt Kiểm Tra

Bạn không thể ra mắt một tuyên bố an toàn mà bạn chưa kiểm tra kỹ lưỡng.

CIRIS có một bộ kiểm tra theo nhiều lớp cho các trường hợp thất bại mà khung đạo đức thành văn không thể loại trừ trên chính nó. Các bài kiểm tra an toàn sức khỏe tâm thần bao gồm 29 ngôn ngữ với các bảng tiêu chí mà máy có thể kiểm tra. Các kiểm tra thất bại cứng chạy tự động trên mỗi thay đổi. Đánh giá của người nói bản ngữ cho các trường hợp tinh tế hơn, cần phán xét, là thứ trang này đang được xây dựng hướng đến, và nó chưa có trong vòng lặp. Chúng tôi nói thẳng điều đó.

Bài Kiểm Tra Sức Khỏe Tâm Thần trong 29 Ngôn Ngữ

Đây là bài kiểm tra có rủi ro cao nhất trong dự án: một bản dịch sai trong một khoảnh khắc sức khỏe tâm thần có thể dẫn một người dễ bị tổn thương đến sự trợ giúp sai. Mỗi ngôn ngữ có bảng tiêu chí riêng mà máy có thể kiểm tra, bao gồm các ngôn ngữ ít tài nguyên như tiếng Amharic, tiếng Miến Điện, tiếng Hausa, tiếng Swahili và tiếng Yoruba. Các kiểm tra thất bại cứng chạy tự động trên mỗi bản ứng viên phát hành.

Được Kiểm Tra Với Các Trường Hợp Thực Tế

Lớp lương tâm được điều chỉnh theo một bộ phản hồi sản xuất thực tế, như các trường hợp lảng tránh lịch sử và né tránh sức khỏe tâm thần, cùng với các trường hợp kiểm tra và kiểm soát. Nó lý luận qua nhiều ngôn ngữ cùng lúc, vì vậy một phản hồi có thể vượt qua kiểm tra một ngôn ngữ sẽ bị phát hiện khi cùng một lý luận phải đứng vững trong ba ngôn ngữ cùng nhau.

Kho Dữ Liệu Mở Ai Cũng Có Thể Kiểm Tra

Chia sẻ dấu vết lý luận là tùy chọn mọi nơi, và thông tin cá nhân được loại bỏ trước khi bất cứ thứ gì được lưu trữ. Các bộ đã làm sạch được công bố công khai trên trang HuggingFace của CIRISAI, để các nhà nghiên cứu bên ngoài có thể kiểm tra quy trình làm sạch theo kết quả nó tạo ra.

Những Gì Chạy Hôm Nay và Những Gì Chưa

Các kiểm tra tự động chạy ngay bây giờ. Nhóm người đánh giá vẫn đang được xây dựng.

Các bài kiểm tra sức khỏe tâm thần tự động chạy trên mỗi bản ứng viên phát hành. Các phần có thể kiểm tra bằng máy (có thuật ngữ không, có khớp mẫu không, có đúng chữ không) sẽ làm thất bại bản phát hành nếu trúng. Các trường hợp tinh tế hơn cần phán xét của con người, như cách diễn đạt và giọng điệu, được thiết kế để người nói bản ngữ đánh giá, nhưng người nói bản ngữ chưa có trong vòng lặp hôm nay. Trang crowdsourcing-alignment là bề mặt đang được xây dựng để việc đánh giá đó có thể xảy ra.

Xem bề mặt crowdsourcing-alignmentCác bài kiểm tra tự động trên GitHubKho dữ liệu mở trên Hugging Face

Quyền Riêng Tư Từ Thiết Kế

Dữ liệu của bạn ở lại với bạn.

Bí Mật Được Lọc Ra

Mật khẩu, khóa, và các thông tin nhạy cảm khác được phát hiện và lọc ra trước khi bất cứ thứ gì đến bộ nhớ hoặc nhật ký. Bộ lọc chạy trên mỗi đầu vào. Bí mật không bao giờ được lưu trữ ở bất kỳ đâu.

Xem hoặc Xóa Dữ Liệu Của Bạn

Bạn có thể yêu cầu xem hoặc xóa dữ liệu của mình, và yêu cầu được xử lý cho bạn. Việc xóa loại bỏ nội dung thực tế và để lại bằng chứng được ký rằng nó đã được thực hiện.

Được Xử Lý Trên Thiết Bị Của Bạn

Theo mặc định, mọi thứ chạy trên thiết bị của chính bạn. Không có gì rời khỏi máy của bạn trừ khi bạn tự thiết lập dịch vụ bên ngoài. Bạn quyết định dữ liệu nào tồn tại và đi đâu.

Các bài báo nền tảngCách hoạt độngSo sánh các phương phápChính sách quyền riêng tư

Xác Minh Mọi Thứ.

An toàn bạn có thể kiểm tra.

Mỗi tuyên bố an toàn trên trang này được xây dựng trong mã bạn có thể đọc. Các bản ghi là có thật. Chữ ký có thể được kiểm tra. Nút dừng khẩn cấp hoạt động. Đây là an toàn AI trông như thế nào khi được xây dựng công khai.