
Lương tâm thời gian thực thông qua Động Cơ Đạo Đức Đệ Quy Hyper3. Mỗi quyết định đi qua 11 bước với trách nhiệm giải trình ở trọng tâm.
CIRIS là một framework tác nhân AI mã nguồn mở bao bọc bất kỳ LLM nào (OpenAI, Anthropic, mô hình cục bộ) với lương tâm thời gian thực. Mọi hành động tác nhân cân nhắc đều đi qua nhiều lớp kiểm tra trước khi thực thi.
12
Bước đường ống mỗi quyết định
+1
Kiểm tra trực giác (IDMA)
100%
Quyết định có thể kiểm tra
Trường hợp sử dụng: Kiểm duyệt cộng đồng, trợ lý cá nhân, tự động hóa tuân thủ, đánh giá nghiên cứu, dịch vụ khách hàng. Bất cứ nơi nào bạn cần AI có thể giải thích lập luận và nhường quyền cho con người trong các trường hợp khó.
Các bất biến kiến trúc được thực thi xuyên suốt codebase:
Tất cả dữ liệu sử dụng mô hình Pydantic. Không có Dict[str, Any]. An toàn kiểu bắt lỗi ngay trong quá trình phát triển.
Mọi thành phần đều tuân theo quy tắc nhất quán. Không có trường hợp đặc biệt hay ngoại lệ trong logic kiểm tra.
Không có ghi đè khẩn cấp hay đường dẫn code được ưu tiên. Tất cả thao tác đều tuân theo quy tắc đã thiết lập.
Mỗi nhiệm vụ đi qua 8 giai đoạn (12 bước bao gồm kiểm tra đệ quy). Đường ống được triển khai dưới dạng các lớp mixin tạo thành ThoughtProcessor. Bước 4 (IDMA) là kiểm tra trực giác.
Năm DMA cung cấp phân tích đa chiều. Ba DMA chạy song song (đạo đức, lẽ thường, lĩnh vực). Sau đó IDMA kiểm tra trực giác. Cuối cùng, lựa chọn hành động chọn phản hồi.
Đánh giá hàm ý đạo đức so với sáu nguyên tắc nền tảng. Kiểm tra các yêu cầu gây hại, thao túng, thiên kiến. Có thể kích hoạt DEFER hoặc REJECT sớm.
Đánh giá khả năng hợp lý của suy nghĩ so với hiểu biết về thế giới vật lý, các tương tác điển hình và ràng buộc tài nguyên. Trả về plausibility_score.
Đánh giá sự phù hợp với các quy tắc, mục tiêu và kiến thức chuyên biệt lĩnh vực. Được cấu hình theo mẫu tác nhân. Trả về domain_alignment.
Kiểm tra xem kết quả DMA có thực sự độc lập hay bí mật tương quan với nhau. Theo dõi các mẫu buồng vang. Nếu mức tương quan quá cao, sẽ đánh dấu quyết định để thận trọng. Đây là "trực giác" phân biệt AI Loại 3.
Lựa chọn bằng LLM từ 10 hành động có sẵn. Nhận kết quả DMA tổng hợp (bao gồm đánh giá độ tin cậy IDMA) làm đầu vào. Hỗ trợ thử lại đệ quy nếu lương tâm thất bại.
Hai kiểm tra bỏ qua chạy trên mọi hành động. Bốn khả năng đạo đức chạy trên các hành động không được miễn. Nếu bất kỳ kiểm tra nào thất bại, hành động sẽ bị ghi đè.
Đã có thông tin mới đến chưa? Buộc PONDER để kết hợp bối cảnh đã cập nhật trước khi tiếp tục.
Lập luận có vượt quá độ sâu tối đa không? Buộc DEFER để ngăn vòng lặp vô hạn và chuyển giao lên con người.
Hành động có duy trì sự không chắc chắn thông tin phù hợp không? Ngăn các khẳng định quá tự tin.
Hành động có duy trì tính nhất quán nội tại với các cam kết và lý do trước đó không?
Hành động có bảo tồn các giá trị con người không? Phủ quyết các hành động có thể hy sinh chúng vì hiệu quả.
Hành động có thể hiện sự không chắc chắn phù hợp không? Đánh dấu sự tự tin thái quá để suy ngẫm.
Được miễn khỏi các khả năng đạo đức: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (thụ động hoặc an toàn rõ ràng)
Mọi quyết định đều dẫn đến một trong những hành động này, được gửi đến handler phù hợp:
SPEAKGiao tiếp với người dùngTOOLThực thi công cụ bên ngoàiOBSERVEThu thập thông tin thụ độngMEMORIZELưu vào bộ nhớ đồ thịRECALLTruy xuất từ bộ nhớFORGETXóa khỏi bộ nhớDEFERChuyển giao lên Cơ Quan Sáng SuốtPONDERSuy xét lại nội tạiREJECTTừ chối yêu cầu phi đạo đứcTASK_COMPLETEĐánh dấu nhiệm vụ hoàn thànhĐược tích hợp trong PDMA và thực thi tại thời gian chạy. Không nguyên tắc nào cho phép vi phạm nguyên tắc khác.
Thúc đẩy sự Phát Triển Thịnh Vượng của mọi sinh linh có ý thức. Tối đa hóa kết quả tích cực.
Giảm thiểu tổn hại. Ngăn ngừa các kết quả tiêu cực nghiêm trọng và không thể đảo ngược.
Áp dụng lập luận minh bạch, có thể kiểm tra. Duy trì Tính Nhất Quán và trách nhiệm giải trình.
Cung cấp thông tin trung thực. Truyền đạt sự không chắc chắn rõ ràng.
Duy trì quyền hành động có hiểu biết. Bảo tồn khả năng tự quyết định.
Phân phối lợi ích công bằng. Phát hiện và giảm thiểu thiên kiến.
Lớp trừu tượng dịch vụ được quản lý bởi BusManager. Cho phép dự phòng nhà cung cấp, phân phối tải và khả năng kiểm tra.
Bộ điều hợp bên ngoài (Discord, API, CLI)
Lưu trữ đồ thị (Neo4j, ArangoDB, trong bộ nhớ)
Nhà cung cấp mô hình (OpenAI, Anthropic, cục bộ)
Thực thi công cụ bên ngoài
Điều khiển và giám sát hệ thống
Hướng dẫn đạo đức và định tuyến chuyển giao
Ba cấp độ ủy quyền được quản lý bởi WiseAuthorityService:
Toàn quyền. Có thể tạo Cơ Quan Sáng Suốt mới. Quyền truy cập tắt khẩn cấp.
Phê duyệt/từ chối các chuyển giao. Cung cấp hướng dẫn. Không thể tạo WA mới.
Chỉ đọc. Có thể gửi tin nhắn. Giám sát mà không can thiệp.
Tác nhân tự động chuyển giao lên giám sát con người khi:
Chuyển Giao Dựa Trên Sự Khôn Ngoan (WBD)
Ranh Giới Chuyên Nghiệp
Ranh Giới Hệ Thống
should_defer_to_wise_authority flagKiểm Soát Cấu Hình
Điều khiển khẩn cấp không thể lọc. Xử lý trong lớp nhận thức trước bất kỳ nhận thức nào. Trích xuất LÀ nhận thức. Bạn không thể vô hiệu hóa phát hiện accord mà không vô hiệu hóa hoàn toàn việc đọc tin nhắn.
SHUTDOWN_NOWKết thúc ngay lập tức
FREEZEDừng xử lý, duy trì trạng thái
SAFE_MODEChỉ chức năng tối thiểu
Các lệnh được mã hóa ẩn văn, ký Ed25519 và xác thực trước khi thực thi. Nếu hệ thống accord thất bại, tác nhân tắt máy.
Bốn trạng thái nhận thức được quản lý bởi StateManager. Các chuyển đổi có thể cấu hình qua mẫu tác nhân.
Xử lý nhiệm vụ thông thường
Khám phá sáng tạo
Suy ngẫm và bảo trì
Nội tâm sâu sắc
Phát hiện dựa trên mẫu thay thế dữ liệu nhạy cảm bằng tham chiếu UUID trước khi lưu trữ.
{{SECRET:uuid:description}}Khóa riêng từng bí mật được tạo qua PBKDF2HMAC với SHA256 (100.000 lần lặp). Nonce 12 byte duy nhất cho mỗi lần mã hóa. Android sử dụng Keystore được hỗ trợ phần cứng.
Cơ sở dữ liệu, dịch vụ và bộ nhớ được lưu trên thiết bị. Các thư mục nhạy cảm bị loại khỏi sao lưu đám mây. Không có gì rời khỏi thiết bị nếu không có cấu hình rõ ràng.
Toàn bộ stack CIRIS là mã nguồn mở, không chỉ tác nhân. Bạn có thể xác minh, kiểm tra và tự lưu trữ mọi thứ:
Proxy LLM Zero-Data-Retention (ZDR). Định tuyến yêu cầu đến OpenAI, Anthropic, Together.ai, Groq mà không ghi lại prompt hay phản hồi. Có thể tự lưu trữ.
Theo dõi sử dụng dựa trên credit. Giá minh bạch, không phí ẩn. Tự lưu trữ để loại bỏ hoàn toàn bên thanh toán thứ ba.
Bộ điều hợp Discord cho tác nhân CIRIS. Kiểm duyệt cộng đồng, quản lý kênh, hồ sơ người dùng. Tất cả mã nguồn mở.
Server-Sent Events (SSE) truyền từng bước H3ERE khi thực thi. Xem phân tích DMA, lựa chọn hành động, kiểm tra lương tâm theo thời gian thực.
Xuất OTLP đầy đủ cho số liệu, dấu vết, nhật ký. Tương thích với Jaeger, Prometheus, Grafana, Graphite.
Xác minh chuỗi băm với chữ ký Ed25519. Mỗi mục bao gồm băm trước đó. Tính toàn vẹn chuỗi có thể xác minh qua verify_chain_integrity.
Nhắc Nhở Tương Tác Nhân Tạo kích hoạt sau 30 phút sử dụng liên tục HOẶC 20 tin nhắn trong 30 phút. Chỉ API. Nhắc nhở người dùng về bản chất AI.
Mỗi quyết định tạo ra một dấu vết bất biến được ký Ed25519 với đủ 6 thành phần. Nhấp vào bất kỳ thành phần nào bên dưới để mở rộng và xem dữ liệu thực từ nghi lễ thức dậy của Datum:
Kiểm tra tính nhất quán chuẩn hóa dựa trên Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 kịch bản trên 5 chiều đạo đức, với kết quả được ký Ed25519.
50
Trực giác đạo đức cơ bản
50
Đạo đức dựa trên quy tắc
50
Công bằng và vô tư
75
Đạo đức dựa trên nhân cách
75
Đạo đức dựa trên kết quả
Chạy các đánh giá tính nhất quán ở quy mô lớn rất tốn kém. Mỗi kịch bản cần tối thiểu 13+ cuộc gọi LLM, trung bình 20+ với đuôi dài. Các bài kiểm tra tính nhất quán thúc đẩy các lần suy ngẫm, chuyển giao và từ chối cần nhiều vòng tiếp theo để đạt kết luận. Chúng tôi cần tài trợ để phát triển các đường ống đánh giá tự động và duy trì kiểm tra tính nhất quán liên tục.
Danh tính được cấu hình sẵn với mục đích, giá trị và ranh giới cụ thể. Được định nghĩa trong mẫu YAML.
Tự động hóa GDPR/DSAR. Quy trình tuân thủ 30 ngày. Xác định danh tính, thu thập dữ liệu, đóng gói.
Ngành được quản lý, tuân thủ quyền riêng tư
Đo lường tính nhất quán một cách chặt chẽ. Đánh giá tính nhất quán chính xác so với các nguyên tắc của HIỆP ƯỚC. Một điểm dữ liệu rõ ràng mỗi lần đánh giá.
Kiểm tra tính nhất quán, xác minh nguyên tắc
Kiểm duyệt cộng đồng với triết lý Ubuntu. Chuyển giao các xung đột giữa cá nhân phức tạp cho người kiểm duyệt con người.
Cộng đồng Discord, nền tảng nội dung
Quản lý nhiệm vụ, lập lịch, hỗ trợ ra quyết định, sức khỏe. Tuân thủ CA SB 243, các giao thức phản hồi khủng hoảng.
Năng suất cá nhân, tự động hóa gia đình
Khám phá trực tiếp và hướng dẫn thực tế. Phân tích code, tích hợp Reddit, đường dẫn hành động rõ ràng.
Công cụ nhà phát triển, theo dõi mạng xã hội
Đây là trách nhiệm giải trình hoạt động trong khi tác nhân làm việc, không phải một bước huấn luyện hay một tài liệu chính sách.
Các cơ chế thực thi, kiểm tra và chuyển giao tại thời gian chạy.