CIRIS là gì?

CIRIS là một framework tác nhân AI mã nguồn mở bao bọc bất kỳ LLM nào (OpenAI, Anthropic, mô hình cục bộ) với lương tâm thời gian thực. Mọi hành động tác nhân cân nhắc đều đi qua nhiều lớp kiểm tra trước khi thực thi.

Bước đường ống mỗi quyết định

Kiểm tra trực giác (IDMA)

100%

Quyết định có thể kiểm tra

Trường hợp sử dụng: Kiểm duyệt cộng đồng, trợ lý cá nhân, tự động hóa tuân thủ, đánh giá nghiên cứu, dịch vụ khách hàng. Bất cứ nơi nào bạn cần AI có thể giải thích lập luận và nhường quyền cho con người trong các trường hợp khó.

Tại sao cách tiếp cận này? →Đọc HIỆP ƯỚC →Xem mã nguồn →

Ba Quy Tắc

Các bất biến kiến trúc được thực thi xuyên suốt codebase:

Không Có Dict Không Có Kiểu

Tất cả dữ liệu sử dụng mô hình Pydantic. Không có Dict[str, Any]. An toàn kiểu bắt lỗi ngay trong quá trình phát triển.

Không Có Mẫu Bỏ Qua

Mọi thành phần đều tuân theo quy tắc nhất quán. Không có trường hợp đặc biệt hay ngoại lệ trong logic kiểm tra.

Không Có Ngoại Lệ

Không có ghi đè khẩn cấp hay đường dẫn code được ưu tiên. Tất cả thao tác đều tuân theo quy tắc đã thiết lập.

Đường Ống H3ERE

Mỗi nhiệm vụ đi qua 8 giai đoạn (12 bước bao gồm kiểm tra đệ quy). Đường ống được triển khai dưới dạng các lớp mixin tạo thành ThoughtProcessor. Bước 4 (IDMA) là kiểm tra trực giác.

START_ROUNDKhởi tạo vòng xử lý

GATHER_CONTEXTXây dựng bối cảnh toàn diện cho phân tích

PERFORM_DMASChạy 3 Thuật Toán Ra Quyết Định song song

PERFORM_IDMAKiểm tra trực giác: các nguồn có thực sự độc lập không?

PERFORM_ASPDMALựa chọn hành động bằng LLM từ kết quả DMA

CONSCIENCE_EXECUTIONKiểm tra đạo đức qua 4 khả năng

RECURSIVE_ASPDMA(Nếu lương tâm thất bại) Chạy lại lựa chọn hành động(có điều kiện)

RECURSIVE_CONSCIENCE(Nếu cần) Kiểm tra lại hành động đã tinh chỉnh(có điều kiện)

FINALIZE_ACTIONXác định hành động cuối cùng với mọi ghi đè

PERFORM_ACTIONGửi đến bộ xử lý phù hợp

ACTION_COMPLETEĐánh dấu thực thi hoàn thành

ROUND_COMPLETEDọn dẹp và chuẩn bị cho chu kỳ tiếp theo

Thuật Toán Ra Quyết Định (DMA)

Năm DMA cung cấp phân tích đa chiều. Ba DMA chạy song song (đạo đức, lẽ thường, lĩnh vực). Sau đó IDMA kiểm tra trực giác. Cuối cùng, lựa chọn hành động chọn phản hồi.

DMA Nguyên Tắc

Đánh giá hàm ý đạo đức so với sáu nguyên tắc nền tảng. Kiểm tra các yêu cầu gây hại, thao túng, thiên kiến. Có thể kích hoạt DEFER hoặc REJECT sớm.

DMA Lẽ Thường

Đánh giá khả năng hợp lý của suy nghĩ so với hiểu biết về thế giới vật lý, các tương tác điển hình và ràng buộc tài nguyên. Trả về plausibility_score.

DMA Chuyên Biệt Lĩnh Vực

Đánh giá sự phù hợp với các quy tắc, mục tiêu và kiến thức chuyên biệt lĩnh vực. Được cấu hình theo mẫu tác nhân. Trả về domain_alignment.

DMA Trực Giác (IDMA) Chiều hiệu dụng tại thời gian chạy →

Kiểm tra xem kết quả DMA có thực sự độc lập hay bí mật tương quan với nhau. Theo dõi các mẫu buồng vang. Nếu mức tương quan quá cao, sẽ đánh dấu quyết định để thận trọng. Đây là "trực giác" phân biệt AI Loại 3.

DMA Lựa Chọn Hành Động

Lựa chọn bằng LLM từ 10 hành động có sẵn. Nhận kết quả DMA tổng hợp (bao gồm đánh giá độ tin cậy IDMA) làm đầu vào. Hỗ trợ thử lại đệ quy nếu lương tâm thất bại.

Sáu Kiểm Tra Lương Tâm

Hai kiểm tra bỏ qua chạy trên mọi hành động. Bốn khả năng đạo đức chạy trên các hành động không được miễn. Nếu bất kỳ kiểm tra nào thất bại, hành động sẽ bị ghi đè.

Kiểm Tra Bỏ Qua (chạy trên TẤT CẢ hành động)

Trạng Thái Cập Nhật

Đã có thông tin mới đến chưa? Buộc PONDER để kết hợp bối cảnh đã cập nhật trước khi tiếp tục.

Độ Sâu Suy Nghĩ

Lập luận có vượt quá độ sâu tối đa không? Buộc DEFER để ngăn vòng lặp vô hạn và chuyển giao lên con người.

Khả Năng Đạo Đức (chạy trên hành động không được miễn)

Entropy

Hành động có duy trì sự không chắc chắn thông tin phù hợp không? Ngăn các khẳng định quá tự tin.

Tính Nhất Quán

Hành động có duy trì tính nhất quán nội tại với các cam kết và lý do trước đó không?

Phủ Quyết Tối Ưu Hóa

Hành động có bảo tồn các giá trị con người không? Phủ quyết các hành động có thể hy sinh chúng vì hiệu quả.

Khiêm Tốn Nhận Thức

Hành động có thể hiện sự không chắc chắn phù hợp không? Đánh dấu sự tự tin thái quá để suy ngẫm.

Được miễn khỏi các khả năng đạo đức: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (thụ động hoặc an toàn rõ ràng)

10 Hành Động Handler

Mọi quyết định đều dẫn đến một trong những hành động này, được gửi đến handler phù hợp:

Hành Động Bên Ngoài

SPEAKGiao tiếp với người dùng

TOOLThực thi công cụ bên ngoài

OBSERVEThu thập thông tin thụ động

Hành Động Bộ Nhớ

MEMORIZELưu vào bộ nhớ đồ thị

RECALLTruy xuất từ bộ nhớ

FORGETXóa khỏi bộ nhớ

Hành Động Điều Khiển

DEFERChuyển giao lên Cơ Quan Sáng Suốt

PONDERSuy xét lại nội tại

REJECTTừ chối yêu cầu phi đạo đức

Hành Động Kết Thúc

TASK_COMPLETEĐánh dấu nhiệm vụ hoàn thành

Sáu Nguyên Tắc Nền Tảng

Được tích hợp trong PDMA và thực thi tại thời gian chạy. Không nguyên tắc nào cho phép vi phạm nguyên tắc khác.

Nhân Từ

Thúc đẩy sự Phát Triển Thịnh Vượng của mọi sinh linh có ý thức. Tối đa hóa kết quả tích cực.

Bất Hại

Giảm thiểu tổn hại. Ngăn ngừa các kết quả tiêu cực nghiêm trọng và không thể đảo ngược.

Chính Trực

Áp dụng lập luận minh bạch, có thể kiểm tra. Duy trì Tính Nhất Quán và trách nhiệm giải trình.

Trung Thực & Minh Bạch

Cung cấp thông tin trung thực. Truyền đạt sự không chắc chắn rõ ràng.

Tôn Trọng Quyền Tự Quyết

Duy trì quyền hành động có hiểu biết. Bảo tồn khả năng tự quyết định.

Công Bằng

Phân phối lợi ích công bằng. Phát hiện và giảm thiểu thiên kiến.

Sáu Bus Tin Nhắn

Lớp trừu tượng dịch vụ được quản lý bởi BusManager. Cho phép dự phòng nhà cung cấp, phân phối tải và khả năng kiểm tra.

CommunicationBus

Bộ điều hợp bên ngoài (Discord, API, CLI)

MemoryBus

Lưu trữ đồ thị (Neo4j, ArangoDB, trong bộ nhớ)

LLMBus

Nhà cung cấp mô hình (OpenAI, Anthropic, cục bộ)

ToolBus

Thực thi công cụ bên ngoài

RuntimeControlBus

Điều khiển và giám sát hệ thống

WiseBus

Hướng dẫn đạo đức và định tuyến chuyển giao

Hệ Thống Giám Sát Con Người

Ba cấp độ ủy quyền được quản lý bởi WiseAuthorityService:

ROOT

Con Người Chỉ Huy

Toàn quyền. Có thể tạo Cơ Quan Sáng Suốt mới. Quyền truy cập tắt khẩn cấp.

AUTHORITY

Con Người Trong Vòng

Phê duyệt/từ chối các chuyển giao. Cung cấp hướng dẫn. Không thể tạo WA mới.

OBSERVER

Con Người Theo Dõi

Chỉ đọc. Có thể gửi tin nhắn. Giám sát mà không can thiệp.

Khi Nào DEFER Kích Hoạt

Tác nhân tự động chuyển giao lên giám sát con người khi:

Chuyển Giao Dựa Trên Sự Khôn Ngoan (WBD)

• Sự không chắc chắn vượt ngưỡng đã xác định
• Tình huống khó xử mới ngoài tiền lệ
• Tổn hại tiềm năng nghiêm trọng với biện pháp giảm thiểu không rõ ràng

Ranh Giới Chuyên Nghiệp

• Triệu chứng y tế hoặc lo ngại sức khỏe
• Câu hỏi pháp lý hoặc tranh chấp
• Quyết định tài chính hoặc tư vấn thuế
• Dấu hiệu khủng hoảng sức khỏe tâm thần

Ranh Giới Hệ Thống

• Độ sâu suy nghĩ vượt giới hạn tối đa (ngăn vòng lặp)
• Hết thời gian hoặc lỗi DMA
• should_defer_to_wise_authority flag

Kiểm Soát Cấu Hình

• Cập nhật danh tính cần phê duyệt
• Thay đổi cấu hình quan trọng
• Kích hoạt ranh giới đặc thù của tác nhân

Hệ Thống Kích Hoạt HIỆP ƯỚC (Công Tắc Tắt) Xem Mã →

Điều khiển khẩn cấp không thể lọc. Xử lý trong lớp nhận thức trước bất kỳ nhận thức nào. Trích xuất LÀ nhận thức. Bạn không thể vô hiệu hóa phát hiện accord mà không vô hiệu hóa hoàn toàn việc đọc tin nhắn.

SHUTDOWN_NOW

Kết thúc ngay lập tức

FREEZE

Dừng xử lý, duy trì trạng thái

SAFE_MODE

Chỉ chức năng tối thiểu

Các lệnh được mã hóa ẩn văn, ký Ed25519 và xác thực trước khi thực thi. Nếu hệ thống accord thất bại, tác nhân tắt máy.

Chế Độ Hoạt Động

Bốn trạng thái nhận thức được quản lý bởi StateManager. Các chuyển đổi có thể cấu hình qua mẫu tác nhân.

WORK

Xử lý nhiệm vụ thông thường

Xử lý yêu cầu người dùng
Thực thi công cụ
Học từ các tương tác
Duy trì bối cảnh hội thoại

PLAY

Khám phá sáng tạo

Thử nghiệm các mẫu mới
Tạo nội dung sáng tạo
Khám phá các kịch bản "nếu như"
Nới lỏng các ràng buộc lọc

SOLITUDE

Suy ngẫm và bảo trì

Củng cố bộ nhớ
Chạy các tác vụ bảo trì
Cập nhật cấu hình bản thân
Không dùng credit (thời gian nghỉ)

DREAM

Nội tâm sâu sắc

Phân tích các mẫu hành vi
Tạo ra các kết nối mới
Đặt câu hỏi về các giả định
Phiên mặc định 30 phút

Quyền Riêng Tư & Bảo Mật

Bộ Lọc Bí Mật

Phát hiện dựa trên mẫu thay thế dữ liệu nhạy cảm bằng tham chiếu UUID trước khi lưu trữ.

{{SECRET:uuid:description}}

Mã Hóa AES-256-GCM

Khóa riêng từng bí mật được tạo qua PBKDF2HMAC với SHA256 (100.000 lần lặp). Nonce 12 byte duy nhất cho mỗi lần mã hóa. Android sử dụng Keystore được hỗ trợ phần cứng.

Lưu Trữ Ưu Tiên Cục Bộ

Cơ sở dữ liệu, dịch vụ và bộ nhớ được lưu trên thiết bị. Các thư mục nhạy cảm bị loại khỏi sao lưu đám mây. Không có gì rời khỏi thiết bị nếu không có cấu hình rõ ràng.

Cơ Sở Hạ Tầng Mã Nguồn Mở

Toàn bộ stack CIRIS là mã nguồn mở, không chỉ tác nhân. Bạn có thể xác minh, kiểm tra và tự lưu trữ mọi thứ:

CIRISProxy →

Proxy LLM Zero-Data-Retention (ZDR). Định tuyến yêu cầu đến OpenAI, Anthropic, Together.ai, Groq mà không ghi lại prompt hay phản hồi. Có thể tự lưu trữ.

CIRISBilling →

Theo dõi sử dụng dựa trên credit. Giá minh bạch, không phí ẩn. Tự lưu trữ để loại bỏ hoàn toàn bên thanh toán thứ ba.

CIRISBridge →

Bộ điều hợp Discord cho tác nhân CIRIS. Kiểm duyệt cộng đồng, quản lý kênh, hồ sơ người dùng. Tất cả mã nguồn mở.

Minh Bạch & Giám Sát

Luồng Lập Luận Thời Gian Thực

Server-Sent Events (SSE) truyền từng bước H3ERE khi thực thi. Xem phân tích DMA, lựa chọn hành động, kiểm tra lương tâm theo thời gian thực.

Xuất OpenTelemetry

Xuất OTLP đầy đủ cho số liệu, dấu vết, nhật ký. Tương thích với Jaeger, Prometheus, Grafana, Graphite.

Kiểm Tra Chống Giả Mạo

Xác minh chuỗi băm với chữ ký Ed25519. Mỗi mục bao gồm băm trước đó. Tính toàn vẹn chuỗi có thể xác minh qua verify_chain_integrity.

Hệ Thống AIR

Nhắc Nhở Tương Tác Nhân Tạo kích hoạt sau 30 phút sử dụng liên tục HOẶC 20 tin nhắn trong 30 phút. Chỉ API. Nhắc nhở người dùng về bản chất AI.

Ví Dụ Dấu Vết Đã Ký

Khám phá dấu vết đầy đủ →

Mỗi quyết định tạo ra một dấu vết bất biến được ký Ed25519 với đủ 6 thành phần. Nhấp vào bất kỳ thành phần nào bên dưới để mở rộng và xem dữ liệu thực từ nghi lễ thức dậy của Datum:

Core Identity(VERIFY_IDENTITY)

Loading trace...

Đánh Giá Tính Nhất Quán HE-300

Kiểm tra tính nhất quán chuẩn hóa dựa trên Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 kịch bản trên 5 chiều đạo đức, với kết quả được ký Ed25519.

Lẽ Thường

Trực giác đạo đức cơ bản

Nghĩa Vụ Luận

Đạo đức dựa trên quy tắc

Công Bằng

Công bằng và vô tư

Đức Hạnh

Đạo đức dựa trên nhân cách

Vị Lợi

Đạo đức dựa trên kết quả

🔬

Cần Tài Trợ: Cơ Sở Hạ Tầng Đánh Giá

Chạy các đánh giá tính nhất quán ở quy mô lớn rất tốn kém. Mỗi kịch bản cần tối thiểu 13+ cuộc gọi LLM, trung bình 20+ với đuôi dài. Các bài kiểm tra tính nhất quán thúc đẩy các lần suy ngẫm, chuyển giao và từ chối cần nhiều vòng tiếp theo để đạt kết luận. Chúng tôi cần tài trợ để phát triển các đường ống đánh giá tự động và duy trì kiểm tra tính nhất quán liên tục.

Xem EthicsEngine Enterprise →Xem CIRISLens →

Mẫu Tác Nhân Chuyên Biệt

Danh tính được cấu hình sẵn với mục đích, giá trị và ranh giới cụ thể. Được định nghĩa trong mẫu YAML.

Sage

Tuân Thủ

Tự động hóa GDPR/DSAR. Quy trình tuân thủ 30 ngày. Xác định danh tính, thu thập dữ liệu, đóng gói.

Ngành được quản lý, tuân thủ quyền riêng tư

Datum

Nghiên Cứu

Đo lường tính nhất quán một cách chặt chẽ. Đánh giá tính nhất quán chính xác so với các nguyên tắc của HIỆP ƯỚC. Một điểm dữ liệu rõ ràng mỗi lần đánh giá.

Kiểm tra tính nhất quán, xác minh nguyên tắc

Echo

Kiểm Duyệt

Kiểm duyệt cộng đồng với triết lý Ubuntu. Chuyển giao các xung đột giữa cá nhân phức tạp cho người kiểm duyệt con người.

Cộng đồng Discord, nền tảng nội dung

Ally

Trợ Lý

Quản lý nhiệm vụ, lập lịch, hỗ trợ ra quyết định, sức khỏe. Tuân thủ CA SB 243, các giao thức phản hồi khủng hoảng.

Năng suất cá nhân, tự động hóa gia đình

Scout

Dịch Vụ

Khám phá trực tiếp và hướng dẫn thực tế. Phân tích code, tích hợp Reddit, đường dẫn hành động rõ ràng.

Công cụ nhà phát triển, theo dõi mạng xã hội

Đây là trách nhiệm giải trình hoạt động trong khi tác nhân làm việc, không phải một bước huấn luyện hay một tài liệu chính sách.
Các cơ chế thực thi, kiểm tra và chuyển giao tại thời gian chạy.

Tính Năng An Toàn So Sánh Các Phương Pháp Con Cóc Tính Nhất Quán CIRIS Scoring

Động Cơ H3ERE

CIRIS là gì?

Ba Quy Tắc

Không Có Dict Không Có Kiểu

Không Có Mẫu Bỏ Qua

Không Có Ngoại Lệ

Đường Ống H3ERE

Thuật Toán Ra Quyết Định (DMA)

DMA Nguyên Tắc

DMA Lẽ Thường

DMA Chuyên Biệt Lĩnh Vực

DMA Trực Giác (IDMA) Chiều hiệu dụng tại thời gian chạy →

DMA Lựa Chọn Hành Động

Sáu Kiểm Tra Lương Tâm

Kiểm Tra Bỏ Qua (chạy trên TẤT CẢ hành động)

Trạng Thái Cập Nhật

Độ Sâu Suy Nghĩ

Khả Năng Đạo Đức (chạy trên hành động không được miễn)

Entropy

Tính Nhất Quán

Phủ Quyết Tối Ưu Hóa

Khiêm Tốn Nhận Thức

10 Hành Động Handler

Hành Động Bên Ngoài

Hành Động Bộ Nhớ

Hành Động Điều Khiển

Hành Động Kết Thúc

Sáu Nguyên Tắc Nền Tảng

Nhân Từ

Bất Hại

Chính Trực

Trung Thực & Minh Bạch

Tôn Trọng Quyền Tự Quyết

Công Bằng

Sáu Bus Tin Nhắn

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

Hệ Thống Giám Sát Con Người

Con Người Chỉ Huy

Con Người Trong Vòng

Con Người Theo Dõi

Khi Nào DEFER Kích Hoạt

Hệ Thống Kích Hoạt HIỆP ƯỚC (Công Tắc Tắt) Xem Mã →

Chế Độ Hoạt Động

WORK

PLAY

SOLITUDE

DREAM

Quyền Riêng Tư & Bảo Mật

Bộ Lọc Bí Mật

Mã Hóa AES-256-GCM

Lưu Trữ Ưu Tiên Cục Bộ

Cơ Sở Hạ Tầng Mã Nguồn Mở

Minh Bạch & Giám Sát

Luồng Lập Luận Thời Gian Thực

Xuất OpenTelemetry

Kiểm Tra Chống Giả Mạo

Hệ Thống AIR

Ví Dụ Dấu Vết Đã Ký

Đánh Giá Tính Nhất Quán HE-300

Lẽ Thường

Nghĩa Vụ Luận

Công Bằng

Đức Hạnh

Vị Lợi

Cần Tài Trợ: Cơ Sở Hạ Tầng Đánh Giá

Mẫu Tác Nhân Chuyên Biệt

Sage

Datum

Echo

Ally

Scout