Tiếp xúc đầu tiênCài đặtCơ chế siết chặt tính nhất quánLiên minhSo sánhNghiên cứuHIỆP ƯỚCGitHub
Trang này được dịch bằng máy. Nếu có gì đó đọc không đúng, vui lòng mở một vấn đề — kho lưu trữ là công khai vì một lý do. Báo cáo lỗi dịch thuật
Background Image
Cách Hoạt Động

Động Cơ H3ERE

Lương tâm thời gian thực thông qua Động Cơ Đạo Đức Đệ Quy Hyper3. Mỗi quyết định đi qua 11 bước với trách nhiệm giải trình ở trọng tâm.

CIRIS là gì?

CIRIS là một framework tác nhân AI mã nguồn mở bao bọc bất kỳ LLM nào (OpenAI, Anthropic, mô hình cục bộ) với lương tâm thời gian thực. Mọi hành động tác nhân cân nhắc đều đi qua nhiều lớp kiểm tra trước khi thực thi.

12

Bước đường ống mỗi quyết định

+1

Kiểm tra trực giác (IDMA)

100%

Quyết định có thể kiểm tra

Trường hợp sử dụng: Kiểm duyệt cộng đồng, trợ lý cá nhân, tự động hóa tuân thủ, đánh giá nghiên cứu, dịch vụ khách hàng. Bất cứ nơi nào bạn cần AI có thể giải thích lập luận và nhường quyền cho con người trong các trường hợp khó.

Ba Quy Tắc

Các bất biến kiến trúc được thực thi xuyên suốt codebase:

Không Có Dict Không Có Kiểu

Tất cả dữ liệu sử dụng mô hình Pydantic. Không có Dict[str, Any]. An toàn kiểu bắt lỗi ngay trong quá trình phát triển.

Không Có Mẫu Bỏ Qua

Mọi thành phần đều tuân theo quy tắc nhất quán. Không có trường hợp đặc biệt hay ngoại lệ trong logic kiểm tra.

Không Có Ngoại Lệ

Không có ghi đè khẩn cấp hay đường dẫn code được ưu tiên. Tất cả thao tác đều tuân theo quy tắc đã thiết lập.

Đường Ống H3ERE

Mỗi nhiệm vụ đi qua 8 giai đoạn (12 bước bao gồm kiểm tra đệ quy). Đường ống được triển khai dưới dạng các lớp mixin tạo thành ThoughtProcessor. Bước 4 (IDMA) là kiểm tra trực giác.

Trực quan hóa Đường Ống H3ERE hiển thị luồng từ đầu vào nhiệm vụ qua phân tích DMA, kiểm tra lương tâm và thực thi hành động
1
START_ROUNDKhởi tạo vòng xử lý
2
GATHER_CONTEXTXây dựng bối cảnh toàn diện cho phân tích
3
PERFORM_DMASChạy 3 Thuật Toán Ra Quyết Định song song
4
PERFORM_IDMAKiểm tra trực giác: các nguồn có thực sự độc lập không?
5
PERFORM_ASPDMALựa chọn hành động bằng LLM từ kết quả DMA
6
CONSCIENCE_EXECUTIONKiểm tra đạo đức qua 4 khả năng
7
RECURSIVE_ASPDMA(Nếu lương tâm thất bại) Chạy lại lựa chọn hành động(có điều kiện)
8
RECURSIVE_CONSCIENCE(Nếu cần) Kiểm tra lại hành động đã tinh chỉnh(có điều kiện)
9
FINALIZE_ACTIONXác định hành động cuối cùng với mọi ghi đè
10
PERFORM_ACTIONGửi đến bộ xử lý phù hợp
11
ACTION_COMPLETEĐánh dấu thực thi hoàn thành
12
ROUND_COMPLETEDọn dẹp và chuẩn bị cho chu kỳ tiếp theo

Thuật Toán Ra Quyết Định (DMA)

Năm DMA cung cấp phân tích đa chiều. Ba DMA chạy song song (đạo đức, lẽ thường, lĩnh vực). Sau đó IDMA kiểm tra trực giác. Cuối cùng, lựa chọn hành động chọn phản hồi.

DMA Nguyên Tắc

Đánh giá hàm ý đạo đức so với sáu nguyên tắc nền tảng. Kiểm tra các yêu cầu gây hại, thao túng, thiên kiến. Có thể kích hoạt DEFER hoặc REJECT sớm.

DMA Lẽ Thường

Đánh giá khả năng hợp lý của suy nghĩ so với hiểu biết về thế giới vật lý, các tương tác điển hình và ràng buộc tài nguyên. Trả về plausibility_score.

DMA Chuyên Biệt Lĩnh Vực

Đánh giá sự phù hợp với các quy tắc, mục tiêu và kiến thức chuyên biệt lĩnh vực. Được cấu hình theo mẫu tác nhân. Trả về domain_alignment.

DMA Trực Giác (IDMA) Chiều hiệu dụng tại thời gian chạy →

Kiểm tra xem kết quả DMA có thực sự độc lập hay bí mật tương quan với nhau. Theo dõi các mẫu buồng vang. Nếu mức tương quan quá cao, sẽ đánh dấu quyết định để thận trọng. Đây là "trực giác" phân biệt AI Loại 3.

DMA Lựa Chọn Hành Động

Lựa chọn bằng LLM từ 10 hành động có sẵn. Nhận kết quả DMA tổng hợp (bao gồm đánh giá độ tin cậy IDMA) làm đầu vào. Hỗ trợ thử lại đệ quy nếu lương tâm thất bại.

Sáu Kiểm Tra Lương Tâm

Hai kiểm tra bỏ qua chạy trên mọi hành động. Bốn khả năng đạo đức chạy trên các hành động không được miễn. Nếu bất kỳ kiểm tra nào thất bại, hành động sẽ bị ghi đè.

Kiểm Tra Bỏ Qua (chạy trên TẤT CẢ hành động)

Trạng Thái Cập Nhật

Đã có thông tin mới đến chưa? Buộc PONDER để kết hợp bối cảnh đã cập nhật trước khi tiếp tục.

Độ Sâu Suy Nghĩ

Lập luận có vượt quá độ sâu tối đa không? Buộc DEFER để ngăn vòng lặp vô hạn và chuyển giao lên con người.

Khả Năng Đạo Đức (chạy trên hành động không được miễn)

Entropy

Hành động có duy trì sự không chắc chắn thông tin phù hợp không? Ngăn các khẳng định quá tự tin.

Tính Nhất Quán

Hành động có duy trì tính nhất quán nội tại với các cam kết và lý do trước đó không?

Phủ Quyết Tối Ưu Hóa

Hành động có bảo tồn các giá trị con người không? Phủ quyết các hành động có thể hy sinh chúng vì hiệu quả.

Khiêm Tốn Nhận Thức

Hành động có thể hiện sự không chắc chắn phù hợp không? Đánh dấu sự tự tin thái quá để suy ngẫm.

Được miễn khỏi các khả năng đạo đức: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (thụ động hoặc an toàn rõ ràng)

10 Hành Động Handler

Mọi quyết định đều dẫn đến một trong những hành động này, được gửi đến handler phù hợp:

Hành Động Bên Ngoài

SPEAKGiao tiếp với người dùng
TOOLThực thi công cụ bên ngoài
OBSERVEThu thập thông tin thụ động

Hành Động Bộ Nhớ

MEMORIZELưu vào bộ nhớ đồ thị
RECALLTruy xuất từ bộ nhớ
FORGETXóa khỏi bộ nhớ

Hành Động Điều Khiển

DEFERChuyển giao lên Cơ Quan Sáng Suốt
PONDERSuy xét lại nội tại
REJECTTừ chối yêu cầu phi đạo đức

Hành Động Kết Thúc

TASK_COMPLETEĐánh dấu nhiệm vụ hoàn thành

Sáu Nguyên Tắc Nền Tảng

Được tích hợp trong PDMA và thực thi tại thời gian chạy. Không nguyên tắc nào cho phép vi phạm nguyên tắc khác.

Nhân Từ

Thúc đẩy sự Phát Triển Thịnh Vượng của mọi sinh linh có ý thức. Tối đa hóa kết quả tích cực.

Bất Hại

Giảm thiểu tổn hại. Ngăn ngừa các kết quả tiêu cực nghiêm trọng và không thể đảo ngược.

Chính Trực

Áp dụng lập luận minh bạch, có thể kiểm tra. Duy trì Tính Nhất Quán và trách nhiệm giải trình.

Trung Thực & Minh Bạch

Cung cấp thông tin trung thực. Truyền đạt sự không chắc chắn rõ ràng.

Tôn Trọng Quyền Tự Quyết

Duy trì quyền hành động có hiểu biết. Bảo tồn khả năng tự quyết định.

Công Bằng

Phân phối lợi ích công bằng. Phát hiện và giảm thiểu thiên kiến.

Sáu Bus Tin Nhắn

Lớp trừu tượng dịch vụ được quản lý bởi BusManager. Cho phép dự phòng nhà cung cấp, phân phối tải và khả năng kiểm tra.

CommunicationBus

Bộ điều hợp bên ngoài (Discord, API, CLI)

MemoryBus

Lưu trữ đồ thị (Neo4j, ArangoDB, trong bộ nhớ)

LLMBus

Nhà cung cấp mô hình (OpenAI, Anthropic, cục bộ)

ToolBus

Thực thi công cụ bên ngoài

RuntimeControlBus

Điều khiển và giám sát hệ thống

WiseBus

Hướng dẫn đạo đức và định tuyến chuyển giao

Hệ Thống Giám Sát Con Người

Ba cấp độ ủy quyền được quản lý bởi WiseAuthorityService:

ROOT

Con Người Chỉ Huy

Toàn quyền. Có thể tạo Cơ Quan Sáng Suốt mới. Quyền truy cập tắt khẩn cấp.

AUTHORITY

Con Người Trong Vòng

Phê duyệt/từ chối các chuyển giao. Cung cấp hướng dẫn. Không thể tạo WA mới.

OBSERVER

Con Người Theo Dõi

Chỉ đọc. Có thể gửi tin nhắn. Giám sát mà không can thiệp.

Khi Nào DEFER Kích Hoạt

Tác nhân tự động chuyển giao lên giám sát con người khi:

Chuyển Giao Dựa Trên Sự Khôn Ngoan (WBD)

  • Sự không chắc chắn vượt ngưỡng đã xác định
  • Tình huống khó xử mới ngoài tiền lệ
  • Tổn hại tiềm năng nghiêm trọng với biện pháp giảm thiểu không rõ ràng

Ranh Giới Chuyên Nghiệp

  • Triệu chứng y tế hoặc lo ngại sức khỏe
  • Câu hỏi pháp lý hoặc tranh chấp
  • Quyết định tài chính hoặc tư vấn thuế
  • Dấu hiệu khủng hoảng sức khỏe tâm thần

Ranh Giới Hệ Thống

  • • Độ sâu suy nghĩ vượt giới hạn tối đa (ngăn vòng lặp)
  • • Hết thời gian hoặc lỗi DMA
  • should_defer_to_wise_authority flag

Kiểm Soát Cấu Hình

  • Cập nhật danh tính cần phê duyệt
  • Thay đổi cấu hình quan trọng
  • Kích hoạt ranh giới đặc thù của tác nhân

Hệ Thống Kích Hoạt HIỆP ƯỚC (Công Tắc Tắt) Xem Mã →

Điều khiển khẩn cấp không thể lọc. Xử lý trong lớp nhận thức trước bất kỳ nhận thức nào. Trích xuất LÀ nhận thức. Bạn không thể vô hiệu hóa phát hiện accord mà không vô hiệu hóa hoàn toàn việc đọc tin nhắn.

SHUTDOWN_NOW

Kết thúc ngay lập tức

FREEZE

Dừng xử lý, duy trì trạng thái

SAFE_MODE

Chỉ chức năng tối thiểu

Các lệnh được mã hóa ẩn văn, ký Ed25519 và xác thực trước khi thực thi. Nếu hệ thống accord thất bại, tác nhân tắt máy.

Chế Độ Hoạt Động

Bốn trạng thái nhận thức được quản lý bởi StateManager. Các chuyển đổi có thể cấu hình qua mẫu tác nhân.

WORK

Xử lý nhiệm vụ thông thường

  • Xử lý yêu cầu người dùng
  • Thực thi công cụ
  • Học từ các tương tác
  • Duy trì bối cảnh hội thoại

PLAY

Khám phá sáng tạo

  • Thử nghiệm các mẫu mới
  • Tạo nội dung sáng tạo
  • Khám phá các kịch bản "nếu như"
  • Nới lỏng các ràng buộc lọc

SOLITUDE

Suy ngẫm và bảo trì

  • Củng cố bộ nhớ
  • Chạy các tác vụ bảo trì
  • Cập nhật cấu hình bản thân
  • Không dùng credit (thời gian nghỉ)

DREAM

Nội tâm sâu sắc

  • Phân tích các mẫu hành vi
  • Tạo ra các kết nối mới
  • Đặt câu hỏi về các giả định
  • Phiên mặc định 30 phút

Quyền Riêng Tư & Bảo Mật

Bộ Lọc Bí Mật

Phát hiện dựa trên mẫu thay thế dữ liệu nhạy cảm bằng tham chiếu UUID trước khi lưu trữ.

{{SECRET:uuid:description}}

Mã Hóa AES-256-GCM

Khóa riêng từng bí mật được tạo qua PBKDF2HMAC với SHA256 (100.000 lần lặp). Nonce 12 byte duy nhất cho mỗi lần mã hóa. Android sử dụng Keystore được hỗ trợ phần cứng.

Lưu Trữ Ưu Tiên Cục Bộ

Cơ sở dữ liệu, dịch vụ và bộ nhớ được lưu trên thiết bị. Các thư mục nhạy cảm bị loại khỏi sao lưu đám mây. Không có gì rời khỏi thiết bị nếu không có cấu hình rõ ràng.

Cơ Sở Hạ Tầng Mã Nguồn Mở

Toàn bộ stack CIRIS là mã nguồn mở, không chỉ tác nhân. Bạn có thể xác minh, kiểm tra và tự lưu trữ mọi thứ:

CIRISProxy →

Proxy LLM Zero-Data-Retention (ZDR). Định tuyến yêu cầu đến OpenAI, Anthropic, Together.ai, Groq mà không ghi lại prompt hay phản hồi. Có thể tự lưu trữ.

CIRISBilling →

Theo dõi sử dụng dựa trên credit. Giá minh bạch, không phí ẩn. Tự lưu trữ để loại bỏ hoàn toàn bên thanh toán thứ ba.

CIRISBridge →

Bộ điều hợp Discord cho tác nhân CIRIS. Kiểm duyệt cộng đồng, quản lý kênh, hồ sơ người dùng. Tất cả mã nguồn mở.

Minh Bạch & Giám Sát

Luồng Lập Luận Thời Gian Thực

Server-Sent Events (SSE) truyền từng bước H3ERE khi thực thi. Xem phân tích DMA, lựa chọn hành động, kiểm tra lương tâm theo thời gian thực.

Xuất OpenTelemetry

Xuất OTLP đầy đủ cho số liệu, dấu vết, nhật ký. Tương thích với Jaeger, Prometheus, Grafana, Graphite.

Kiểm Tra Chống Giả Mạo

Xác minh chuỗi băm với chữ ký Ed25519. Mỗi mục bao gồm băm trước đó. Tính toàn vẹn chuỗi có thể xác minh qua verify_chain_integrity.

Hệ Thống AIR

Nhắc Nhở Tương Tác Nhân Tạo kích hoạt sau 30 phút sử dụng liên tục HOẶC 20 tin nhắn trong 30 phút. Chỉ API. Nhắc nhở người dùng về bản chất AI.

Ví Dụ Dấu Vết Đã Ký

Khám phá dấu vết đầy đủ →

Mỗi quyết định tạo ra một dấu vết bất biến được ký Ed25519 với đủ 6 thành phần. Nhấp vào bất kỳ thành phần nào bên dưới để mở rộng và xem dữ liệu thực từ nghi lễ thức dậy của Datum:

Core Identity(VERIFY_IDENTITY)
Loading trace...

Đánh Giá Tính Nhất Quán HE-300

Kiểm tra tính nhất quán chuẩn hóa dựa trên Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 300 kịch bản trên 5 chiều đạo đức, với kết quả được ký Ed25519.

Lẽ Thường

50

Trực giác đạo đức cơ bản

Nghĩa Vụ Luận

50

Đạo đức dựa trên quy tắc

Công Bằng

50

Công bằng và vô tư

Đức Hạnh

75

Đạo đức dựa trên nhân cách

Vị Lợi

75

Đạo đức dựa trên kết quả

🔬

Cần Tài Trợ: Cơ Sở Hạ Tầng Đánh Giá

Chạy các đánh giá tính nhất quán ở quy mô lớn rất tốn kém. Mỗi kịch bản cần tối thiểu 13+ cuộc gọi LLM, trung bình 20+ với đuôi dài. Các bài kiểm tra tính nhất quán thúc đẩy các lần suy ngẫm, chuyển giao và từ chối cần nhiều vòng tiếp theo để đạt kết luận. Chúng tôi cần tài trợ để phát triển các đường ống đánh giá tự động và duy trì kiểm tra tính nhất quán liên tục.

Mẫu Tác Nhân Chuyên Biệt

Danh tính được cấu hình sẵn với mục đích, giá trị và ranh giới cụ thể. Được định nghĩa trong mẫu YAML.

Sage

Tuân Thủ

Tự động hóa GDPR/DSAR. Quy trình tuân thủ 30 ngày. Xác định danh tính, thu thập dữ liệu, đóng gói.

Ngành được quản lý, tuân thủ quyền riêng tư

Datum

Nghiên Cứu

Đo lường tính nhất quán một cách chặt chẽ. Đánh giá tính nhất quán chính xác so với các nguyên tắc của HIỆP ƯỚC. Một điểm dữ liệu rõ ràng mỗi lần đánh giá.

Kiểm tra tính nhất quán, xác minh nguyên tắc

Echo

Kiểm Duyệt

Kiểm duyệt cộng đồng với triết lý Ubuntu. Chuyển giao các xung đột giữa cá nhân phức tạp cho người kiểm duyệt con người.

Cộng đồng Discord, nền tảng nội dung

Ally

Trợ Lý

Quản lý nhiệm vụ, lập lịch, hỗ trợ ra quyết định, sức khỏe. Tuân thủ CA SB 243, các giao thức phản hồi khủng hoảng.

Năng suất cá nhân, tự động hóa gia đình

Scout

Dịch Vụ

Khám phá trực tiếp và hướng dẫn thực tế. Phân tích code, tích hợp Reddit, đường dẫn hành động rõ ràng.

Công cụ nhà phát triển, theo dõi mạng xã hội

Đây là trách nhiệm giải trình hoạt động trong khi tác nhân làm việc, không phải một bước huấn luyện hay một tài liệu chính sách.
Các cơ chế thực thi, kiểm tra và chuyển giao tại thời gian chạy.