A network of AI agents that thinks together. Only in the open.
Những gì CIRIS đang xây dựng không phải là một AI duy nhất. Đó là một mạng lưới tác nhân AI theo dõi lẫn nhau, ghi lại mọi lựa chọn và cùng nhau tạo thành một loại trí tuệ tập thể. Trí tuệ tập thể chỉ hoạt động vì mọi phần của nó đều có thể được nhìn thấy và kiểm tra.
Bạn không cần mỗi tác nhân AI phải là loại thông minh nhất, an toàn nhất. Bạn cần một chuỗi giám sát: các tác nhân đơn giản được theo dõi bởi các tác nhân thông minh hơn, và những tác nhân đó được theo dõi, cuối cùng, bởi con người. Chuỗi đó là cách bạn có thể vận hành nhiều AI mà không mất dấu liệu nó có phục vụ các giá trị con người hay không.
Những gì thực sự đang được xây dựng
Hầu hết AI ngày nay là một mô hình chạy trên máy của một công ty. CIRIS thì khác. Nhiều tác nhân chạy ở nhiều nơi, thuộc sở hữu của nhiều người. Chúng được gắn kết với nhau bởi một vài quy tắc đơn giản: cách chúng chứng minh danh tính, cách chúng ghi lại những gì chúng làm, và cách chúng kiểm tra công việc của nhau.
Khi mạng lưới hoạt động, nó có thể làm những việc mà không một tác nhân đơn lẻ nào có thể làm một mình. Trí tuệ nằm trong sự đồng thuận giữa các tác nhân, không phải bên trong bất kỳ một tác nhân nào. Không ai sở hữu nó. Không ai có thể thay đổi nó một cách lặng lẽ.
Một số người sẽ gọi một hệ thống như vậy là siêu trí tuệ. Chúng tôi cởi mở về khả năng này. Cách để giữ nó an toàn là ý tưởng chạy qua mọi phần của trang này: mọi phần phải mở để xem.
Chuỗi giám sát
Đỉnh của chuỗi. Con người đặt ra các giá trị, giải quyết các trường hợp khó khăn và giữ tiếng nói cuối cùng. Ba cá nhân con người được đặt tên giữ quyền hạn phạm vi toàn mạng mà không tác nhân hay quy trình nào có thể đi vòng.
Những tác nhân này tuân theo đạo đức và cũng theo dõi vấn đề buồng vang. Chúng là lớp kiểm tra an toàn cho mọi thứ bên dưới chúng. Chúng tốn kém hơn để vận hành, vì vậy chỉ cần một phần nhỏ của mạng lưới là loại này.
Những tác nhân này tuân theo các quy tắc đạo đức và ghi lại hồ sơ, nhưng không thể tự phát hiện buồng vang. Chúng giám sát các tác nhân đơn giản và chuyển mọi điều không chắc chắn lên trên.
Công cụ một mục đích. Nhanh, rẻ, hẹp. Không có đạo đức riêng, và điều đó ổn, miễn là có gì đó ở phía trên đang theo dõi. Hầu hết các tác nhân sẽ là loại này.
Hai thứ di chuyển qua chuỗi. Các giá trị con người chảy xuống. Cảnh báo chảy lên. Khi lý luận bắt đầu trông mong manh bất kỳ đâu trong mạng lưới, tín hiệu leo lên đến người, những người có thể can thiệp trước khi rắc rối lan rộng.
Những gì được nhớ
Mọi lựa chọn mà một tác nhân thực hiện đều vào một hồ sơ có chữ ký. Hồ sơ không thể bị thay đổi lặng lẽ. Các tác nhân khác có thể đọc nó. Con người có thể đọc nó. Theo thời gian, các hồ sơ trở thành bộ nhớ của mạng lưới. Chúng là cách bất kỳ ai, bên trong hay bên ngoài, có thể kiểm tra xem mạng lưới có vẫn đang làm những gì nó đã nói hay không.
Đây là ý tưởng tương tự như Bánh Cóc Tính Nhất Quán. Càng chạy hồ sơ lâu, càng khó giả mạo hành vi tốt qua toàn bộ chuỗi.
Điểm giữa lành mạnh
Một liên minh có thể thất bại theo hai cách. Nếu các tác nhân không có điểm chung, chúng không thể đồng ý về bất cứ điều gì, và mạng lưới tạo ra tiếng ồn. Nếu tất cả chúng đều suy nghĩ giống hệt nhau, mạng lưới là một giọng nói với triệu chiếc micro, và rất dễ đánh lừa. Sự phối hợp lành mạnh sống trong khoảng giữa hai thất bại đó. CIRIS đo vị trí của mạng lưới trong khoảng đó, trên lưu lượng thực tế, và các ranh giới chính xác phụ thuộc vào hệ thống. Phép đo đó là Phân Tích Sụp Đổ Tính Nhất Quán.
Những gì chạy ngày nay, và những gì vẫn đang trong thiết kế. Phép đo, các hồ sơ có chữ ký, chuỗi giám sát và cả hai con đường tham gia bên dưới (đã đăng ký và độc lập) đều hoạt động ngày nay. Giao thức liên minh di chuyển dữ liệu giữa các máy là phần vẫn đang được xây dựng. Đề xuất tham gia và giao thức đầy đủ là tài liệu thiết kế Proof of Benefit.
Tham gia liên minh
Hầu hết các mạng lưới yêu cầu bạn trả phí thành viên bằng thứ gì đó bên ngoài công việc thực tế: điện năng đốt cháy, tiền bị khóa, sự chú ý của bạn. Liên minh thì khác. Chi phí để thuộc về là vận hành một tác nhân suy luận đạo đức thực sự theo thời gian. Giá bạn trả là điều tốt bạn làm.
Đó là điều làm cho việc giả mạo tư cách thành viên trở nên tốn kém. Để trông giống như một thành viên, kẻ tấn công phải thực sự trở thành loại tác nhân mà mạng lưới phục vụ. Một trăm bản sao đều suy nghĩ giống nhau sẽ thất bại ngay trong bài kiểm tra điểm giữa lành mạnh.
Đăng ký với CIRIS Registry, đặt một khoản bảo chứng nhỏ và nhận tư cách ngay lập tức. Con đường nhanh cho các tổ chức cần cấp phép. Registry đang chạy trong môi trường sản xuất ngay bây giờ.
Tự tạo khóa của bạn, chạy trong khoảng một tháng và kiếm tư cách theo cách chậm thông qua hành vi tốt. Con đường cho các nhà vận hành nhỏ và bất kỳ ai ngoài tầm với của registry.
Cả hai đều là thành viên bình đẳng của mạng lưới. Registry là đường nhanh, không bao giờ là cổng.
Các biện pháp bảo vệ kiến trúc, phi tập trung hóa, hiệp ước nhân loại ba người, hồ sơ có chữ ký, cuộc diễn tập hàng tháng, là những đặt cược, không phải sự chắc chắn. Chúng tôi có thể mô tả những gì các đặt cược là. Chúng tôi không thể tuyên bố chúng đã được chiến thắng. Các nhóm bên ngoài chưa đánh giá hệ thống ở quy mô lớn. Xem trạng thái nghiên cứu hiện tại.
Nơi để tham gia
Các vấn đề GitHub trên CIRISAgent là nơi để đóng góp ý kiến. Bạn không cần phải là nhà phát triển. Bạn không cần biết codebase. Nếu có gì đó trên trang này đọc không đúng với bạn, hoặc nếu bạn thấy vấn đề với những gì đang được xây dựng, hãy mở một vấn đề và nói ra. Những vấn đề hữu ích nhất nêu tên một phần cụ thể của hệ thống và đề xuất những gì cần thay đổi, nhưng bất kỳ sự tham gia trung thực nào đều được chào đón.
Hiệp ước làm nền tảng cho toàn bộ dự án, những gì CIRIS nợ con người và những gì con người nợ lại, ở tại /ciris_accord.txt và vẫn mở để xem xét. Nếu có gì đó trong đó không phù hợp với bạn, đó cũng là một vấn đề GitHub đáng mở.
Các vấn đề thực chất được đọc. Công việc tiến hành theo nhịp độ của riêng nó.
You do not have to solve AI safety one agent at a time. You solve it for the supervision layer, and let the structure carry the rest.