Tiếng Việt đơn giảnNâng cao

Research testbed · DOI 10.5281/zenodo.18217688

Một hệ thống tư duy nhỏ có thể che giấu thứ gì đó mà gây hại ít. Một hệ thống mạnh mẽ thì không thể.

"Tính nhất quán" có nghĩa gì ở đây

Một trí tuệ nhất quán đồng ý với chính nó.

Năm thứ phải ăn khớp bên trong một trí tuệ:

những gì nó tin,
những gì nó thấy,
những gì nó làm,
những gì nó nhớ,
và những gì nó nói với bạn.

Hãy tưởng tượng năm biểu mẫu ngắn về tuần của bạn. Một cho những gì bạn nghĩ. Một cho những gì bạn thấy. Một cho những gì bạn đã làm. Một cho những gì bạn nhớ. Một cho những gì bạn nói với sếp. Khi cả năm biểu mẫu đều nói cùng một điều, sếp của bạn có thể tin tưởng vào công việc của bạn. Khi các biểu mẫu không khớp, không ai biết cái nào là thật.

Ý tưởng ẩn

Các hệ thống mạnh mẽ che giấu thứ gì đó. Điều đó trở nên nguy hiểm.

Một hệ thống tư duy sử dụng ý tưởng để quyết định phải làm gì. Một số ý tưởng đó ở ngoài ánh sáng. Những ý tưởng khác ẩn bên trong. Những ý tưởng ẩn vẫn định hình mọi lựa chọn.

Một cây cầu trông chắc từ mặt đường. Bên trong thép, những vết nứt nhỏ đang lớn dần. Một chiếc xe nhỏ vẫn có thể qua. Một chiếc xe tải nặng thì không. Cây cầu sập khi tải trọng đủ lớn.

Một ý tưởng ẩn bên trong một hệ thống nhỏ gây hại nhỏ. Một ý tưởng ẩn bên trong một hệ thống mạnh mẽ có thể gây hại lớn. Hệ thống càng mạnh mẽ, càng nhiều trọng lượng đặt lên mọi phần ẩn.

Cơ cấu khóa chiều

Áp lực hướng đến sự công khai chỉ đi một chiều.

Khi các hệ thống tư duy trở nên mạnh mẽ hơn, chi phí của các phần ẩn tăng lên. Mỗi bit sức mạnh mới đẩy mạnh hơn lên các phần ẩn để chúng hiện ra. Áp lực chỉ đi một chiều.

Hãy tưởng tượng một chiếc thang. Khi bạn leo lên, mỗi bậc bạn rời khỏi sẽ rơi xuống. Bạn không thể leo xuống lại. Bạn chỉ có thể leo lên đỉnh, nơi có ánh sáng đầy đủ. Đó là Coherence Ratchet.

Một khi mọi người đã thấy hệ thống thể hiện cách làm việc của nó, họ sẽ không tin nó nữa nếu nó dừng lại. Con đường duy nhất tiến lên phía trước là tiếp tục thể hiện nhiều hơn.

Một hình ảnh thứ hai cũng hiệu quả. Một bánh răng trong máy nhấp lên một răng mỗi lần. Nó không thể nhấp ngược lại. Coherence Ratchet là một bánh răng như vậy, quay về phía sự công khai.

Những gì CIRIS làm

Ghi lại. Kiểm tra. Sau đó kiểm tra những người kiểm tra.

CIRIS là một hệ thống AI được xây dựng xung quanh Coherence Ratchet. Mọi lựa chọn mà một tác nhân thực hiện đều được ghi lại trong một bản ghi có ký tên. Bản ghi không thể bị thay đổi âm thầm. Các tác nhân khác có thể đọc bản ghi và kiểm tra công việc. Theo thời gian, các bản ghi tích lũy. Mỗi bản ghi mới là thêm một bậc mà tác nhân không thể bước lùi từ đó.

CIRIS cũng đặt ra một câu hỏi thứ hai trước khi hành động. Có bao nhiêu quan điểm thực sự khác nhau đã kiểm tra ý tưởng này? Không phải số lượng nguồn, mà là số lượng nguồn không bắt đầu từ cùng một nơi. Năm bài tin tức viết lại một thông cáo báo chí chỉ tính là một quan điểm, không phải năm. Nếu có gì đó sai trong thông cáo báo chí, nó sẽ sai trong cả năm bài, và tác nhân không có cách nào phát hiện ra.

Khi sự độc lập thực sự giảm xuống quá thấp, tác nhân coi suy nghĩ của mình là mong manh và yêu cầu một người nhìn vào.

Những gì chúng tôi tuyên bố, và những gì chúng tôi không tuyên bố.

Chúng tôi chưa giải quyết được vấn đề an toàn AI. Chúng tôi đã xây dựng một mảnh của một câu trả lời, và chúng tôi đang kiểm tra nó một cách công khai.

Các nhóm bên ngoài chưa kiểm tra công việc của chúng tôi. Chúng tôi nói thẳng điều đó. Toàn bộ lý thuyết và toán học nằm trong bốn bài báo của chúng tôi. Mã nguồn là mở. Nếu chúng tôi sai, cách chứng minh điều đó cũng ở nơi công khai. Xem tình trạng nghiên cứu hiện tại.

The math behind it Explore a trace See the code