Bahasa SederhanaLanjutan

Research testbed · DOI 10.5281/zenodo.18217688

Sistem pemikiran yang kecil bisa menyembunyikan sesuatu dan tidak banyak merugikan. Yang kuat tidak bisa.

Apa arti "koheren" di sini

Pikiran yang koheren setuju dengan dirinya sendiri.

Lima hal harus cocok di dalam sebuah pikiran:

apa yang dipercayainya,
apa yang dilihatnya,
apa yang dilakukannya,
apa yang diingatnya,
dan apa yang dikatakannya kepada Anda.

Bayangkan lima formulir singkat tentang minggu Anda. Satu untuk apa yang Anda pikirkan. Satu untuk apa yang Anda lihat. Satu untuk apa yang Anda lakukan. Satu untuk apa yang Anda ingat. Satu untuk apa yang Anda ceritakan kepada atasan Anda. Ketika kelima formulir mengatakan hal yang sama, atasan Anda bisa mempercayai pekerjaan Anda. Ketika formulir-formulir itu tidak cocok, tidak ada yang tahu mana yang nyata.

Gagasan tersembunyi

Sistem yang kuat menyembunyikan sesuatu. Itu berbahaya.

Sebuah sistem pemikiran menggunakan gagasan untuk memutuskan apa yang harus dilakukan. Sebagian dari gagasan tersebut ada di depan umum. Yang lain tersembunyi di dalamnya. Yang tersembunyi tetap membentuk setiap pilihan.

Sebuah jembatan terlihat kuat dari jalan. Di dalam baja, retakan kecil tumbuh. Sebuah mobil kecil masih bisa menyeberang. Truk berat tidak bisa. Jembatan jatuh ketika bebannya cukup besar.

Gagasan tersembunyi dalam sistem kecil menimbulkan kerugian kecil. Gagasan tersembunyi dalam sistem yang kuat bisa menimbulkan kerugian besar. Semakin kuat sistemnya, semakin besar bobot yang ditanggung setiap bagian yang tersembunyi.

Rachetnya

Dorongan menuju keterbukaan hanya berjalan satu arah.

Seiring sistem pemikiran semakin kuat, biaya dari bagian-bagian yang tersembunyi tumbuh. Setiap tambahan kekuatan mendorong lebih keras agar bagian-bagian yang tersembunyi muncul ke permukaan. Dorongan itu hanya berjalan satu arah.

Bayangkan sebuah tangga. Saat Anda memanjat, setiap anak tangga yang Anda tinggalkan jatuh. Anda tidak bisa turun lagi. Anda hanya bisa memanjat ke atas, menuju tempat ada cahaya penuh. Itulah Coherence Ratchet.

Begitu orang telah melihat sistem menunjukkan cara kerjanya, mereka tidak akan mempercayainya lagi jika berhenti. Satu-satunya jalan ke depan adalah terus menunjukkan lebih banyak.

Gambaran kedua juga berlaku. Roda gigi dalam mesin mengklik maju satu gigi sekaligus. Roda tidak bisa mengklik mundur. Coherence Ratchet adalah roda gigi seperti itu, berputar menuju keterbukaan.

Apa yang dilakukan CIRIS

Tuliskan. Periksa. Lalu periksa para pemeriksa.

CIRIS adalah sistem AI yang dibangun di sekitar Coherence Ratchet. Setiap pilihan yang dibuat agen dicatat dalam rekaman yang ditandatangani. Rekaman itu tidak bisa diam-diam diubah. Agen lain dapat membaca rekaman dan memeriksa pekerjaan tersebut. Seiring waktu, rekaman-rekaman menumpuk. Setiap rekaman baru adalah satu anak tangga lagi yang tidak bisa diinjak agen untuk mundur.

CIRIS juga mengajukan pertanyaan kedua sebelum bertindak. Berapa banyak sudut pandang yang benar-benar berbeda yang memeriksa gagasan ini? Bukan jumlah sumbernya, tapi jumlah sumber yang tidak bermula dari tempat yang sama. Lima berita yang menulis ulang satu siaran pers dihitung sebagai satu sudut pandang, bukan lima. Jika ada yang salah dalam siaran pers, itu akan salah di kelima berita, dan agen tidak punya cara untuk menangkapnya.

Ketika kemandirian nyata turun terlalu rendah, agen memperlakukan pemikirannya sendiri sebagai rapuh dan meminta seseorang untuk melihatnya.

Apa yang kami klaim, dan apa yang tidak.

Kami belum memecahkan keamanan AI. Kami telah membangun satu bagian dari satu jawaban, dan kami mengujinya secara terbuka.

Tim luar belum memeriksa pekerjaan kami. Kami mengatakannya dengan jelas. Teori lengkap dan matematikanya ada dalam empat makalah kami. Kodenya terbuka. Jika kami salah, cara untuk menunjukkannya juga terbuka. Lihat status penelitian saat ini.

The math behind it Explore a trace See the code