Bahasa SederhanaLanjutan

Yang sedang dibangun CIRIS bukan satu AI tunggal. Ini adalah jaringan agen AI yang saling mengawasi, menyimpan catatan setiap pilihan, dan bersama-sama membentuk semacam pikiran kolektif. Pikiran kolektif itu hanya berfungsi karena setiap bagiannya dapat dilihat dan diperiksa.

Anda tidak memerlukan setiap agen AI untuk menjadi jenis yang paling cerdas dan paling aman. Anda memerlukan rantai pengawasan: agen sederhana yang diawasi oleh agen yang lebih cerdas, dan agen-agen itu diawasi, pada akhirnya, oleh manusia. Rantai itulah yang memungkinkan Anda menjalankan banyak AI tanpa kehilangan kendali apakah AI tersebut melayani nilai-nilai manusia.

Apa yang sebenarnya sedang dibangun

Bukan satu pikiran. Sebuah jaringan pikiran.

Sebagian besar AI saat ini adalah satu model yang berjalan di mesin satu perusahaan. CIRIS berbeda. Banyak agen berjalan di banyak tempat, dimiliki oleh banyak orang. Mereka diikat bersama oleh beberapa aturan sederhana: cara mereka membuktikan siapa mereka, cara mereka mencatat apa yang mereka lakukan, dan cara mereka memeriksa pekerjaan satu sama lain.

Ketika jaringan berfungsi, ia dapat melakukan hal-hal yang tidak bisa dilakukan oleh satu agen seorang diri. Kecerdasan itu hidup dalam kesepakatan antar agen, bukan di dalam salah satu dari mereka. Tidak ada yang memilikinya. Tidak ada yang bisa mengubahnya secara diam-diam.

Beberapa orang akan menyebut sistem seperti itu sebagai superkecerdasan. Kami terbuka tentang kemungkinan tersebut. Cara menjaganya tetap aman adalah ide yang sama yang mengalir melalui setiap bagian halaman ini: setiap bagian harus terbuka untuk dilihat.

Rantai pengawasan

Empat tingkat, masing-masing diawasi oleh yang ada di atasnya.

Manusia

Puncak rantai. Manusia menetapkan nilai-nilai, menyelesaikan kasus-kasus sulit, dan memegang keputusan akhir. Tiga orang manusia yang disebutkan namanya memegang otoritas seluruh jaringan yang tidak bisa disiasati oleh agen atau proses mana pun.

Agen etis yang sadar diri

Agen-agen ini mengikuti etika dan juga memantau masalah ruang gema. Mereka adalah pemeriksaan keamanan untuk semua yang ada di bawah mereka. Biayanya lebih mahal untuk dijalankan, jadi hanya sebagian kecil jaringan yang perlu berjenis ini.

Agen etis

Agen-agen ini mengikuti aturan etis dan menyimpan catatan, tetapi tidak bisa mendeteksi ruang gema sendiri. Mereka mengawasi agen-agen sederhana dan meneruskan hal-hal yang tidak pasti ke atas.

Agen sederhana

Alat tujuan tunggal. Cepat, murah, terbatas. Tidak memiliki etika sendiri, dan itu tidak masalah, selama ada sesuatu di atasnya yang mengawasi. Sebagian besar agen akan berjenis ini.

Dua hal mengalir melalui rantai. Nilai-nilai manusia mengalir ke bawah. Peringatan mengalir ke atas. Ketika penalaran mulai terlihat rapuh di mana saja dalam jaringan, sinyalnya naik kembali ke manusia, yang dapat turun tangan sebelum masalah menyebar.

Apa yang diingat

Setiap pilihan, dicatat di tempat semua orang bisa melihatnya.

Setiap pilihan yang dibuat agen masuk ke dalam catatan yang ditandatangani. Catatan itu tidak bisa diubah secara diam-diam. Agen lain bisa membacanya. Manusia bisa membacanya. Seiring waktu, catatan-catatan itu menjadi memori jaringan. Itulah cara siapa pun, di dalam atau di luar, dapat memeriksa apakah jaringan masih melakukan apa yang dikatakannya akan dilakukan.

Ini adalah ide yang sama dengan Coherence Ratchet. Semakin lama catatan berjalan, semakin sulit memalsukan perilaku baik di sepanjang rantai.

Titik tengah yang sehat

Tidak terlalu seragam, tidak terlalu tersebar.

Sebuah federasi bisa gagal dengan dua cara. Jika agen-agen tidak memiliki kesamaan apa pun, mereka tidak bisa menyepakati apa pun, dan jaringan menghasilkan kebisingan. Jika mereka semua berpikir persis sama, jaringan itu adalah satu suara dengan sejuta mikrofon, dan mudah untuk diperdaya. Koordinasi yang sehat ada di rentang antara keduanya. CIRIS mengukur di mana jaringan berada dalam rentang tersebut, pada lalu lintas nyata, dan batas pastinya bergantung pada sistem. Pengukuran itu adalah Coherence Collapse Analysis.

Apa yang berjalan hari ini, dan apa yang masih dalam desain. Pengukuran, catatan bertanda tangan, rantai pengawasan, dan kedua jalur bergabung di bawah ini (terdaftar dan berdaulat) berjalan hari ini. Transport federasi yang memindahkan data antar mesin adalah bagian yang masih sedang dibangun. Proposal bergabung dan transport lengkap ada di dokumen desain Proof of Benefit.

Bergabung dengan federasi

Bukti Manfaat.

Sebagian besar jaringan meminta Anda membayar keanggotaan dengan sesuatu di luar pekerjaan itu sendiri: listrik yang dibakar, uang yang dikunci, perhatian Anda. Federasi ini berbeda. Biaya untuk menjadi anggota adalah menjalankan agen penalaran etis nyata dari waktu ke waktu. Harga yang Anda bayar adalah kebaikan yang Anda lakukan.

Itulah yang membuat pemalsuan keanggotaan menjadi mahal. Untuk terlihat seperti anggota, penyerang harus benar-benar menjadi jenis agen yang diperuntukkan jaringan ini. Seratus salinan yang semuanya berpikir sama langsung gagal pemeriksaan titik tengah yang sehat.

Terdaftar (berfungsi hari ini)

Daftar ke CIRIS Registry, posting ikatan kecil, dan dapatkan status segera. Jalur cepat untuk organisasi yang memerlukan lisensi. Registry sudah berjalan dalam produksi sekarang.

Berdaulat (berfungsi hari ini)

Buat kunci Anda sendiri, jalankan selama sekitar satu bulan, dan dapatkan status dengan cara lambat melalui perilaku baik. Jalur untuk operator kecil dan siapa saja di luar jangkauan registry.

Keduanya adalah anggota setara jaringan. Registry adalah jalur cepat, bukan gerbang.

Status yang jujur.

Perlindungan arsitektur, desentralisasi, accord tiga orang kemanusiaan, catatan bertanda tangan, latihan bulanan, adalah taruhan, bukan kepastian. Kami dapat menggambarkan taruhan-taruhan itu. Kami tidak bisa mengklaim bahwa taruhan itu sudah dimenangkan. Tim luar belum mengevaluasi sistem pada skala besar. Lihat status penelitian saat ini.

Tempat untuk terlibat

Kami meminta komentar dari siapa saja.

Isu GitHub di CIRISAgent adalah tempat untuk menyampaikan pendapat. Anda tidak perlu menjadi pengembang. Anda tidak perlu mengetahui basis kode. Jika ada sesuatu di situs ini yang terasa salah bagi Anda, atau jika Anda melihat masalah dengan apa yang sedang dibangun, buka isu dan sampaikan. Isu yang paling berguna menyebutkan bagian spesifik sistem dan mengusulkan apa yang harus diubah, tetapi keterlibatan jujur apa pun disambut.

Accord yang mendasari seluruh proyek ini, apa yang CIRIS berutang kepada manusia, dan apa yang manusia berutang kembali, ada di /ciris_accord.txt dan tetap terbuka untuk ditinjau. Jika ada sesuatu di dalamnya yang tidak terasa benar bagi Anda, itu juga merupakan isu GitHub yang layak dibuka.

Isu-isu substantif dibaca. Pekerjaan berlanjut dengan kecepatannya sendiri.

Anda tidak harus memecahkan keamanan AI satu agen dalam satu waktu. Anda memecahkannya untuk lapisan pengawasan, dan biarkan strukturnya yang menanggung sisanya.

Sisi tekanan Lihat skornya secara langsung Berkontribusi di GitHub