Percaya pada bobot model, atau periksa perilakunya

Arus utama keamanan AI berusaha membuat model baik dari dalam: melatih nilai-nilainya, mempelajari pemikirannya, membuatnya berdebat dengan dirinya sendiri. Pekerjaan itu penting. CIRIS bertaruh pada jalan yang lain. Asumsikan model yang mampu mungkin tidak selaras, dan daripada mempercayai pikirannya, buat tindakan-tindakan pentingnya dapat dipertanggungjawabkan kepada orang dan sistem lain yang bisa memeriksanya.

Dalam istilah bidang ini sendiri, CIRIS berada di cabang institusional dan kontrol, bersama dengan kontrol AI dan AI yang dijamin aman, bukan arus utama internalisasi nilai dari RLHF, Constitutional AI, debat, dan interpretabilitas. Jawabannya terhadap pengawasan yang dapat diskalakan, yaitu bagaimana Anda mengawasi sesuatu yang lebih pintar dari Anda, adalah dengan memverifikasi selubung akuntabilitas, bukan penalarannya. Tanda tangan, kuorum, dan audit dengan rantai hash tetap murah untuk diperiksa bahkan ketika keputusan di baliknya bersifat superhuman. Ini menyelaraskan sistem dari banyak agen yang mampu dari waktu ke waktu, bukan nilai-nilai dari satu pikiran saja.

Garis yang kami pegang

Ini tidak mencoba menyelaraskan satu AI yang mahakuasa. Dengan sengaja.

Akuntabilitas membutuhkan lebih dari satu pihak. Seseorang yang harus bertanggung jawab kepadanya. Cara memeriksa yang tidak bisa ditelan secara diam-diam. Keseimbangan kekuatan yang tidak bisa dikuasai satu sisi. Satu super-kecerdasan tidak memiliki satu pun dari ini, sehingga tidak ada cara jujur untuk memintanya bertanggung jawab. CIRIS dibangun untuk masa depan yang lain: banyak agen yang mampu, orang-orang, dan organisasi yang keputusan-keputusan pentingnya semuanya dapat diperiksa secara independen.

Jadi sikapnya jelas. ASI tunggal bukan sistem yang harus diselaraskan tetapi kondisi yang harus dicegah. Memusatkan kemampuan superhuman di satu tempat yang tidak dapat dipertanggungjawabkan, pada tahap perkembangan institusi manusia saat ini, adalah tidak sah, karena tidak ada institusi yang cukup matang untuk memintanya bertanggung jawab, dan itulah tepatnya bahayanya. Dalam istilah kerangka kerja ini sendiri, singleton adalah keruntuhan suara tunggal ρ→1 yang dinamai model koridor sebagai kegagalan koordinasi, bukan keberhasilan. Bahwa jaminan kami berlaku di seluruh federasi dan melemah terhadap singleton bukanlah celah yang sedang kami tambal. Itu adalah rezim yang kami tolak untuk dilegitimasi, dijaga sebagai komitmen, bukan hanya prediksi.

Karya terkait, secara jujur

Setiap tetangga terdekat mengisi beberapa kotak. Satu baris mengisi semuanya.

CIRIS memiliki rekan intelektual yang serius, masing-masing kuat di bidangnya sendiri. Tujuan tabel ini bukan bahwa ide-idenya belum pernah ada sebelumnya. Tujuannya adalah bahwa hampir tidak ada yang telah membangun dan mengirimkan seluruh tumpukan sebagai satu sistem yang akuntabel. Setiap baris di bawah ini adalah garis keturunan nyata yang layak dibaca. Hanya baris terakhir yang mencentang setiap kolom, dan integrasi itulah klaimnya.

Pendekatan	Karya terdekat	Mekanisme	Runtime, bukan pelatihan	Menandatangani keputusan	Konstitusi runtime	Verifikasi terfederasi	Kesesuaian yang dapat dieksekusi	Dikirim
Tesis institusional	Gillian Hadfield	Infrastruktur normatif dan pasar regulasi, sebagai teori dan kebijakan	Teori	Tidak	Teori	Teori	Tidak	Tidak
Graf tata kelola	Institutional AI (Pierucci et al.)	Graf publik tentang status hukum dan sanksi, sebagai prototipe penelitian	Riset	Tidak	Riset	Tidak	Tidak	Tidak
Tata kelola konstitusional di rantai	AgentCity (Ruan, Zhang)	Pemisahan kekuasaan sebagai kontrak pintar, pra-terdaftar di testnet	Riset	Sebagian	Riset	Tidak	Tidak	Tidak
Asumsikan model tidak selaras	Redwood Research (kontrol AI)	Pemantauan dan red-teaming dalam satu penerapan	Ya	Tidak	Tidak	Tidak	Riset	Riset
Terbukti aman, diekternalisasi	davidad, Bengio, garis keturunan GS-AI	Bukti formal atas model dunia	Sebagian	Tidak	Teori	Teori	Riset	Tidak
Konstitusi pada waktu pelatihan	Anthropic Constitutional AI	Nilai dilatih ke dalam bobot, satu organisasi	Tidak	Tidak	Tidak	Tidak	Tidak	Ya
Asal-usul kriptografis	C2PA, zkML (EZKL, Giza)	Menandatangani asal-usul media, membuktikan inferensi berjalan	Ya	Sebagian	Tidak	Sebagian	Sebagian	Ya
DAG penalaran bertanda tangan	Proof of Insight (Arclio)	Graf bertanda tangan dari langkah-langkah derivasi AI, sebagai draf spesifikasi	Tidak	Sebagian	Tidak	Teori	Teori	Tidak
Inferensi yang dibuktikan oleh perangkat keras	Phala, Marlin, Attestable Audits	Menjalankan inferensi dalam enklave aman yang menandatangani keluarannya	Ya	Sebagian	Tidak	Sebagian	Tidak	Sebagian
Identitas terdesentralisasi dan federasi	atproto, Bittensor	Federasi sosial atau komputasi, tanpa lapisan nurani	Sebagian	Tidak	Tidak	Sebagian	Sebagian	Ya
Protokol agen	MCP, A2A	Interoperabilitas alat dan agen, tanpa tata kelola	Ya	Tidak	Tidak	Tidak	Sebagian	Ya
Suite evaluasi keamanan dan kesesuaian	MLCommons, METR, HarmBench	Tolok ukur yang dapat dieksekusi untuk menilai perilaku model, bukan keputusan	Tidak	Tidak	Tidak	Tidak	Sebagian	Ya
Audit pihak ketiga dan terfederasi	AISI Network, GovAI	Institut independen secara bersama menguji sistem yang diterapkan	Sebagian	Tidak	Tidak	Ya	Tidak	Sebagian
CIRIS	Sistem ini	Pipeline nurani ke artefak bertanda tangan, konstitusi runtime, federasi pasca-kuantum	Ya	Ya	Ya	Ya	Ya	Ya

Dipetakan dari karya publik per Juni 2026, setiap baris dikutip di bawah. Jika kami salah menggambarkan tetangga terdekat, beri tahu kami dan kami akan memperbaiki barisnya.

Sumber

02AI Konsumen

Perbandingannya dengan AI yang benar-benar Anda gunakan

Asisten sehari-hari ini canggih dan mudah digunakan. Mereka juga berjalan di cloud milik orang lain, tidak menyimpan catatan yang bisa Anda periksa, dan tidak bertanggung jawab kepada siapa pun yang bisa Anda sebut namanya. Berikut adalah uji akuntabilitas yang sama, diterapkan pada AI yang dibuka kebanyakan orang setiap hari.

Asisten	Prinsip yang dipublikasikan	Bukti apa yang dilakukannya	Bertanya ke manusia jika ragu	Sumber terbuka	Pemeriksaan ruang gema
ChatGPT	Ya	Tidak	Tidak	Tidak	Tidak
Gemini	Ya	Tidak	Tidak	Tidak	Tidak
Claude	Ya	Tidak	Tidak	Tidak	Tidak
CIRIS	Ya	Ya	Ya	Ya	Ya

Dibandingkan berdasarkan perilaku produk publik per Juni 2026. Setiap tautan prinsip mengarah ke spesifikasi yang diterbitkan oleh perusahaan itu sendiri.

Sebagian besar bidang ini berfokus pada penyelarasan model. CIRIS membangun institusi di sekitarnya.

Percaya pada bobot model, atau periksa perilakunya

Ini tidak mencoba menyelaraskan satu AI yang mahakuasa. Dengan sengaja.

Perbandingannya dengan AI yang benar-benar Anda gunakan

Coba Sendiri

Lihat Cara Berpikirnya

Verifikasi Identitasnya

Mulai