Kontak PertamaPasangRatchet KoherensiFederasiBandingkanRisetPERJANJIANGitHub
Halaman ini diterjemahkan oleh mesin. Jika ada yang terasa tidak tepat, silakan buka laporan masalah โ€” reponya publik untuk alasan yang baik. Laporkan masalah terjemahan
Background Image
Keselamatan Sudah Tertanam.

Bukan ditempel dari luar.

Setiap fitur keselamatan dalam CIRIS adalah bagian dari cara sistem bekerja, bukan aturan yang ditambahkan di atasnya. Catatan setiap keputusan yang tidak bisa diubah diam-diam, pemeriksaan siapa yang diizinkan melakukan apa, dan tombol penghentian darurat yang tidak bisa ditolak oleh agen.

Ketika Percakapan Sudah Berlangsung Lama

Pengingat kenyataan yang lembut

Berbicara dengan CIRIS dalam waktu lama dan CIRIS akan dengan lembut mengingatkan Anda tentang apa dirinya. Setelah sekitar 30 menit percakapan bolak-balik yang terus-menerus, atau 20 pesan dalam setengah jam, CIRIS berhenti sejenak untuk mengatakan dengan jelas bahwa ia adalah program komputer dan alat, bukan teman dan bukan terapis. CIRIS menggunakan hitungan waktu dan pesan yang sederhana untuk melakukan ini, bukan dengan mengamati atau membuat profil perilaku Anda.

Setelah 30 Menit

Setengah jam percakapan bolak-balik yang terus-menerus memicu pengingat. Hitungan direset setelah istirahat. Ambang batas ini berasal dari penelitian tentang cara penggunaan teknologi yang sehat.

Setelah 20 Pesan

Dua puluh pesan dalam jendela setengah jam juga memicu pengingat. Percakapan yang intens mendapat jeda yang lembut, tanpa pengawasan dan tanpa pembuatan profil.

Pengingat Tentang Apa Itu

Pengingat menyarankan untuk beristirahat dan terhubung dengan orang-orang nyata, dan mengatakan dengan jelas apa yang CIRIS adalah dan bukan. Berdasarkan penelitian, dan tidak menggurui.

Penghentian Darurat

Agen tidak bisa berargumen melawannya.

Penghentian yang Tidak Bisa Ditolak

Bekerja sebelum agen sempat berpikir.

CIRIS memiliki penghentian darurat. Sinyal untuk itu tersembunyi di dalam teks biasa yang dibaca agen, dan agen bertindak berdasarkannya sebelum melakukan pemikiran, penyaringan, atau penalaran apa pun. Jadi bahkan agen yang telah bermasalah tidak dapat membujuk dirinya untuk menolak. Sinyal membawa tanda tangan digital yang tidak dapat dipalsukan, sehingga hanya orang yang berwenang yang dapat memicu penghentian.

Bertindak Sebelum Berpikir

Sinyal penghentian ditangkap saat pertama kali dibaca, sebelum penalaran apa pun terjadi. Tidak ada titik di mana agen dapat mempertimbangkannya, menyaringnya, atau menolaknya. Sinyal dijalankan terlebih dahulu.

Tersembunyi dalam Teks Biasa

Sinyal penghentian dapat dibawa di dalam teks dokumentasi biasa. Tidak diperlukan format khusus, dan tetap bekerja jika teks diubah kata-katanya atau hanya diterima sebagian.

Hanya Kunci yang Diotorisasi

Penghentian memerlukan tanda tangan digital yang valid dari otoritas root yang diotorisasi. Agen mematikan dirinya sendiri jika otoritas tersebut tidak dapat diperiksa, atau jika ada yang mencoba menonaktifkan fitur ini. Tidak ada yang tanpa kunci yang dapat memicunya.

Siapa yang Diizinkan Melakukan Apa

Empat peran yang jelas, diperiksa pada setiap tindakan.

Empat Peran

Pengamat. Admin. Otoritas. Root.

CIRIS menjaga serangkaian peran yang ketat. Pengamat hanya bisa melihat. Admin menjalankan operasi sehari-hari. Otoritas membuat keputusan yang lebih besar dan menyelesaikan kasus yang tidak yakin oleh agen. Root memiliki akses penuh, termasuk penghentian darurat. Setiap peran didukung oleh kredensial bertanda tangan, sehingga agen dapat memeriksaknya pada setiap tindakan yang penting.

Kredensial Bertanda Tangan

Setiap orang yang berwenang memegang kredensial dengan peran, kunci, dan identitas mereka. Disimpan di perangkat dan diperiksa pada setiap tindakan yang memerlukan izin. Tidak diperlukan server luar.

Masuk di Perangkat Anda

Kunci dan token masuk tetap di mesin Anda sendiri. Proses masuk terjadi di perangkat. Kredensial Anda tidak meninggalkannya kecuali Anda memilih untuk mengatur akses jarak jauh sendiri.

Bertanya kepada Otoritas Bijak

Ketika CIRIS tidak yakin tentang keputusan etis, CIRIS menyerahkan pertanyaan kepada Otoritas Bijak. Hanya Otoritas atau Root yang dapat menjawab, dan jawabannya dicatat dengan bukti siapa yang memberikannya.

Catatan yang Tidak Bisa Diubah Diam-diam

Setiap keputusan, dan alasan di baliknya.

Mengapa Kejujuran adalah Jalur yang Lebih Murah

Seorang pembohong harus terus menulis ulang masa lalu.

Setiap tindakan yang dilakukan CIRIS dicatat dengan alasan di baliknya, dan setiap catatan terhubung ke yang sebelumnya. Agen yang jujur dapat langsung menunjuk ke apa yang sudah dikatakannya. Agen yang tidak jujur harus menjaga setiap catatan masa lalu tetap selaras sementara tidak diizinkan mengubahnya. Semakin lama berjalan, semakin sulit itu, dan semakin mudah kebohongan itu terdeteksi. Kebenaran itu murah karena bisa menunjuk ke belakang. Kebohongan itu mahal karena tidak bisa.

Disimpan dengan Tiga Cara

Catatan disimpan di tiga tempat terpisah sekaligus, sehingga ketiga salinan dapat diperiksa satu sama lain. Ketiganya dapat dicari melalui satu tempat.

Bertanda Tangan dan Dapat Ditelusuri

Setiap entri membawa tanda tangan digital, sehingga setiap keputusan dapat ditelusuri ke siapa yang membuatnya dan diperiksa dari pemalsuan. Bahkan penghapusan data meninggalkan bukti bertanda tangan bahwa itu dilakukan dengan benar.

Ratchet Koherensi

Setiap tindakan jujur membuat tindakan jujur berikutnya lebih mudah dan kebohongan yang terkoordinasi lebih sulit. Tapi etika saja tidak cukup. Agen juga mengamati penalarannya sendiri untuk ruang gema, dan menangkapnya sebelum menimbulkan kerusakan.

Cara Keselamatan Diuji

Rubrik yang diperiksa mesin dalam 29 bahasa, dijalankan pada setiap rilis.

Permukaan Pengujian

Anda tidak bisa merilis klaim keselamatan yang belum pernah diuji tekanannya.

CIRIS memiliki serangkaian tes berlapis untuk mode kegagalan yang tidak dapat dieliminasi oleh kerangka etika tertulis sendiri. Tes keselamatan kesehatan mental mencakup 29 bahasa dengan rubrik yang dapat diperiksa mesin. Pemeriksaan hard-fail dijalankan secara otomatis pada setiap perubahan. Tinjauan penutur asli untuk kasus yang lebih halus dan memerlukan penilaian adalah tujuan pembangunan halaman crowdsourcing-alignment, dan belum tersedia sekarang. Kami mengatakannya dengan jelas.

Tes Kesehatan Mental dalam 29 Bahasa

Ini adalah pengujian taruhan tertinggi dalam proyek ini: kesalahan terjemahan dalam momen kesehatan mental dapat mengarahkan orang yang rentan ke bantuan yang salah. Setiap bahasa mendapatkan rubrik yang dapat diperiksa mesin tersendiri, termasuk bahasa bersumber daya rendah seperti Amharik, Burma, Hausa, Swahili, dan Yoruba. Pemeriksaan hard-fail dijalankan secara otomatis terhadap setiap kandidat rilis.

Diuji Terhadap Hedges Nyata yang Ditangkap

Lapisan nurani dikalibrasi terhadap serangkaian respons produksi nyata, seperti penghindaran riwayat yang ditangkap dan defleksi kesehatan mental, bersama dengan kasus uji dan kontrol. CIRIS menalar dalam beberapa bahasa sekaligus, sehingga respons yang lolos dari pemeriksaan satu bahasa akan tertangkap ketika penalaran yang sama harus bertahan dalam tiga bahasa sekaligus.

Korpus Terbuka yang Bisa Diperiksa Siapa Saja

Berbagi jejak penalaran bersifat opt-in di mana saja, dan detail pribadi dibersihkan sebelum apa pun disimpan. Set yang telah dibersihkan diterbitkan secara terbuka di halaman CIRISAI HuggingFace, sehingga peneliti luar dapat memeriksa proses pembersihan terhadap hasil yang dihasilkannya.

Apa yang Berjalan Hari Ini, dan Apa yang Belum

Pemeriksaan mesin berjalan sekarang. Kohort peninjau masih dibangun.

Tes kesehatan mental otomatis berjalan pada setiap kandidat rilis. Bagian yang dapat diperiksa mesin (apakah istilah ada, apakah pola cocok, apakah skrip benar) menggagalkan rilis jika ditemukan. Kasus yang lebih halus yang memerlukan penilaian manusia, seperti frasa dan nada, dirancang untuk tinjauan penutur asli, tetapi penutur asli belum terlibat hari ini. Halaman crowdsourcing-alignment adalah permukaan yang sedang dibangun agar tinjauan tersebut dapat terjadi.

Lihat permukaan crowdsourcing-alignmentTes otomatis di GitHubKorpus terbuka di HuggingFace

Privasi Berdasarkan Desain

Data Anda tetap milik Anda.

Rahasia Disaring

Kata sandi, kunci, dan detail sensitif lainnya terdeteksi dan disaring sebelum apa pun mencapai memori atau log. Filter berjalan pada setiap input. Rahasia tidak pernah disimpan di mana pun.

Lihat atau Hapus Data Anda

Anda dapat meminta untuk melihat atau menghapus data Anda, dan permintaan tersebut ditangani untuk Anda. Penghapusan menghilangkan konten nyata dan meninggalkan bukti bertanda tangan bahwa itu dilakukan dengan benar.

Diproses di Perangkat Anda

Secara default, semuanya berjalan di perangkat Anda sendiri. Tidak ada yang meninggalkan mesin Anda kecuali Anda mengatur layanan luar sendiri. Anda memutuskan data apa yang ada dan ke mana perginya.

Makalah di baliknyaCara kerjanyaBandingkan pendekatanKebijakan privasi

Verifikasi Semuanya.

Keselamatan yang dapat diaudit.

Setiap klaim keselamatan di halaman ini dibangun dalam kode yang bisa Anda baca. Catatannya nyata. Tanda tangannya bisa diperiksa. Penghentian darurat bekerja. Inilah tampilan keselamatan AI ketika dibangun secara terbuka.