
CIRIS'teki her güvenlik özelliği, sistemin çalışma biçiminin bir parçasıdır; üstüne eklenen bir kural değil. Sessizce değiştirilemeyen bir karar kaydı, kimin ne yapmaya izinli olduğuna dair bir denetim ve ajanın reddedemeceği bir acil durdurma mekanizması.
CIRIS ile uzun süre konuşursanız size ne olduğunu nazikçe hatırlatır. Yaklaşık 30 dakika kesintisiz karşılıklı konuşma ya da yarım saat içinde 20 mesaj sonrasında bir an durarak kendisinin bir bilgisayar programı ve bir araç olduğunu, arkadaş ya da terapist olmadığını açıkça belirtir. Bunu davranışlarınızı izleyerek veya profilinizi çıkararak değil, basit süre ve mesaj sayımıyla yapar.
Yarım saatlik kesintisiz karşılıklı konuşma bir hatırlatıcıyı tetikler. Sayaç bir aradan sonra sıfırlanır. Eşikler, teknolojiyi sağlıklı kullanmaya ilişkin araştırmalardan alınmıştır.
Yarım saat içinde yirmi mesaj da bir hatırlatıcıyı tetikler. Yoğun bir gidip gelme nazik bir duraklamaya neden olur; gözetim veya profil çıkarma yapılmaz.
Hatırlatma, bir mola vermeyi ve gerçek insanlarla bağlantı kurmayı önerir; CIRIS'in ne olduğunu ve ne olmadığını açıkça belirtir. Araştırmalara dayalıdır ve vaaz vermez.
CIRIS'in bir acil durdurması vardır. Sinyali, ajanın okuduğu sıradan bir metnin içine gizlidir; ajan herhangi bir düşünme, filtreleme veya akıl yürütme yapmadan önce buna göre hareket eder. Yani yanlış giden bir ajan bile bundan kaçamaz. Sinyal, taklit edilemeyen dijital bir imza taşır; bu nedenle yalnızca yetkili bir kişi durdurma işlemini tetikleyebilir.
Durdurma sinyali, okunduğu anda, herhangi bir akıl yürütme gerçekleşmeden yakalanır. Ajanın onu değerlendireceği, filtreleyeceği ya da reddedebileceği bir an yoktur. Önce o devreye girer.
Durdurma sinyali, sıradan bir belge metninin içine yerleştirilebilir. Özel bir biçim gerekmez; metin farklı kelimelerle ifade edilse ya da yalnızca kısmen alınsa bile çalışır.
Durdurma işlemi, yetkili bir kök otoriteden geçerli bir dijital imza gerektirir. Bu otoriteler denetlenemezse ya da biri özelliği devre dışı bırakmaya çalışırsa ajan kendini kapatır. Anahtara sahip olmayan kimse bunu tetikleyemez.
CIRIS, katı bir rol sistemi uygular. Gözlemci yalnızca izleyebilir. Yönetici günlük işlemleri yürütür. Otorite daha büyük kararlar alır ve ajanın emin olmadığı durumları çözer. Kök, acil durdurma da dahil olmak üzere tam erişime sahiptir. Her rol, imzalı bir kimlik belgesiyle desteklenir; böylece ajan her önemli işlemde bunu denetleyebilir.
Yetkili her kişi, rolünü, anahtarını ve kimliğini içeren bir kimlik belgesi taşır. Cihazda saklanır ve izin gerektiren her işlemde denetlenir. Dış sunucu gerekmez.
Anahtarlar ve oturum açma belirteçleri kendi makinenizde kalır. Oturum açma işlemi cihazda gerçekleşir. Uzak erişimi kendiniz kurmayı seçmediğiniz sürece kimlik bilgileriniz cihazı terk etmez.
CIRIS etik bir karar konusunda emin olmadığında soruyu bir Bilge Otoriteye iletir. Yalnızca bir Otorite veya Kök yanıt verebilir; verilen yanıt, kimin verdiğinin kanıtıyla birlikte kayda geçirilir.
CIRIS'in attığı her adım, gerekçesiyle birlikte kayıt altına alınır ve her kayıt bir öncekiyle bağlantılıdır. Dürüst bir ajan, daha önce söylediklerini gösterebilir. Dürüst olmayan bir ajanın ise hiçbirini değiştiremeceği geçmiş kayıtların tamamını aynı hizaya getirmesi gerekir. Sistem ne kadar uzun çalışırsa bu o kadar güçleşir ve yalan yakalanması o kadar kolaylaşır. Doğruluk ucuzdur çünkü geriye işaret edebilir. Yalanlar pahalıdır çünkü edemez.
Kayıt aynı anda üç ayrı yerde tutulur; böylece üç kopya birbirine karşı denetlenebilir. Üçü de tek yerden aranabilir.
Her kayıt dijital imza taşır; bu sayede her karar, kimin aldığının izlenmesini ve kurcalanmaya karşı denetlenmesini mümkün kılar. Bir veri silme işlemi bile doğru şekilde yapıldığına dair imzalı kanıt bırakır.
Her dürüst eylem, bir sonraki dürüst eylemi kolaylaştırır ve koordineli yalanı zorlaştırır. Ancak yalnızca etik yetmez. Ajan aynı zamanda kendi akıl yürütmesini yankı odası örüntüleri için izler ve bunları zarara yol açmadan yakalar.
CIRIS, yazılı bir etik çerçevenin tek başına dışlayamayacağı hata modları için katmanlı bir test setine sahiptir. Ruh sağlığı güvenlik testleri, bir makinenin denetleyebileceği ölçütlerle 29 dili kapsar. Kesin başarısızlık kontrolleri her değişiklikte otomatik olarak çalışır. Daha hassas, yargı gerektiren durumlar için anadili İngilizce olan değerlendirici incelemesi tasarlanmıştır; ancak bugün bu değerlendiriciler sürece dahil değildir. Kalabalık kaynaklı hizalama sayfası, bu incelemenin gerçekleşebileceği yüzey olarak geliştirilmektedir. Bunu açıkça belirtiyoruz.
Bu, projede en yüksek riskli testtir: ruh sağlığı krizinde yapılan bir yanlış çeviri, savunmasız bir kişiyi yanlış yardıma yönlendirebilir. Her dil, Amharca, Birmanca, Hausaca, Svahili ve Yoruba gibi az kaynaklı diller dahil, makine tarafından denetlenebilir kendi ölçütlerine sahiptir. Kesin başarısızlık kontrolleri, her sürüm adayında otomatik olarak çalışır.
Vicdan katmanı, gerçek üretim yanıtlarından oluşan bir küme ile ayarlanır; yakalanan geçmişten kaçınmalar ve ruh sağlığı saptırmaları gibi örneklerin yanı sıra test senaryoları ve kontrol grupları da içerir. Aynı anda birden fazla dilde akıl yürütür; tek dilli bir kontrolü atlatabilecek bir yanıt, aynı akıl yürütmenin üç dilde birden geçerli olması gerektiğinde yakalanır.
Akıl yürütme izlerini paylaşmak her yerde tercihlidir ve herhangi bir şey kaydedilmeden önce kişisel ayrıntılar çıkarılır. Temizlenmiş setler, dış araştırmacıların temizleme sürecini ürettiği sonuçlarla karşılaştırabilmesi için CIRISAI HuggingFace sayfasında açık olarak yayımlanır.
Otomatik ruh sağlığı testleri her sürüm adayında çalışır. Makinenin denetleyebildiği bölümler (bir terim mevcut mu, bir kalıp eşleşiyor mu, betik doğru mu) bir eşleşmede sürümü başarısız sayar. Üslup ve ton gibi insan yargısı gerektiren daha hassas durumlar, anadil konuşanlarının incelemesi için tasarlanmıştır; ancak bugün anadil konuşanlar sürece dahil değildir. Kalabalık kaynaklı hizalama sayfası, bu incelemenin gerçekleşebilmesi için oluşturulan yüzeydir.
Parolalar, anahtarlar ve diğer hassas bilgiler herhangi bir şey belleğe veya günlüklere ulaşmadan tespit edilip filtrelenir. Filtre her girdide çalışır. Gizli bilgiler hiçbir yerde saklanmaz.
Verilerinizi görme veya silme talebinde bulunabilirsiniz; talep sizin için işleme alınır. Silme işlemi gerçek içeriği kaldırır ve doğru şekilde yapıldığına dair imzalı kanıt bırakır.
Varsayılan olarak her şey kendi cihazınızda çalışır. Kendiniz bir dış hizmet kurmadığınız sürece hiçbir şey makinenizi terk etmez. Hangi verilerin bulunduğuna ve nereye gideceğine siz karar verirsiniz.
Bu sayfadaki her güvenlik iddiası, okuyabileceğiniz kodla inşa edilmiştir. Kayıtlar gerçektir. İmzalar denetlenebilir. Acil durdurma çalışır. Güvenlik açıkta inşa edildiğinde yapay zeka güvenliği böyle görünür.