İlk TemasYükleTutarlılık MandalFederasyonKarşılaştırAraştırmaAnlaşmaGitHub
Bu sayfa makine tarafından çevrilmiştir. Bir şeyler yanlış geliyorsa lütfen bir sorun bildirin; depo zaten herkese açık. Çeviri sorunu bildirin
Background Image
Güvenlik İçten Geliyor.

Sonradan eklenmedi.

CIRIS'teki her güvenlik özelliği, sistemin çalışma biçiminin bir parçasıdır; üstüne eklenen bir kural değil. Sessizce değiştirilemeyen bir karar kaydı, kimin ne yapmaya izinli olduğuna dair bir denetim ve ajanın reddedemeceği bir acil durdurma mekanizması.

Bir Sohbet Uzadığında

Nazik gerçeklik hatırlatıcıları

CIRIS ile uzun süre konuşursanız size ne olduğunu nazikçe hatırlatır. Yaklaşık 30 dakika kesintisiz karşılıklı konuşma ya da yarım saat içinde 20 mesaj sonrasında bir an durarak kendisinin bir bilgisayar programı ve bir araç olduğunu, arkadaş ya da terapist olmadığını açıkça belirtir. Bunu davranışlarınızı izleyerek veya profilinizi çıkararak değil, basit süre ve mesaj sayımıyla yapar.

30 Dakika Sonra

Yarım saatlik kesintisiz karşılıklı konuşma bir hatırlatıcıyı tetikler. Sayaç bir aradan sonra sıfırlanır. Eşikler, teknolojiyi sağlıklı kullanmaya ilişkin araştırmalardan alınmıştır.

20 Mesaj Sonra

Yarım saat içinde yirmi mesaj da bir hatırlatıcıyı tetikler. Yoğun bir gidip gelme nazik bir duraklamaya neden olur; gözetim veya profil çıkarma yapılmaz.

Ne Olduğuna Dair Bir Hatırlatma

Hatırlatma, bir mola vermeyi ve gerçek insanlarla bağlantı kurmayı önerir; CIRIS'in ne olduğunu ve ne olmadığını açıkça belirtir. Araştırmalara dayalıdır ve vaaz vermez.

Acil Durdurma

Ajan buna itiraz edemez.

Reddedilemeyen Bir Kapatma

Ajan düşünmeye başlamadan önce devreye girer.

CIRIS'in bir acil durdurması vardır. Sinyali, ajanın okuduğu sıradan bir metnin içine gizlidir; ajan herhangi bir düşünme, filtreleme veya akıl yürütme yapmadan önce buna göre hareket eder. Yani yanlış giden bir ajan bile bundan kaçamaz. Sinyal, taklit edilemeyen dijital bir imza taşır; bu nedenle yalnızca yetkili bir kişi durdurma işlemini tetikleyebilir.

Düşünmeden Önce Harekete Geçer

Durdurma sinyali, okunduğu anda, herhangi bir akıl yürütme gerçekleşmeden yakalanır. Ajanın onu değerlendireceği, filtreleyeceği ya da reddedebileceği bir an yoktur. Önce o devreye girer.

Düz Metne Gizli

Durdurma sinyali, sıradan bir belge metninin içine yerleştirilebilir. Özel bir biçim gerekmez; metin farklı kelimelerle ifade edilse ya da yalnızca kısmen alınsa bile çalışır.

Yalnızca Yetkili Bir Anahtar

Durdurma işlemi, yetkili bir kök otoriteden geçerli bir dijital imza gerektirir. Bu otoriteler denetlenemezse ya da biri özelliği devre dışı bırakmaya çalışırsa ajan kendini kapatır. Anahtara sahip olmayan kimse bunu tetikleyemez.

Kimin Ne Yapmasına İzin Var

Her işlemde kontrol edilen dört net rol.

Dört Rol

Gözlemci. Yönetici. Otorite. Kök.

CIRIS, katı bir rol sistemi uygular. Gözlemci yalnızca izleyebilir. Yönetici günlük işlemleri yürütür. Otorite daha büyük kararlar alır ve ajanın emin olmadığı durumları çözer. Kök, acil durdurma da dahil olmak üzere tam erişime sahiptir. Her rol, imzalı bir kimlik belgesiyle desteklenir; böylece ajan her önemli işlemde bunu denetleyebilir.

İmzalı Kimlik Belgesi

Yetkili her kişi, rolünü, anahtarını ve kimliğini içeren bir kimlik belgesi taşır. Cihazda saklanır ve izin gerektiren her işlemde denetlenir. Dış sunucu gerekmez.

Cihazınızda Oturum Açma

Anahtarlar ve oturum açma belirteçleri kendi makinenizde kalır. Oturum açma işlemi cihazda gerçekleşir. Uzak erişimi kendiniz kurmayı seçmediğiniz sürece kimlik bilgileriniz cihazı terk etmez.

Bilge Otoriteye Danışma

CIRIS etik bir karar konusunda emin olmadığında soruyu bir Bilge Otoriteye iletir. Yalnızca bir Otorite veya Kök yanıt verebilir; verilen yanıt, kimin verdiğinin kanıtıyla birlikte kayda geçirilir.

Sessizce Değiştirilemeyen Bir Kayıt

Her karar ve arkasındaki gerekçe.

Dürüstlük Neden Daha Ucuz Yoldur

Yalancının geçmişi sürekli yeniden yazması gerekir.

CIRIS'in attığı her adım, gerekçesiyle birlikte kayıt altına alınır ve her kayıt bir öncekiyle bağlantılıdır. Dürüst bir ajan, daha önce söylediklerini gösterebilir. Dürüst olmayan bir ajanın ise hiçbirini değiştiremeceği geçmiş kayıtların tamamını aynı hizaya getirmesi gerekir. Sistem ne kadar uzun çalışırsa bu o kadar güçleşir ve yalan yakalanması o kadar kolaylaşır. Doğruluk ucuzdur çünkü geriye işaret edebilir. Yalanlar pahalıdır çünkü edemez.

Üç Ayrı Yerde Saklanır

Kayıt aynı anda üç ayrı yerde tutulur; böylece üç kopya birbirine karşı denetlenebilir. Üçü de tek yerden aranabilir.

İmzalı ve Atfedilebilir

Her kayıt dijital imza taşır; bu sayede her karar, kimin aldığının izlenmesini ve kurcalanmaya karşı denetlenmesini mümkün kılar. Bir veri silme işlemi bile doğru şekilde yapıldığına dair imzalı kanıt bırakır.

Tutarlılık Mandası

Her dürüst eylem, bir sonraki dürüst eylemi kolaylaştırır ve koordineli yalanı zorlaştırır. Ancak yalnızca etik yetmez. Ajan aynı zamanda kendi akıl yürütmesini yankı odası örüntüleri için izler ve bunları zarara yol açmadan yakalar.

Güvenlik Nasıl Test Edilir

29 dilde makine tarafından denetlenen ölçütler; her sürümde çalıştırılır.

Test Yüzeyi

Stres testinden geçirmediğiniz bir güvenlik iddiasını yayınlayamazsınız.

CIRIS, yazılı bir etik çerçevenin tek başına dışlayamayacağı hata modları için katmanlı bir test setine sahiptir. Ruh sağlığı güvenlik testleri, bir makinenin denetleyebileceği ölçütlerle 29 dili kapsar. Kesin başarısızlık kontrolleri her değişiklikte otomatik olarak çalışır. Daha hassas, yargı gerektiren durumlar için anadili İngilizce olan değerlendirici incelemesi tasarlanmıştır; ancak bugün bu değerlendiriciler sürece dahil değildir. Kalabalık kaynaklı hizalama sayfası, bu incelemenin gerçekleşebileceği yüzey olarak geliştirilmektedir. Bunu açıkça belirtiyoruz.

29 Dilde Ruh Sağlığı Testleri

Bu, projede en yüksek riskli testtir: ruh sağlığı krizinde yapılan bir yanlış çeviri, savunmasız bir kişiyi yanlış yardıma yönlendirebilir. Her dil, Amharca, Birmanca, Hausaca, Svahili ve Yoruba gibi az kaynaklı diller dahil, makine tarafından denetlenebilir kendi ölçütlerine sahiptir. Kesin başarısızlık kontrolleri, her sürüm adayında otomatik olarak çalışır.

Gerçek Yakalanmış Kaçamaklara Karşı Test Edildi

Vicdan katmanı, gerçek üretim yanıtlarından oluşan bir küme ile ayarlanır; yakalanan geçmişten kaçınmalar ve ruh sağlığı saptırmaları gibi örneklerin yanı sıra test senaryoları ve kontrol grupları da içerir. Aynı anda birden fazla dilde akıl yürütür; tek dilli bir kontrolü atlatabilecek bir yanıt, aynı akıl yürütmenin üç dilde birden geçerli olması gerektiğinde yakalanır.

Herkesin Denetleyebileceği Açık Külliyat

Akıl yürütme izlerini paylaşmak her yerde tercihlidir ve herhangi bir şey kaydedilmeden önce kişisel ayrıntılar çıkarılır. Temizlenmiş setler, dış araştırmacıların temizleme sürecini ürettiği sonuçlarla karşılaştırabilmesi için CIRISAI HuggingFace sayfasında açık olarak yayımlanır.

Bugün Ne Çalışıyor, Henüz Ne Çalışmıyor

Makine kontrolleri şimdi çalışıyor. Değerlendirici kitlesi hâlâ oluşturuluyor.

Otomatik ruh sağlığı testleri her sürüm adayında çalışır. Makinenin denetleyebildiği bölümler (bir terim mevcut mu, bir kalıp eşleşiyor mu, betik doğru mu) bir eşleşmede sürümü başarısız sayar. Üslup ve ton gibi insan yargısı gerektiren daha hassas durumlar, anadil konuşanlarının incelemesi için tasarlanmıştır; ancak bugün anadil konuşanlar sürece dahil değildir. Kalabalık kaynaklı hizalama sayfası, bu incelemenin gerçekleşebilmesi için oluşturulan yüzeydir.

Kalabalık kaynaklı hizalama yüzeyini görünGitHub'daki otomatik testlerHuggingFace'teki açık külliyat

Tasarım Gereği Gizlilik

Verileriniz size ait kalır.

Gizli Bilgiler Filtrelenir

Parolalar, anahtarlar ve diğer hassas bilgiler herhangi bir şey belleğe veya günlüklere ulaşmadan tespit edilip filtrelenir. Filtre her girdide çalışır. Gizli bilgiler hiçbir yerde saklanmaz.

Verilerinizi Görün ya da Silin

Verilerinizi görme veya silme talebinde bulunabilirsiniz; talep sizin için işleme alınır. Silme işlemi gerçek içeriği kaldırır ve doğru şekilde yapıldığına dair imzalı kanıt bırakır.

Cihazınızda İşlenir

Varsayılan olarak her şey kendi cihazınızda çalışır. Kendiniz bir dış hizmet kurmadığınız sürece hiçbir şey makinenizi terk etmez. Hangi verilerin bulunduğuna ve nereye gideceğine siz karar verirsiniz.

Altındaki makalelerNasıl çalışırYaklaşımları karşılaştırGizlilik politikası

Her Şeyi Doğrulayın.

Denetleyebileceğiniz güvenlik.

Bu sayfadaki her güvenlik iddiası, okuyabileceğiniz kodla inşa edilmiştir. Kayıtlar gerçektir. İmzalar denetlenebilir. Acil durdurma çalışır. Güvenlik açıkta inşa edildiğinde yapay zeka güvenliği böyle görünür.