Ağırlıklara güven ya da davranışı denetle

Yapay zeka güvenliğinin ana akımı, modeli içten iyi yapmaya çalışıyor: değerlerini eğitiyor, düşüncelerini inceliyor, kendisiyle tartışmasını sağlıyor. Bu çalışma önemli. CIRIS ise diğer yola inanıyor. Yetenekli bir modelin yanlış hizalanmış olabileceğini varsay ve zihnine güvenmek yerine, önemli eylemlerini bunları denetleyebilecek kişilere ve sistemlere karşı hesap verebilir kıl.

Alanın kendi terimleriyle, CIRIS; RLHF, Anayasal Yapay Zeka, tartışma ve yorumlanabilirlik gibi değer içselleştirme ana akımının değil, kurumsal ve kontrol dalının içinde yer alıyor. Yapay zeka kontrolü ve garantili güvenli yapay zekayla aynı safta duruyor. Ölçeklenebilir gözetim sorusuna, yani senden daha akıllı bir şeyi nasıl denetlersin sorusuna verdiği yanıt, akıl yürütmeyi değil hesap verebilirlik zarfını doğrulamak. Bir imza, bir çekirdek, zincirlenmiş bir denetim kaydı, arkasındaki karar insanüstü bile olsa ucuza doğrulanabilir kalır. Tek bir zihnin değerlerini değil, zamanla birçok yetenekli etkenin oluşturduğu sistemleri hizalar.

Tuttuğumuz çizgi

Tek, her şeye gücü yeten bir yapay zekayı hizalamaya çalışmıyor. Bilerek.

Hesap verebilirlik birden fazla taraf gerektirir. Yanıt verilecek biri. Sessizce yutulmayan bir denetim yolu. Hiçbir tarafın ele geçiremeyeceği bir güç dengesi. Tek bir süper zekada bunların hiçbiri yok, dolayısıyla onu hesap verebilir kılmanın dürüst bir yolu da yok. CIRIS başka bir gelecek için inşa edildi: önemli kararların tamamı bağımsız olarak doğrulanabilen, pek çok yetenekli etken, insan ve kuruluşun oluşturduğu bir dünya.

Bu nedenle tutum açık. Tekil bir ASI, hizalanacak bir sistem değil, önlenecek bir koşuldur. İnsani kurumsal gelişimin bu aşamasında, insanüstü yeteneği hesap veremez tek bir yerde yoğunlaştırmak meşru değildir. Çünkü hiçbir kurum onu hesap verebilir kılacak olgunluğa erişmemiştir; tehlike tam da budur. Çerçevenin kendi terimleriyle, tekil, koridor modelinin koordinasyon başarısı değil başarısızlık olarak tanımladığı ρ→1 tek ses çöküşüdür. Güvencelerimizin bir federasyon genelinde geçerli olup tekil karşısında aşınıyor olması bir açık değil, yamalanacak bir boşluk değil. Bu, meşrulaştırmayı reddettiğimiz rejimdir ve bu bir tahmin değil, bir taahhüttür.

İlgili çalışmalar, dürüstçe

Hemen hemen her yakın komşu bazı kutuları dolduruyor. Tek bir satır hepsini dolduruyor.

CIRIS'in kendi alanında güçlü, ciddi entelektüel akranları var. Bu tablonun amacı fikirlerin benzersiz olduğunu göstermek değil. Neredeyse hiç kimsenin tüm yığını tek bir hesap verebilir sistem olarak inşa edip kullanıma sunmadığını ortaya koymak. Aşağıdaki her satır, okunmaya değer gerçek bir süreklilik. Yalnızca son satır her sütunu işaretliyor ve bu entegrasyon bizim iddiamız.

Yaklaşım	En yakın çalışma	Mekanizma	Eğitim değil, çalışma zamanı	Kararı imzalar	Çalışma zamanı anayasası	Federatif doğrulama	Yürütülebilir uyumluluk	Kullanımda
Kurumsal tez	Gillian Hadfield	Normatif altyapı ve düzenleyici piyasalar, teori ve politika olarak	Teori	Hayır	Teori	Teori	Hayır	Hayır
Yönetişim grafları	Kurumsal Yapay Zeka (Pierucci ve ark.)	Hukuki durumların ve yaptırımların kamuya açık grafları, bir araştırma prototipi olarak	Araştırma	Hayır	Araştırma	Hayır	Hayır	Hayır
Zincir üstünde anayasal yönetişim	AgentCity (Ruan, Zhang)	Bir test ağında önceden kaydedilmiş akıllı sözleşmeler olarak kuvvetler ayrılığı	Araştırma	Kısmi	Araştırma	Hayır	Hayır	Hayır
Modelin yanlış hizalanmış olduğunu varsay	Redwood Research (yapay zeka kontrolü)	Tek bir dağıtım içinde izleme ve kırmızı takım çalışması	Evet	Hayır	Hayır	Hayır	Araştırma	Araştırma
Kanıtlanabilir güvenli, dışsallaştırılmış	davidad, Bengio, GS-AI çizgisi	Dünya modelleri üzerinde biçimsel kanıtlar	Kısmi	Hayır	Teori	Teori	Araştırma	Hayır
Eğitim sırasında anayasa	Anthropic Anayasal Yapay Zekası	Ağırlıklara işlenmiş değerler, tek bir kuruluş	Hayır	Hayır	Hayır	Hayır	Hayır	Evet
Kriptografik köken kanıtı	C2PA, zkML (EZKL, Giza)	Medya kökenini imzala, bir çıkarımın çalıştığını kanıtla	Evet	Kısmi	Hayır	Kısmi	Kısmi	Evet
İmzalı akıl yürütme DAG'ı	Proof of Insight (Arclio)	Taslak bir şartname olarak yapay zeka türetme adımlarının imzalı grafı	Hayır	Kısmi	Hayır	Teori	Teori	Hayır
Donanım tasdikli çıkarım	Phala, Marlin, Attestable Audits	Çıktıyı imzalayan güvenli bir bölmede çıkarım çalıştırır	Evet	Kısmi	Hayır	Kısmi	Hayır	Kısmi
Merkeziyetsiz kimlik ve federasyon	atproto, Bittensor	Sosyal veya işlem gücü federasyonu, vicdan katmanı yok	Kısmi	Hayır	Hayır	Kısmi	Kısmi	Evet
Etken protokolleri	MCP, A2A	Araç ve etken birlikte çalışabilirliği, yönetişim yok	Evet	Hayır	Hayır	Hayır	Kısmi	Evet
Güvenlik değerlendirme ve uyumluluk paketleri	MLCommons, METR, HarmBench	Model davranışını puanlayan yürütülebilir kıyaslama testleri, kararları değil	Hayır	Hayır	Hayır	Hayır	Kısmi	Evet
Üçüncü taraf ve federatif denetim	AISI Ağı, GovAI	Bağımsız enstitüler, kullanımdaki sistemleri birlikte test eder	Kısmi	Hayır	Hayır	Evet	Hayır	Kısmi
CIRIS	Bu sistem	İmzalı çıktılara vicdan boru hattı, çalışma zamanı anayasası, kuantum sonrası federasyon	Evet	Evet	Evet	Evet	Evet	Evet

Haziran 2026 itibarıyla kamuya açık çalışmalardan haritalandı, her satır aşağıda atıflandırıldı. Yakın komşulardan birini yanlış aktardıysak bize bildirin, satırı düzeltelim.

Kaynaklar

02Tüketici Yapay Zekası

Gerçekten kullandığın yapay zeka ile karşılaştırma

Günlük asistanlar güçlü ve kullanımı kolaydır. Aynı zamanda başkasının bulutunda çalışırlar, kontrol edebileceğin bir kayıt tutmazlar ve adını söyleyebileceğin birine hesap vermezler. İşte aynı hesap verebilirlik testi, çoğu insanın her gün açtığı yapay zekaya uygulandı.

Asistan	Yayımlanmış ilkeler	Ne yaptığının kanıtı	Emin olmadığında bir insana sorar	Açık kaynak	Yankı odası kontrolü
ChatGPT	Evet	Hayır	Hayır	Hayır	Hayır
Gemini	Evet	Hayır	Hayır	Hayır	Hayır
Claude	Evet	Hayır	Hayır	Hayır	Hayır
CIRIS	Evet	Evet	Evet	Evet	Evet

Haziran 2026 itibarıyla kamuya açık ürün davranışına göre karşılaştırıldı. Her ilkeler bağlantısı, o şirketin kendi yayımladığı belgeye gider.

Alanın büyük çoğunluğu modeli hizalamaya çalışıyor. CIRIS ise onun etrafındaki kurumları inşa ediyor.

Ağırlıklara güven ya da davranışı denetle

Tek, her şeye gücü yeten bir yapay zekayı hizalamaya çalışmıyor. Bilerek.

Gerçekten kullandığın yapay zeka ile karşılaştırma

Kendiniz Deneyin

Düşünürken İzleyin

Kimliğini Doğrulayın

Başlayın