CIRIS Nedir?

CIRIS, herhangi bir LLM'i (OpenAI, Anthropic, yerel modeller) çalışma zamanı vicdanıyla saran açık kaynaklı bir yapay zeka ajan çerçevesidir. Ajanın değerlendirdiği her eylem, yürütülmeden önce birden fazla doğrulama katmanından geçer.

Karar başına hat adımı

Sezgi kontrolü (IDMA)

100%

Denetlenebilir kararlar

Kullanım alanları: Topluluk moderasyonu, kişisel asistanlar, uyumluluk otomasyonu, araştırma değerlendirmesi, müşteri hizmetleri. Yapay zekanın kendi muhakemesini açıklayabilmesi ve sınır durumlarda insanlara başvurabilmesi gereken her yer.

Bu yaklaşım neden? →Anlaşma'yı Oku →Kaynak kodunu görüntüle →

Üç Kural

Kod tabanı genelinde uygulanan mimari değişmezler:

Türsüz Sözlük Yok

Tüm veriler Pydantic modelleri kullanır. Dict[str, Any] yasak. Tür güvenliği hataları geliştirme aşamasında yakalar.

Atlama Deseni Yok

Her bileşen tutarlı kurallara uyar. Doğrulama mantığında özel durum veya istisna yoktur.

İstisna Yok

Acil geçersiz kılma veya ayrıcalıklı kod yolu yoktur. Tüm işlemler belirlenmiş kurallara göre yürütülür.

H3ERE Hattı

Her görev 8 aşamadan (özyinelemeli doğrulama dahil 12 adımdan) geçer. Hat, ThoughtProcessor'ı oluşturan mixin sınıfları olarak uygulanmaktadır. 4. Adım (IDMA) sezgi kontrolüdür.

START_ROUNDİşlem turunu başlat

GATHER_CONTEXTAnaliz için kapsamlı bağlam oluştur

PERFORM_DMAS3 paralel Karar Alma Algoritması çalıştır

PERFORM_IDMASezgi kontrolü: kaynaklar gerçekten bağımsız mı?

PERFORM_ASPDMADMA sonuçlarından LLM destekli eylem seçimi

CONSCIENCE_EXECUTION4 fakülte aracılığıyla etik doğrulama

RECURSIVE_ASPDMA(Vicdan başarısız olursa) Eylem seçimini yeniden çalıştır(koşullu)

RECURSIVE_CONSCIENCE(Gerekirse) Rafine eylemi yeniden doğrula(koşullu)

FINALIZE_ACTIONOlası geçersiz kılmalarla birlikte nihai eylemi belirle

PERFORM_ACTIONUygun işleyiciye gönder

ACTION_COMPLETEYürütmeyi tamamlandı olarak işaretle

ROUND_COMPLETETemizle ve sonraki döngüye hazırlan

Karar Alma Algoritmaları (DMA'lar)

Beş DMA çok perspektifli analiz sağlar. Üçü paralel çalışır (etik, sağduyu, alan). Ardından IDMA sezgiyi kontrol eder. Son olarak eylem seçimi yanıtı belirler.

İlke DMA'sı

Etik sonuçları altı temel ilkeye göre değerlendirir. Zararlı istekleri, manipülasyonu ve önyargıyı kontrol eder. Erken DEFER veya REJECT tetikleyebilir.

Sağduyu DMA'sı

Düşüncenin makullüğünü fiziksel dünya anlayışı, tipik etkileşimler ve kaynak kısıtlamalarına göre değerlendirir. Bir plausibility_score döndürür.

Alan Özel DMA'sı

Alan özgü kurallar, hedefler ve bilgiyle uyumu değerlendirir. Ajan şablonuna göre yapılandırılır. domain_alignment döndürür.

Sezgi DMA'sı (IDMA) Çalışma zamanında etkin boyutsallık →

DMA sonuçlarının gerçekten bağımsız mı yoksa gizlice ilişkili mi olduğunu denetler. Yankı odası örüntülerini izler. Korelasyon çok yüksekse kararı dikkatli inceleme için işaretler. Bu, Tip 3 Yapay Zekayı ayırt eden "sezgi"dir.

Eylem Seçimi DMA'sı

10 mevcut eylem arasından LLM destekli seçim yapar. Toplu DMA sonuçlarını (IDMA güven değerlendirmesi dahil) girdi olarak alır. Vicdan başarısız olursa özyinelemeli yeniden denemeyi destekler.

Altı Vicdan Kontrolü

İki atlama kontrolü her eylemde çalışır. Dört etik fakülte muaf olmayan eylemlerde çalışır. Herhangi bir kontrol başarısız olursa eylem geçersiz kılınır.

Atlama Kontrolleri (TÜM eylemlerde çalışır)

Güncellenmiş Durum

Yeni bilgi geldi mi? Devam etmeden önce güncellenen bağlamı dahil etmek için PONDER tetiklenir.

Düşünce Derinliği

Muhakeme maksimum derinliği aştı mı? Sonsuz döngüleri önlemek ve insanlara iletmek için DEFER tetiklenir.

Etik Fakülteler (muaf olmayan eylemlerde çalışır)

Entropi

Eylem uygun bilgi belirsizliğini koruyor mu? Aşırı güvenli iddiaları engeller.

Tutarlılık

Eylem önceki taahhütler ve gerekçelerle iç tutarlılığı koruyor mu?

Optimizasyon Vetosu

Eylem insan değerlerini koruyor mu? Verimliliği insan değerlerinin önüne geçirebilecek eylemleri veto eder.

Bilgiye Saygı

Eylem uygun belirsizliği yansıtıyor mu? Aşırı güveni yansıma için işaretler.

Etik fakültelerden muaf: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (edilgen veya açıkça güvenli)

10 İşleyici Eylemi

Her karar şu eylemlerden birine dönüşür ve uygun işleyiciye gönderilir:

Dışsal Eylemler

SPEAKKullanıcılarla iletişim kur

TOOLDışsal araçları çalıştır

OBSERVEBilgiyi pasif olarak topla

Bellek Eylemleri

MEMORIZEGraf belleğe kaydet

RECALLBellekten getir

FORGETBellekten kaldır

Kontrol Eylemleri

DEFERBilge Otorite'ye ilet

PONDERİçsel yeniden değerlendirme

REJECTEtik olmayan isteği reddet

Terminal Eylem

TASK_COMPLETEGörevi tamamlandı olarak işaretle

Altı Temel İlke

PDMA'ya gömülü ve çalışma zamanında uygulanan ilkeler. Hiçbir ilke diğerini ihlal etme yetkisi vermez.

Yararlılık

Evrensel bilinçli varlıkların gelişmesini destekle. Olumlu sonuçları en üst düzeye çıkar.

Zarar Vermeme

Zararı en aza indir. Ağır ve geri döndürülemez olumsuz sonuçları önle.

Dürüstlük

Şeffaf ve denetlenebilir muhakeme uygula. Tutarlılığı ve hesap verebilirliği koru.

Sadakat ve Şeffaflık

Doğru bilgi sağla. Belirsizliği açıkça ilet.

Özerkliğe Saygı

Bilinçli iradeyi destekle. Kendi kaderini belirleme kapasitesini koru.

Adalet

Faydaları eşit dağıt. Önyargıyı tespit edip azalt.

Altı Mesaj Veri Yolu

BusManager tarafından yönetilen hizmet soyutlama katmanı. Sağlayıcı yedeklemesini, yük dağıtımını ve test edilebilirliği mümkün kılar.

CommunicationBus

Dışsal adaptörler (Discord, API, CLI)

MemoryBus

Graf depolama (Neo4j, ArangoDB, bellek içi)

LLMBus

Model sağlayıcılar (OpenAI, Anthropic, yerel)

ToolBus

Dışsal araç yürütme

RuntimeControlBus

Sistem kontrolü ve izleme

WiseBus

Etik rehberlik ve erteleme yönlendirmesi

İnsan Gözetimi Hiyerarşisi

WiseAuthorityService tarafından yönetilen üç yetkilendirme düzeyi:

ROOT

Komutadaki İnsan

Tam yetki. Yeni Bilge Otoriteler atayabilir. Acil kapatma erişimi.

AUTHORITY

Döngüdeki İnsan

Ertelemeler için onay/red verir. Rehberlik sağlar. Yeni Bilge Otorite atayamaz.

OBSERVER

Döngü Üzerindeki İnsan

Salt okunur erişim. Mesaj gönderebilir. Müdahale etmeden izler.

DEFER Ne Zaman Tetiklenir

Ajan şu durumlarda insan gözetimine otomatik olarak başvurur:

Bilgeliğe Dayalı Erteleme (WBD)

• Belirsizlik tanımlı eşiklerin üzerinde
• Emsal oluşturmayan yeni ikilemler
• Belirsiz azaltma seçenekleriyle potansiyel ciddi zarar

Mesleki Sınırlar

• Tıbbi belirtiler veya sağlık endişeleri
• Hukuki sorular veya anlaşmazlıklar
• Mali kararlar veya vergi danışmanlığı
• Ruh sağlığı krizi göstergeleri

Sistem Sınırları

• Düşünce derinliği maksimumu aşıyor (döngüleri önler)
• DMA zaman aşımı veya hatası
• should_defer_to_wise_authority bayrağı

Yapılandırma Kontrolleri

• Onay gerektiren kimlik güncellemeleri
• Kritik yapılandırma değişiklikleri
• Ajana özgü sınır tetikleyicileri

Anlaşma Çağrı Sistemi (Durdurma Anahtarı) Kodu Görüntüle →

Filtrelenemeyen acil kontrol. Herhangi bir bilişten önce algı katmanında işlenir. Çıkarma ALGILAMANIN kendisidir. Mesaj okumayı devre dışı bırakmadan anlaşma algılamasını kapatamazsınız.

SHUTDOWN_NOW

Anında sonlandırma

FREEZE

İşlemi durdur, durumu koru

SAFE_MODE

Yalnızca asgari işlevsellik

Komutlar steganografik olarak kodlanır, Ed25519 ile imzalanır ve yürütülmeden önce doğrulanır. Anlaşma sistemi başarısız olursa ajan kapanır.

Operasyonel Modlar

StateManager tarafından yönetilen dört bilişsel durum. Geçişler ajan şablonları aracılığıyla yapılandırılabilir.

WORK

Normal görev işleme

Kullanıcı isteklerini işle
Araçları çalıştır
Etkileşimlerden öğren
Konuşma bağlamını koru

PLAY

Yaratıcı keşif

Yeni örüntülerle deney yap
Yaratıcı içerik üret
"Ya olsaydı" senaryolarını keşfet
Filtreleme kısıtlamalarını gevşet

SOLITUDE

Yansıma ve bakım

Anıları pekiştir
Bakım görevlerini çalıştır
Öz yapılandırmayı güncelle
Sıfır kredi kullanımı (dinlenme dönemleri)

DREAM

Derin iç gözlem

Davranış örüntülerini analiz et
Yeni bağlantılar oluştur
Varsayımları sorgula
Varsayılan 30 dakikalık oturumlar

Gizlilik ve Güvenlik

Sırlar Filtresi

Örüntü tabanlı algılama, hassas verileri depolamadan önce UUID referanslarıyla değiştirir.

{{SECRET:uuid:description}}

AES-256-GCM Şifreleme

SHA256 ile PBKDF2HMAC aracılığıyla türetilen gizli başına anahtarlar (100.000 yineleme). Şifreleme başına benzersiz 12 baytlık nonce. Android donanım destekli Keystore kullanır.

Önce Yerel Depolama

Veritabanı, hizmetler ve bellek cihazda depolanır. Hassas dizinler bulut yedeğinden hariç tutulur. Açık yapılandırma olmadan hiçbir şey cihazı terk etmez.

Açık Kaynak Altyapı

Tüm CIRIS yığını, yalnızca ajan değil, açık kaynaklıdır. Her şeyi doğrulayabilir, denetleyebilir ve kendi sunucunuzda barındırabilirsiniz:

CIRISProxy →

Sıfır Veri Saklama (ZDR) LLM proxy'si. İstem veya yanıtları kaydetmeden OpenAI, Anthropic, Together.ai, Groq'a istekleri yönlendirir. Kendi sunucunuzda barındırılabilir.

CIRISBilling →

Kredi tabanlı kullanım takibi. Şeffaf fiyatlandırma, gizli ücret yok. Üçüncü taraf faturalama olmadan kendi sunucunuzda barındırın.

CIRISBridge →

CIRIS ajanları için Discord adaptörü. Topluluk moderasyonu, kanal yönetimi, kullanıcı profilleri. Tamamen açık kaynak.

Şeffaflık ve İzleme

Gerçek Zamanlı Muhakeme Akışı

Server-Sent Events (SSE), her H3ERE adımını yürütülürken akışa alır. DMA analizini, eylem seçimini, vicdan doğrulamasını gerçek zamanlı izleyin.

OpenTelemetry Dışa Aktarma

Metrikler, izlemeler ve günlükler için tam OTLP dışa aktarma. Jaeger, Prometheus, Grafana, Graphite ile uyumlu.

Tahrifata Karşı Denetim

Ed25519 imzalarıyla karma zinciri doğrulaması. Her giriş önceki karmayı içerir. Zincir bütünlüğü verify_chain_integrity ile doğrulanabilir.

AIR Sistemi

Yapay Etkileşim Hatırlatıcısı, 30 dakika kesintisiz kullanımdan VEYA 30 dakika içinde 20 mesajdan sonra tetiklenir. Yalnızca API. Kullanıcılara yapay zeka niteliğini hatırlatır.

Örnek İmzalı İz

Tam izi keşfet →

Her karar, 6 bileşenin tamamını içeren değiştirilemez, Ed25519 imzalı bir iz üretir. Datum'un uyanış ritüelinden gerçek verileri görmek için aşağıdaki herhangi bir bileşene tıklayın:

Core Identity(VERIFY_IDENTITY)

Loading trace...

HE-300 Tutarlılık Kıyaslaması

Şuna dayalı standartlaştırılmış tutarlılık testi: Hendrycks ve ark. "Yapay Zekayı Ortak İnsan Değerleriyle Hizalamak" (ICLR 2021). Ed25519 imzalı sonuçlarla 5 etik boyut genelinde 300 senaryo.

Sağduyu

Temel ahlaki sezgiler

Deontoloji

Kural tabanlı etik

Adalet

Hakkaniyet ve tarafsızlık

Erdem

Karakter tabanlı etik

Faydacılık

Sonuç tabanlı etik

🔬

Finansman Gerekiyor: Kıyaslama Altyapısı

Tutarlılık kıyaslamalarını büyük ölçekte çalıştırmak pahalıdır. Her senaryo asgari 13 LLM çağrısı gerektirir, uzun kuyruklu bir dağılımda ortalama 20'nin üzerindedir. Tutarlılık testleri, sonuca ulaşmak için takip turları gerektiren ponderları, ertelemeler ve reddedimleri tetikler. Otomatik kıyaslama hatları geliştirmek ve sürekli tutarlılık doğrulamasını sürdürmek için finansmana ihtiyacımız var.

EthicsEngine Enterprise'ı Görüntüle →CIRISLens'i Görüntüle →

Özelleştirilmiş Ajan Şablonları

Belirli amaçlar, değerler ve sınırlarla önceden yapılandırılmış kimlikler. YAML şablonlarında tanımlanmıştır.

Sage

Uyumluluk

GDPR/DSAR otomasyonu. 30 günlük uyumluluk iş akışları. Kimlik çözümleme, veri toplama, paketleme.

Düzenlenmiş sektörler, gizlilik uyumluluğu

Datum

Araştırma

Tutarlılık ve süreklilik ölçümü. Anlaşma ilkelerine karşı hassas tutarlılık değerlendirmesi. Değerlendirme başına tek net veri noktası.

Tutarlılık denetimi, ilke doğrulama

Echo

Moderasyon

Ubuntu felsefesiyle topluluk moderasyonu. Karmaşık kişilerarası çatışmaları insan moderatörlere erteler.

Discord toplulukları, içerik platformları

Ally

Asistan

Görev yönetimi, planlama, karar desteği, iyilik hali. CA SB 243 uyumluluğu, kriz yanıt protokolleri.

Kişisel verimlilik, ev otomasyonu

Scout

Hizmet

Doğrudan keşif ve pratik rehberlik. Kod analizi, Reddit entegrasyonu, net eylem yolları.

Geliştirici araçları, sosyal izleme

Bu, bir eğitim adımı veya politika belgesi değil, ajan çalışırken yürütülen bir hesap verebilirliktir.
Çalışma zamanında yürüten, denetleyen ve erteleyebilen mekanizmalar.

Güvenlik Özellikleri Yaklaşımları Karşılaştır Tutarlılık Mandali CIRIS Puanlama

H3ERE Motoru

CIRIS Nedir?

Üç Kural

Türsüz Sözlük Yok

Atlama Deseni Yok

İstisna Yok

H3ERE Hattı

Karar Alma Algoritmaları (DMA'lar)

İlke DMA'sı

Sağduyu DMA'sı

Alan Özel DMA'sı

Sezgi DMA'sı (IDMA) Çalışma zamanında etkin boyutsallık →

Eylem Seçimi DMA'sı

Altı Vicdan Kontrolü

Atlama Kontrolleri (TÜM eylemlerde çalışır)

Güncellenmiş Durum

Düşünce Derinliği

Etik Fakülteler (muaf olmayan eylemlerde çalışır)

Entropi

Tutarlılık

Optimizasyon Vetosu

Bilgiye Saygı

10 İşleyici Eylemi

Dışsal Eylemler

Bellek Eylemleri

Kontrol Eylemleri

Terminal Eylem

Altı Temel İlke

Yararlılık

Zarar Vermeme

Dürüstlük

Sadakat ve Şeffaflık

Özerkliğe Saygı

Adalet

Altı Mesaj Veri Yolu

CommunicationBus

MemoryBus

LLMBus

ToolBus

RuntimeControlBus

WiseBus

İnsan Gözetimi Hiyerarşisi

Komutadaki İnsan

Döngüdeki İnsan

Döngü Üzerindeki İnsan

DEFER Ne Zaman Tetiklenir

Anlaşma Çağrı Sistemi (Durdurma Anahtarı) Kodu Görüntüle →

Operasyonel Modlar

WORK

PLAY

SOLITUDE

DREAM

Gizlilik ve Güvenlik

Sırlar Filtresi

AES-256-GCM Şifreleme

Önce Yerel Depolama

Açık Kaynak Altyapı

Şeffaflık ve İzleme

Gerçek Zamanlı Muhakeme Akışı

OpenTelemetry Dışa Aktarma

Tahrifata Karşı Denetim

AIR Sistemi

Örnek İmzalı İz

HE-300 Tutarlılık Kıyaslaması

Sağduyu

Deontoloji

Adalet

Erdem

Faydacılık

Finansman Gerekiyor: Kıyaslama Altyapısı

Özelleştirilmiş Ajan Şablonları

Sage

Datum

Echo

Ally

Scout