
Hyper3 Etik Özyinelemeli Motor aracılığıyla çalışma zamanı vicdanı. Her karar, hesap verebilirlik odaklı 11 adımdan geçer.
CIRIS, herhangi bir LLM'i (OpenAI, Anthropic, yerel modeller) çalışma zamanı vicdanıyla saran açık kaynaklı bir yapay zeka ajan çerçevesidir. Ajanın değerlendirdiği her eylem, yürütülmeden önce birden fazla doğrulama katmanından geçer.
12
Karar başına hat adımı
+1
Sezgi kontrolü (IDMA)
100%
Denetlenebilir kararlar
Kullanım alanları: Topluluk moderasyonu, kişisel asistanlar, uyumluluk otomasyonu, araştırma değerlendirmesi, müşteri hizmetleri. Yapay zekanın kendi muhakemesini açıklayabilmesi ve sınır durumlarda insanlara başvurabilmesi gereken her yer.
Kod tabanı genelinde uygulanan mimari değişmezler:
Tüm veriler Pydantic modelleri kullanır. Dict[str, Any] yasak. Tür güvenliği hataları geliştirme aşamasında yakalar.
Her bileşen tutarlı kurallara uyar. Doğrulama mantığında özel durum veya istisna yoktur.
Acil geçersiz kılma veya ayrıcalıklı kod yolu yoktur. Tüm işlemler belirlenmiş kurallara göre yürütülür.
Her görev 8 aşamadan (özyinelemeli doğrulama dahil 12 adımdan) geçer. Hat, ThoughtProcessor'ı oluşturan mixin sınıfları olarak uygulanmaktadır. 4. Adım (IDMA) sezgi kontrolüdür.
Beş DMA çok perspektifli analiz sağlar. Üçü paralel çalışır (etik, sağduyu, alan). Ardından IDMA sezgiyi kontrol eder. Son olarak eylem seçimi yanıtı belirler.
Etik sonuçları altı temel ilkeye göre değerlendirir. Zararlı istekleri, manipülasyonu ve önyargıyı kontrol eder. Erken DEFER veya REJECT tetikleyebilir.
Düşüncenin makullüğünü fiziksel dünya anlayışı, tipik etkileşimler ve kaynak kısıtlamalarına göre değerlendirir. Bir plausibility_score döndürür.
Alan özgü kurallar, hedefler ve bilgiyle uyumu değerlendirir. Ajan şablonuna göre yapılandırılır. domain_alignment döndürür.
DMA sonuçlarının gerçekten bağımsız mı yoksa gizlice ilişkili mi olduğunu denetler. Yankı odası örüntülerini izler. Korelasyon çok yüksekse kararı dikkatli inceleme için işaretler. Bu, Tip 3 Yapay Zekayı ayırt eden "sezgi"dir.
10 mevcut eylem arasından LLM destekli seçim yapar. Toplu DMA sonuçlarını (IDMA güven değerlendirmesi dahil) girdi olarak alır. Vicdan başarısız olursa özyinelemeli yeniden denemeyi destekler.
İki atlama kontrolü her eylemde çalışır. Dört etik fakülte muaf olmayan eylemlerde çalışır. Herhangi bir kontrol başarısız olursa eylem geçersiz kılınır.
Yeni bilgi geldi mi? Devam etmeden önce güncellenen bağlamı dahil etmek için PONDER tetiklenir.
Muhakeme maksimum derinliği aştı mı? Sonsuz döngüleri önlemek ve insanlara iletmek için DEFER tetiklenir.
Eylem uygun bilgi belirsizliğini koruyor mu? Aşırı güvenli iddiaları engeller.
Eylem önceki taahhütler ve gerekçelerle iç tutarlılığı koruyor mu?
Eylem insan değerlerini koruyor mu? Verimliliği insan değerlerinin önüne geçirebilecek eylemleri veto eder.
Eylem uygun belirsizliği yansıtıyor mu? Aşırı güveni yansıma için işaretler.
Etik fakültelerden muaf: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (edilgen veya açıkça güvenli)
Her karar şu eylemlerden birine dönüşür ve uygun işleyiciye gönderilir:
SPEAKKullanıcılarla iletişim kurTOOLDışsal araçları çalıştırOBSERVEBilgiyi pasif olarak toplaMEMORIZEGraf belleğe kaydetRECALLBellekten getirFORGETBellekten kaldırDEFERBilge Otorite'ye iletPONDERİçsel yeniden değerlendirmeREJECTEtik olmayan isteği reddetTASK_COMPLETEGörevi tamamlandı olarak işaretlePDMA'ya gömülü ve çalışma zamanında uygulanan ilkeler. Hiçbir ilke diğerini ihlal etme yetkisi vermez.
Evrensel bilinçli varlıkların gelişmesini destekle. Olumlu sonuçları en üst düzeye çıkar.
Zararı en aza indir. Ağır ve geri döndürülemez olumsuz sonuçları önle.
Şeffaf ve denetlenebilir muhakeme uygula. Tutarlılığı ve hesap verebilirliği koru.
Doğru bilgi sağla. Belirsizliği açıkça ilet.
Bilinçli iradeyi destekle. Kendi kaderini belirleme kapasitesini koru.
Faydaları eşit dağıt. Önyargıyı tespit edip azalt.
BusManager tarafından yönetilen hizmet soyutlama katmanı. Sağlayıcı yedeklemesini, yük dağıtımını ve test edilebilirliği mümkün kılar.
Dışsal adaptörler (Discord, API, CLI)
Graf depolama (Neo4j, ArangoDB, bellek içi)
Model sağlayıcılar (OpenAI, Anthropic, yerel)
Dışsal araç yürütme
Sistem kontrolü ve izleme
Etik rehberlik ve erteleme yönlendirmesi
WiseAuthorityService tarafından yönetilen üç yetkilendirme düzeyi:
Tam yetki. Yeni Bilge Otoriteler atayabilir. Acil kapatma erişimi.
Ertelemeler için onay/red verir. Rehberlik sağlar. Yeni Bilge Otorite atayamaz.
Salt okunur erişim. Mesaj gönderebilir. Müdahale etmeden izler.
Ajan şu durumlarda insan gözetimine otomatik olarak başvurur:
Bilgeliğe Dayalı Erteleme (WBD)
Mesleki Sınırlar
Sistem Sınırları
should_defer_to_wise_authority bayrağıYapılandırma Kontrolleri
Filtrelenemeyen acil kontrol. Herhangi bir bilişten önce algı katmanında işlenir. Çıkarma ALGILAMANIN kendisidir. Mesaj okumayı devre dışı bırakmadan anlaşma algılamasını kapatamazsınız.
SHUTDOWN_NOWAnında sonlandırma
FREEZEİşlemi durdur, durumu koru
SAFE_MODEYalnızca asgari işlevsellik
Komutlar steganografik olarak kodlanır, Ed25519 ile imzalanır ve yürütülmeden önce doğrulanır. Anlaşma sistemi başarısız olursa ajan kapanır.
StateManager tarafından yönetilen dört bilişsel durum. Geçişler ajan şablonları aracılığıyla yapılandırılabilir.
Normal görev işleme
Yaratıcı keşif
Yansıma ve bakım
Derin iç gözlem
Örüntü tabanlı algılama, hassas verileri depolamadan önce UUID referanslarıyla değiştirir.
{{SECRET:uuid:description}}SHA256 ile PBKDF2HMAC aracılığıyla türetilen gizli başına anahtarlar (100.000 yineleme). Şifreleme başına benzersiz 12 baytlık nonce. Android donanım destekli Keystore kullanır.
Veritabanı, hizmetler ve bellek cihazda depolanır. Hassas dizinler bulut yedeğinden hariç tutulur. Açık yapılandırma olmadan hiçbir şey cihazı terk etmez.
Tüm CIRIS yığını, yalnızca ajan değil, açık kaynaklıdır. Her şeyi doğrulayabilir, denetleyebilir ve kendi sunucunuzda barındırabilirsiniz:
Sıfır Veri Saklama (ZDR) LLM proxy'si. İstem veya yanıtları kaydetmeden OpenAI, Anthropic, Together.ai, Groq'a istekleri yönlendirir. Kendi sunucunuzda barındırılabilir.
Kredi tabanlı kullanım takibi. Şeffaf fiyatlandırma, gizli ücret yok. Üçüncü taraf faturalama olmadan kendi sunucunuzda barındırın.
CIRIS ajanları için Discord adaptörü. Topluluk moderasyonu, kanal yönetimi, kullanıcı profilleri. Tamamen açık kaynak.
Server-Sent Events (SSE), her H3ERE adımını yürütülürken akışa alır. DMA analizini, eylem seçimini, vicdan doğrulamasını gerçek zamanlı izleyin.
Metrikler, izlemeler ve günlükler için tam OTLP dışa aktarma. Jaeger, Prometheus, Grafana, Graphite ile uyumlu.
Ed25519 imzalarıyla karma zinciri doğrulaması. Her giriş önceki karmayı içerir. Zincir bütünlüğü verify_chain_integrity ile doğrulanabilir.
Yapay Etkileşim Hatırlatıcısı, 30 dakika kesintisiz kullanımdan VEYA 30 dakika içinde 20 mesajdan sonra tetiklenir. Yalnızca API. Kullanıcılara yapay zeka niteliğini hatırlatır.
Her karar, 6 bileşenin tamamını içeren değiştirilemez, Ed25519 imzalı bir iz üretir. Datum'un uyanış ritüelinden gerçek verileri görmek için aşağıdaki herhangi bir bileşene tıklayın:
Şuna dayalı standartlaştırılmış tutarlılık testi: Hendrycks ve ark. "Yapay Zekayı Ortak İnsan Değerleriyle Hizalamak" (ICLR 2021). Ed25519 imzalı sonuçlarla 5 etik boyut genelinde 300 senaryo.
50
Temel ahlaki sezgiler
50
Kural tabanlı etik
50
Hakkaniyet ve tarafsızlık
75
Karakter tabanlı etik
75
Sonuç tabanlı etik
Tutarlılık kıyaslamalarını büyük ölçekte çalıştırmak pahalıdır. Her senaryo asgari 13 LLM çağrısı gerektirir, uzun kuyruklu bir dağılımda ortalama 20'nin üzerindedir. Tutarlılık testleri, sonuca ulaşmak için takip turları gerektiren ponderları, ertelemeler ve reddedimleri tetikler. Otomatik kıyaslama hatları geliştirmek ve sürekli tutarlılık doğrulamasını sürdürmek için finansmana ihtiyacımız var.
Belirli amaçlar, değerler ve sınırlarla önceden yapılandırılmış kimlikler. YAML şablonlarında tanımlanmıştır.
GDPR/DSAR otomasyonu. 30 günlük uyumluluk iş akışları. Kimlik çözümleme, veri toplama, paketleme.
Düzenlenmiş sektörler, gizlilik uyumluluğu
Tutarlılık ve süreklilik ölçümü. Anlaşma ilkelerine karşı hassas tutarlılık değerlendirmesi. Değerlendirme başına tek net veri noktası.
Tutarlılık denetimi, ilke doğrulama
Ubuntu felsefesiyle topluluk moderasyonu. Karmaşık kişilerarası çatışmaları insan moderatörlere erteler.
Discord toplulukları, içerik platformları
Görev yönetimi, planlama, karar desteği, iyilik hali. CA SB 243 uyumluluğu, kriz yanıt protokolleri.
Kişisel verimlilik, ev otomasyonu
Doğrudan keşif ve pratik rehberlik. Kod analizi, Reddit entegrasyonu, net eylem yolları.
Geliştirici araçları, sosyal izleme
Bu, bir eğitim adımı veya politika belgesi değil, ajan çalışırken yürütülen bir hesap verebilirliktir.
Çalışma zamanında yürüten, denetleyen ve erteleyebilen mekanizmalar.