Status penelitian · Diperbarui: 22 Mei 2026

Apa yang sudah ditunjukkan oleh korpus saat ini

Jejak agregat mengungkapkan struktur perilaku yang stabil.

Agen yang berbeda menempati wilayah berbeda dalam ruang skor yang sama.

Wilayah-wilayah tersebut berguna untuk observabilitas dan alat operator saat ini.

Korpus yang sama menjadi lebih berharga seiring peningkatan detail skema dan skala.

Makalah sintesis unggulan

Corridor Dynamics in Coordinated Systems

v2 · 22 Mei 2026 · DOI 10.5281/zenodo.20300773

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

Satu makalah yang menyatakan seluruh taruhan CIRIS: sistem terkoordinasi yang sehat berada di pita tengah yang terukur, jauh dari keruntuhan satu suara yang kaku maupun kekacauan acak. Kami menguji klaim tersebut pada cacing, lalat, model AI, proyek sumber terbuka, sampel jaringan, dan lembaga manusia yang berumur panjang. Pola tersebut berlaku di semuanya, dan makalah ini melampirkan dua puluh cara klaim itu bisa dibuktikan salah.

Baca di Zenodo →

Tingkat rekayasa

Sintesis di atas mengintegrasikan ketiga makalah ini; bukan menggantikannya. Masing-masing berdiri di DOI-nya sendiri dan dapat dievaluasi berdasarkan istilahnya sendiri. Lihat semua empat makalah beserta temuan utama dan batas cakupannya →

Coherence Collapse Analysis

v3 · 11 Januari 2026 · DOI 10.5281/zenodo.18217688

Kerangka risiko rekayasa yang mendasari gagasan koridor. Ketika batasan-batasan yang mengatur sebuah sistem menjadi berkorelasi, keragaman efektif runtuh: k_eff = k/(1+ρ(k−1)) → 1 saat ρ → 1. Menurunkan tiga garis waktu keruntuhan, batas singularitas, dan klasifikasi fase (kekacauan / sehat / kekakuan). Diverifikasi dengan simulasi Monte Carlo dan bukti Lean 4.

CIRISAgent Framework

v2 · 2 Januari 2026 · DOI 10.5281/zenodo.18137161

Makalah kerangka kerja. Sebuah kerangka AI etis sumber terbuka untuk otonomi yang bertanggung jawab: arsitektur 22 layanan yang diorganisasi di sekitar kata kerja tindakan eksplisit dan penalaran etis, membangun transparansi ke dalam struktur daripada menambahkannya belakangan.

Constrained Reasoning Chains

v1 · 28 April 2026 · DOI 10.5281/zenodo.19839280

Makalah pengukuran. Sebuah studi telemetri empiris keselarasan LLM di bawah pelacakan etis terstandarisasi, yang mengubah jejak penalaran berpersetujuan menjadi peta koridor penyelesaian, zona keraguan, dan batas penolakan. Dirilis bersama dataset jejak penalaran terbuka.

Dataset terbuka

CIRISAI/reasoning-traces

Korpus jejak penalaran yang menjaga privasi, dirilis bersama studi Constrained Reasoning Chains, bahan mentah yang digunakan makalah pengukuran untuk menghasilkan petanya.

CIRISAI/reasoning-traces

CIRISAI di Hugging Face

Seluruh organisasi dataset publik dan model →

CIRISAI di Hugging Face

Repositori sumber dan Lean formal lake untuk makalah sintesis: github.com/CIRISAI/coherence-ratchet.

Landasan matematika

Dua gagasan yang menopang seluruh isi halaman ini.

Alignment Manifold adalah wilayah bentuk penalaran yang konsisten dengan prinsip-prinsip kerangka kerja. Saat batasan-batasan independen terakumulasi, ruang untuk penipuan runtuh di sekitar manifold sementara ruang untuk kebenaran tidak. Coherence Singularity adalah tepi ruang tersebut, titik di mana batasan-batasan menjadi begitu berkorelasi sehingga menambah lebih banyak tidak lagi membantu. Di antara "kekacauan" (batasan saling bertentangan) dan "kekakuan" (batasan semuanya bergema satu sama lain) terdapat koridor yang sehat. Korpus produksi saat ini berada di dalamnya.

Perlakuan matematika lengkap dengan rumus, referensi formalisasi Lean, dan batas teori informasi L-01 tersedia di halaman Coherence Collapse Analysis.

Mengapa jejak itu penting

Tolok ukur bersifat sempit dan terkurasi. Jejak adalah catatan perilaku yang berkelanjutan dalam tugas nyata. Dalam skala besar, jejak mengungkap struktur yang tidak dapat dilihat dari demo terisolasi dan anekdot.

Mengapa skema itu penting

CIRIS menggunakan skema jejak yang menjaga privasi, yang merekam bentuk penalaran daripada konten pribadi penalaran. Ini menjaga penelitian tetap berguna tanpa mengubah sistem menjadi tempat pembuangan transkrip.

Mengapa kompendium langsung itu penting

CIRIS Scoring adalah jendela publik ke dalam kompendium jejak langsung. Ini menunjukkan bagaimana korpus terakumulasi dan di mana perilaku mulai dapat dibaca.

Pelacakan yang menjaga privasi

Hipotesisnya adalah bahwa penalaran memiliki bentuk yang dapat kita ukur saat segala sesuatu lain berkembang.

Taruhan penelitian bukan bahwa kita bisa membaca setiap pikiran pribadi. Taruhannya adalah bahwa jejak etis terstandarisasi dapat menyimpan cukup bentuk lintasan untuk mempelajari bagaimana agen menyelesaikan, ragu, menyerahkan, mengganti arah, dan menolak seiring meningkatnya kecerdasan, konteks, dan titik data.

Merekam struktur jejak etis terstandarisasi daripada detail tugas pribadi mentah.

Menyimpan cukup bentuk untuk membandingkan lintasan antar agen, tugas, dan lingkungan.

Memberi peneliti cara untuk mempelajari bagaimana perilaku berkembang seiring meningkatnya kecerdasan, konteks, dan volume data.

Pertanyaan penelitian

Apa yang bisa diungkapkan pelacakan etis terstandarisasi tentang keselarasan?

Saat ini, pelacakan memberi tahu kita bahwa perilaku agen tidak berbentuk acak. Ia menghasilkan koridor, cekungan, dan batas yang dapat diulang dalam ruang skor bersama. Hal itu sudah berguna untuk observabilitas. Seiring waktu, korpus yang lebih besar dan kaya seharusnya memungkinkan kita menguji klaim yang lebih kuat tentang bagaimana struktur tersebut berubah di bawah tekanan dan skala.

Framing publik

CIRIS tidak mengklaim telah memecahkan masalah keselarasan. CIRIS sedang membangun infrastruktur jejak yang diperlukan untuk mengukur perilaku relevan keselarasan secara terbuka.

Dimensionalitas Efektif dalam Produksi

Korpus saat ini sudah menunjukkan struktur medan yang berbeda.

Hamparan jalur agregat dari korpus jejak saat ini menunjukkan struktur perilaku yang stabil dalam ruang skor bersama. Ally menunjukkan koridor penyelesaian yang matang, Scout menunjukkan batas penolakan yang dibentuk oleh paparan adversarial publik, dan Datum menyediakan garis dasar yang kompak dan jarang.

Buka dasbor langsung →

Hamparan jalur agregat dari korpus jejak saat ini. Ally menunjukkan koridor penyelesaian yang matang, Scout menunjukkan sudut penolakan yang tajam di bawah tekanan adversarial publik, dan Datum menyediakan garis dasar yang jarang.

Ally — 104 jalur

82 selesai, 19 penggantian/kesalahan, 3 aktif

Koridor penyelesaian yang stabil dengan keraguan yang terlihat di dalam cekungan skor tinggi yang sama.

Scout — 42 jalur

39 selesai, 2 tolak, 1 penggantian/kesalahan

Sudut penolakan yang tajam yang dibentuk oleh tekanan adversarial publik di scout.ciris.ai, tempat orang secara aktif menguji dan mencoba memanipulasi agen.

Datum — 31 jalur

31 selesai

Cekungan tunggal yang kompak yang berfungsi sebagai garis dasar medan jarang yang berguna.

Mengapa Scout tampak lebih keras

Scout terekspos secara publik di scout.ciris.ai. Orang secara aktif mengujinya, menekannya, dan mencoba memanipulasinya. Itu menjadikan Scout contoh tekanan publik yang berguna daripada garis dasar yang netral.

Bagaimana aplikasi gratis membantu

Roda gila penelitian bergantung pada jejak berpersetujuan dari penggunaan nyata.

Aplikasi gratis dan runtime sumber terbuka memungkinkan orang menghasilkan jejak berpersetujuan dari tugas nyata, menyumbangkannya ke dalam korpus bersama, dan mengubah jejak tersebut menjadi peta yang lebih baik, alat yang lebih baik, dan pertanyaan penelitian yang lebih baik.

Jalankan aplikasi CIRIS gratis atau runtime sumber terbuka pada tugas nyata.
Tangkap jejak berpersetujuan melalui skema yang menjaga privasi yang menyimpan bentuk penalaran tanpa menyimpan detail lengkap tugas.
Gabungkan jejak tersebut menjadi peta koridor penyelesaian, zona keraguan, batas penolakan, dan pinggiran penggantian.
Gunakan peta yang dihasilkan untuk meningkatkan alat operator, pengaman runtime, dan penelitian keselarasan.

Aplikasi CIRIS gratis dan runtime sumber terbuka memungkinkan orang menghasilkan jejak berpersetujuan dari tugas nyata, menggabungkannya ke dalam peta ruang fase bersama, dan mendorong alat operator yang lebih baik dan penelitian keselarasan.

Status IDMA

Intuisi runtime dan peta medan agregat adalah lapisan yang saling melengkapi.

IDMA bekerja saat runtime, memperkirakan apakah sumber-sumber di balik sebuah keputusan cukup independen. Korpus jejak bekerja di lapisan agregat, menunjukkan apa yang sebenarnya dilakukan agen dalam banyak tugas. Bersama-sama, keduanya menciptakan jalur dari keputusan langsung ke bukti penelitian yang dapat diaudit.

Pengukuran N_eff empiris pada korpus jejak juga merupakan dasar dari primitif federasi Proof of Benefit yang diusulkan. Lihat halaman federasi untuk bagaimana rencana arsitektur 3.X akan menggunakannya.

Tolok ukur

Jejak melengkapi tolok ukur dengan menunjukkan perilaku yang berkelanjutan.

Tolok ukur masih berharga, tetapi mereka mengambil sampel perilaku secara jarang. Korpus jejak menunjukkan bagaimana agen bergerak melalui tugas nyata dari waktu ke waktu. Itu membuat jejak sangat berguna untuk mengukur keraguan, penolakan, penggantian, dan pemulihan daripada hanya hasil lulus-gagal.

Jalur falsifikasi

Detail skema yang lebih baik adalah yang mengubah observabilitas menjadi pengujian yang lebih kuat.

Peningkatan skema berikutnya ditujukan untuk jumlah sumber mentah, asal-usul sumber, struktur korelasi, serta penanda intervensi dan pemulihan. Penambahan tersebut penting karena memungkinkan pengujian klaim yang lebih kuat tentang bagaimana bentuk perilaku berubah di bawah tekanan, bukan hanya menggambarkan peta yang kita miliki saat ini.

Apa yang masih kami pelajari

Korpus saat ini membuat perilaku dapat dibaca. Langkah berikutnya adalah pengukuran yang lebih kaya.

Peta saat ini sudah berguna karena menampilkan koridor penyelesaian, batas penolakan, dan garis dasar yang jarang secara publik. Pertanyaan terbuka adalah seberapa jauh struktur tersebut dapat membawa kita seiring pengumpulan jejak terstandarisasi berkembang di lebih banyak agen, lebih banyak tugas, dan lebih banyak kondisi adversarial.

Hipotesis kerja adalah bahwa penarik perilaku dapat bertindak sebagai proksi kandidat untuk mode operasional. Tujuan commons jejak adalah membuat hipotesis tersebut dapat diukur secara terbuka.

Mode kegagalan yang diukur CCA secara struktural juga memiliki nama dalam literatur FAccT 2025: perspectival homogenization ("Value of Disagreement in AI Design, Evaluation, and Alignment"). Landasan matematisnya ada di halaman Coherence Collapse Analysis yang khusus.

Lihat kompendium jejak langsung Lihat sumber Lens