数学推导页
经证明软件核验
核心思想
五个互相抄袭的检查,实质上只是一个检查。
假设五个人核查同一个答案,五个人都同意。这看起来很安全。但如果五个人都从同一个地方学来的,他们的一致不是五个意见,而是一个意见重复了五遍。检查的数量看起来是五,实际上是一。
这对 AI 很重要。一个 AI 系统可以对自己的推理进行多次检查,但如果这些检查共享同一个盲点,仍然会被欺骗。Coherence Collapse Analysis 就是 CIRIS 用来区分真实检查与回响的方法。
唯一的公式
计算你真正拥有的检查数量。
其核心只有一条简短的公式,来自调查统计学,那里称之为 Kish 设计效应。CIRIS 是第一个将其用于 AI 对齐的。
real checks = checks / (1 + copying × (checks − 1))
"Checks"是你进行的检查次数,"copying"是它们的重叠程度,从 0(完全独立)到 1(完全相同)。结果是你真正拥有的检查数量。
无抄袭:十次检查就算十次,每次检查都名副其实。
完全抄袭:十次检查只算一次,无论加多少都没用。
健康区间
不太相似,也不太分散。
CIRIS 在各处看到的同一种形态在这里也出现了。如果检查之间互相抄袭太多,系统就太刚性:一个声音不断重复,容易被欺骗。如果它们毫无共同点,就太分散:什么都无法达成一致。健康的检查就处于两者之间的区间,CIRIS 整体都是围绕这个走廊构建的。
该区间的精确边界取决于被测量的系统,没有放之四海皆准的魔法数字,研究对此坦诚说明。走廊理念的完整阐述在愿景页面。
在真实流量上
这是经过测量的,不只是理论推导。
CIRIS 对自身实时智能体流量进行了真实检查数量的测量,横跨数千条记录在案的决策。在健康流量上,真实独立检查数量约在七到九之间。这一测量及其方法就是 Constrained Reasoning Chains 研究。您可以在 研究页面上查看实时数据。
诚实的上限
这套数学做不到什么。
论文证明了一条针对自身的硬性限制。某些伤害并非来自某个不诚实的部件,而是来自诚实部件叠加产生的糟糕结果——大约四成这类伤害无论检查做得多好都无法被发现。CIRIS 直接说明这一点,而非假装这套数学能抓住一切。
这套数学能说明的是长期成本:持续数周如实推理,比在数千条记录在案的决策中维持一个谎言的一致性更稳定、更划算。它让地面向诚实一侧倾斜,但并不承诺能抓住每一个谎言。
整体联系
这套数学是更大整体的一部分。
本页是测量层。Coherence Ratchet 是将测量付诸实践的方式。联邦是让它成为多个系统共同参与之物的方式。完整证明——逐行可由计算机核验——在论文和 RATCHET 仓库中。