本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题

返回首页

Coherence Collapse Analysis

多加一道检查,什么时候就没用了?

叠加检查来抓谎,只有在检查真正相互独立时才有效。如果它们暗中互相抄袭,多加再多也没用。Coherence Collapse Analysis 就是衡量这一差别的简单数学工具。完整版本及所有证明都在论文里。

数学推导页

经证明软件核验

五个互相抄袭的检查,实质上只是一个检查。

假设五个人核查同一个答案,五个人都同意。这看起来很安全。但如果五个人都从同一个地方学来的,他们的一致不是五个意见,而是一个意见重复了五遍。检查的数量看起来是五,实际上是一。

这对 AI 很重要。一个 AI 系统可以对自己的推理进行多次检查,但如果这些检查共享同一个盲点,仍然会被欺骗。Coherence Collapse Analysis 就是 CIRIS 用来区分真实检查与回响的方法。

计算你真正拥有的检查数量。

其核心只有一条简短的公式,来自调查统计学,那里称之为 Kish 设计效应。CIRIS 是第一个将其用于 AI 对齐的。

real checks = checks / (1 + copying × (checks − 1))

"Checks"是你进行的检查次数,"copying"是它们的重叠程度,从 0(完全独立)到 1(完全相同)。结果是你真正拥有的检查数量。

无抄袭:十次检查就算十次,每次检查都名副其实。

完全抄袭:十次检查只算一次,无论加多少都没用。

不太相似,也不太分散。

CIRIS 在各处看到的同一种形态在这里也出现了。如果检查之间互相抄袭太多,系统就太刚性:一个声音不断重复,容易被欺骗。如果它们毫无共同点,就太分散:什么都无法达成一致。健康的检查就处于两者之间的区间,CIRIS 整体都是围绕这个走廊构建的。

该区间的精确边界取决于被测量的系统,没有放之四海皆准的魔法数字,研究对此坦诚说明。走廊理念的完整阐述在愿景页面。

这是经过测量的,不只是理论推导。

CIRIS 对自身实时智能体流量进行了真实检查数量的测量,横跨数千条记录在案的决策。在健康流量上,真实独立检查数量约在七到九之间。这一测量及其方法就是 Constrained Reasoning Chains 研究。您可以在 研究页面上查看实时数据。

这套数学做不到什么。

论文证明了一条针对自身的硬性限制。某些伤害并非来自某个不诚实的部件,而是来自诚实部件叠加产生的糟糕结果——大约四成这类伤害无论检查做得多好都无法被发现。CIRIS 直接说明这一点,而非假装这套数学能抓住一切。

这套数学能说明的是长期成本:持续数周如实推理,比在数千条记录在案的决策中维持一个谎言的一致性更稳定、更划算。它让地面向诚实一侧倾斜,但并不承诺能抓住每一个谎言。

这套数学是更大整体的一部分。

本页是测量层。Coherence Ratchet 是将测量付诸实践的方式。联邦是让它成为多个系统共同参与之物的方式。完整证明——逐行可由计算机核验——在论文和 RATCHET 仓库中。

CIRISsafe by structure · open by principle · kind by design