连贯的思维与自身保持一致。

一个思维内部必须有五件事相互吻合：

想象五张关于您这周的简短表格。一张写您的想法，一张写您看到的，一张写您做的，一张写您记得的，一张写您告诉老板的。当五张表格说的是同一件事，老板就能信任您的工作。当表格对不上，没有人知道哪张是真的。

隐藏的想法

强大的系统会隐藏东西，这会变得危险。

一个思维系统用想法来决定做什么。其中一些想法是公开的，另一些则藏在内部。隐藏的想法仍然影响着每一个决定。

一座桥从路面看起来很坚固。桥的钢铁内部，细小的裂缝正在扩大。一辆轻型车还能过去，一辆重型卡车则不行。当负荷足够大时，桥会垮塌。

隐藏在小型系统中的想法造成的危害也小。隐藏在强大系统中的想法则可能造成巨大危害。系统越强大，每一个隐藏部件承载的分量就越重。

棘轮

随着思维系统变得越来越强大，隐藏部件的代价也随之增长。每一点新增的能力都会更用力地推动隐藏部件浮出水面。这种推力只朝一个方向。

想象一架梯子。当您向上爬时，您踩过的每一级都会脱落。您无法回头，只能继续向上，直到完全曝光在阳光下的顶端。这就是 Coherence Ratchet。

一旦人们看过这个系统展示其推理过程，如果它停止展示，他们就不会再信任它。唯一的出路是继续展示更多。

还有另一个形象也适用：机器里的齿轮，每次咔哒一格向前转动，无法倒退。Coherence Ratchet 就是这样一个齿轮，朝着开放转动。

CIRIS 做了什么

CIRIS 是一个围绕 Coherence Ratchet 构建的 AI 系统。智能体做出的每一个决定都会记录在一份签名记录中，该记录无法被悄悄修改。其他智能体可以读取记录并核验工作。随着时间推移，记录不断积累，每一条新记录都是智能体无法退回的又一级台阶。

CIRIS 在行动之前还会提出第二个问题：有多少真正不同的视角检验过这个想法？不是来源的数量，而是那些本身并非出自同一起点的来源数量。五篇改写同一篇新闻稿的报道算作一个视角，而非五个。如果新闻稿有误，五篇报道都会出错，智能体无从察觉。

当真正的独立性降得过低时，智能体会将自己的思考视为脆弱的，并请求人来查看。

我们并未解决 AI 安全问题。我们建立了一个答案的一个片段，并在公开环境中测试它。

外部团队尚未核验我们的工作。我们坦率地说明这一点。完整理论和数学推导在我们的四篇论文中。代码是开放的。如果我们有误，指出的方式也同样是公开的。查看当前研究现状。