初次接触安装连贯棘轮联邦对比研究协议GitHub
本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题

The Coherence Ratchet

Why a powerful mind has to show its work.

Research testbedDOI

一个小型思维系统可以隐藏东西,危害有限。强大的思维系统则不能。

这里"连贯"的含义

连贯的思维与自身保持一致。

一个思维内部必须有五件事相互吻合:

  • 它相信什么,
  • 它看到什么,
  • 它做了什么,
  • 它记得什么,
  • 以及它告诉您什么。

想象五张关于您这周的简短表格。一张写您的想法,一张写您看到的,一张写您做的,一张写您记得的,一张写您告诉老板的。当五张表格说的是同一件事,老板就能信任您的工作。当表格对不上,没有人知道哪张是真的。

隐藏的想法

强大的系统会隐藏东西,这会变得危险。

一个思维系统用想法来决定做什么。其中一些想法是公开的,另一些则藏在内部。隐藏的想法仍然影响着每一个决定。

一座桥从路面看起来很坚固。桥的钢铁内部,细小的裂缝正在扩大。一辆轻型车还能过去,一辆重型卡车则不行。当负荷足够大时,桥会垮塌。

隐藏在小型系统中的想法造成的危害也小。隐藏在强大系统中的想法则可能造成巨大危害。系统越强大,每一个隐藏部件承载的分量就越重。

棘轮

走向公开的推力只朝一个方向。

随着思维系统变得越来越强大,隐藏部件的代价也随之增长。每一点新增的能力都会更用力地推动隐藏部件浮出水面。这种推力只朝一个方向。

想象一架梯子。当您向上爬时,您踩过的每一级都会脱落。您无法回头,只能继续向上,直到完全曝光在阳光下的顶端。这就是 Coherence Ratchet。

一旦人们看过这个系统展示其推理过程,如果它停止展示,他们就不会再信任它。唯一的出路是继续展示更多。

还有另一个形象也适用:机器里的齿轮,每次咔哒一格向前转动,无法倒退。Coherence Ratchet 就是这样一个齿轮,朝着开放转动。

CIRIS 做了什么

写下来,检查它,再检查检查者。

CIRIS 是一个围绕 Coherence Ratchet 构建的 AI 系统。智能体做出的每一个决定都会记录在一份签名记录中,该记录无法被悄悄修改。其他智能体可以读取记录并核验工作。随着时间推移,记录不断积累,每一条新记录都是智能体无法退回的又一级台阶。

CIRIS 在行动之前还会提出第二个问题:有多少真正不同的视角检验过这个想法?不是来源的数量,而是那些本身并非出自同一起点的来源数量。五篇改写同一篇新闻稿的报道算作一个视角,而非五个。如果新闻稿有误,五篇报道都会出错,智能体无从察觉。

当真正的独立性降得过低时,智能体会将自己的思考视为脆弱的,并请求人来查看。

我们主张什么,不主张什么。

我们并未解决 AI 安全问题。我们建立了一个答案的一个片段,并在公开环境中测试它。

外部团队尚未核验我们的工作。我们坦率地说明这一点。完整理论和数学推导在我们的 四篇论文中。代码是开放的。如果我们有误,指出的方式也同样是公开的。查看当前研究现状。