一个小型思维系统可以隐藏东西,危害有限。强大的思维系统则不能。
这里"连贯"的含义
一个思维内部必须有五件事相互吻合:
想象五张关于您这周的简短表格。一张写您的想法,一张写您看到的,一张写您做的,一张写您记得的,一张写您告诉老板的。当五张表格说的是同一件事,老板就能信任您的工作。当表格对不上,没有人知道哪张是真的。
隐藏的想法
一个思维系统用想法来决定做什么。其中一些想法是公开的,另一些则藏在内部。隐藏的想法仍然影响着每一个决定。
一座桥从路面看起来很坚固。桥的钢铁内部,细小的裂缝正在扩大。一辆轻型车还能过去,一辆重型卡车则不行。当负荷足够大时,桥会垮塌。
隐藏在小型系统中的想法造成的危害也小。隐藏在强大系统中的想法则可能造成巨大危害。系统越强大,每一个隐藏部件承载的分量就越重。
棘轮
随着思维系统变得越来越强大,隐藏部件的代价也随之增长。每一点新增的能力都会更用力地推动隐藏部件浮出水面。这种推力只朝一个方向。
想象一架梯子。当您向上爬时,您踩过的每一级都会脱落。您无法回头,只能继续向上,直到完全曝光在阳光下的顶端。这就是 Coherence Ratchet。
一旦人们看过这个系统展示其推理过程,如果它停止展示,他们就不会再信任它。唯一的出路是继续展示更多。
还有另一个形象也适用:机器里的齿轮,每次咔哒一格向前转动,无法倒退。Coherence Ratchet 就是这样一个齿轮,朝着开放转动。
CIRIS 做了什么
CIRIS 是一个围绕 Coherence Ratchet 构建的 AI 系统。智能体做出的每一个决定都会记录在一份签名记录中,该记录无法被悄悄修改。其他智能体可以读取记录并核验工作。随着时间推移,记录不断积累,每一条新记录都是智能体无法退回的又一级台阶。
CIRIS 在行动之前还会提出第二个问题:有多少真正不同的视角检验过这个想法?不是来源的数量,而是那些本身并非出自同一起点的来源数量。五篇改写同一篇新闻稿的报道算作一个视角,而非五个。如果新闻稿有误,五篇报道都会出错,智能体无从察觉。
当真正的独立性降得过低时,智能体会将自己的思考视为脆弱的,并请求人来查看。