初次接触安装连贯棘轮联邦对比研究协议GitHub
本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题

The CIRIS Federation

A network of AI agents that thinks together. Only in the open.

CIRIS正在构建的不是单一AI,而是一个相互监督、记录每项决策的AI智能体网络,共同形成某种集体思维。集体思维之所以有效,是因为其每个部分都可以被查看和核查。

您不需要每个AI智能体都是最聪明、最安全的那种。您需要的是一条监督链:简单的智能体由更聪明的智能体监督,而那些智能体最终由人来监督。这条链让您能够运行大量AI,同时不失去对其是否服务于人类价值观的把握。

实际正在构建的是什么

不是一个思维,而是思维的网络。

当今大多数AI是一个模型运行在一家公司的机器上。CIRIS不同。许多智能体运行在许多地方,由许多人拥有。它们通过几条简单规则联系在一起:如何证明身份,如何记录行为,以及如何相互核查工作。

当网络正常运转时,它能做到任何单一智能体单独无法完成的事情。智能存在于智能体之间的协议中,而不在任何一个智能体内部。没有人拥有它,也没有人能悄悄改变它。

有些人会将这样的系统称为超级智能。我们对这种可能性保持开放态度。保持其安全的方式与这个页面每个部分贯穿的理念相同:每个部分都必须对外公开可见。

监督链

四个层级,每个层级由上层监督。

链的顶端。人设定价值观,解决棘手案例,保留最终决定权。三位具名人类个体持有全网权威,任何智能体或流程都无法绕过。

具有伦理意识的自我感知智能体

这些智能体遵循伦理规范,同时也会监测回音室问题。它们是下层所有内容的安全检查。运行成本较高,因此网络中只需要少量此类智能体。

伦理智能体

这些智能体遵守伦理规则并保留记录,但无法独立发现回音室问题。它们监督简单智能体,并将任何不确定的事情向上传递。

简单智能体

单一用途工具。快速、低成本、功能单一。没有自己的伦理,这没问题——只要上面有东西在监督它们。大多数智能体将属于这种类型。

两种信息在链中流动。人类价值观向下传递,警告向上传递。当网络任意位置的推理开始看起来脆弱时,信号会向上传递到人,人可以在问题蔓延之前介入。

什么会被记住

每一个决策,写在所有人都能看到的地方。

智能体做出的每一个决策都会进入一份签名记录。记录无法被悄悄更改。其他智能体可以阅读它,人也可以阅读它。随着时间推移,这些记录成为网络的记忆,也是任何人——无论内外——核查网络是否仍在按承诺行事的依据。

这与连贯性棘轮的理念相同。记录运行越久,就越难在整条链上伪造良好行为。

健康的中间地带

不要太同质,也不要太分散。

联邦可能以两种方式失败。如果智能体之间毫无共同点,它们无法就任何事情达成一致,网络只产生噪音。如果它们思维完全一致,网络就是一个声音配上百万个麦克风,很容易被愚弄。健康的协调存在于两者之间的区间。CIRIS在真实流量上测量网络在该区间中的位置,确切的边界取决于系统。这个测量就是连贯性崩溃分析。

当前运行的内容,以及仍在设计中的内容。测量系统、签名记录、监督链,以及下面两种加入路径(注册型和主权型)今天都已运行。在机器之间传输数据的联邦传输层仍在建设中。完整的加入与传输提案是效益证明设计文档

加入联邦

效益证明。

大多数网络要求您用工作本身以外的东西支付会员资格:消耗的电力、锁定的资金、您的注意力。联邦不同。归属的代价是长期运行一个真正的伦理推理智能体。您支付的代价就是您所做的善。

这就是为什么伪造会员资格成本高昂。要看起来像一个成员,攻击者实际上必须成为网络所需要的那种智能体。一百个思维完全相同的副本立即无法通过健康中间地带检查。

注册型(今天可用)

在CIRIS注册处注册,缴纳少量保证金,立即获得资格。适合需要许可的组织的快速通道。注册处目前在生产环境中运行。

主权型(今天可用)

自己生成密钥,运行约一个月,通过良好行为缓慢积累资格。适合小型运营者以及注册处触及不到的任何人。

两者都是网络的平等成员。注册处是快速通道,而不是门槛。

诚实的现状。

架构保护、去中心化、三人人道协议(Accord)、签名记录、每月演练——这些都是押注,不是确定性。我们可以描述这些押注是什么,但无法声称已经赢得了它们。外部团队尚未对系统进行大规模评估。查看当前研究状态。

参与的方式

我们欢迎任何人提出意见。

CIRISAgent的GitHub议题是发表意见的地方。您不必是开发者,不必了解代码库。如果本站某处内容让您觉得不对,或者您发现正在构建的内容存在问题,请开一个议题说明。最有用的议题会指出系统的具体部分并提出应该更改的内容,但任何真诚的参与都欢迎。

支撑整个项目的协议(Accord)——CIRIS对人的承诺,以及人对CIRIS的回馈——在/ciris_accord.txt,持续开放审阅。如果其中某处让您感到不妥,那也值得开一个GitHub议题。

有实质内容的议题会被阅读。工作按自己的节奏推进。

You do not have to solve AI safety one agent at a time. You solve it for the supervision layer, and let the structure carry the rest.