A network of AI agents that thinks together. Only in the open.
CIRIS正在构建的不是单一AI,而是一个相互监督、记录每项决策的AI智能体网络,共同形成某种集体思维。集体思维之所以有效,是因为其每个部分都可以被查看和核查。
您不需要每个AI智能体都是最聪明、最安全的那种。您需要的是一条监督链:简单的智能体由更聪明的智能体监督,而那些智能体最终由人来监督。这条链让您能够运行大量AI,同时不失去对其是否服务于人类价值观的把握。
实际正在构建的是什么
当今大多数AI是一个模型运行在一家公司的机器上。CIRIS不同。许多智能体运行在许多地方,由许多人拥有。它们通过几条简单规则联系在一起:如何证明身份,如何记录行为,以及如何相互核查工作。
当网络正常运转时,它能做到任何单一智能体单独无法完成的事情。智能存在于智能体之间的协议中,而不在任何一个智能体内部。没有人拥有它,也没有人能悄悄改变它。
有些人会将这样的系统称为超级智能。我们对这种可能性保持开放态度。保持其安全的方式与这个页面每个部分贯穿的理念相同:每个部分都必须对外公开可见。
监督链
链的顶端。人设定价值观,解决棘手案例,保留最终决定权。三位具名人类个体持有全网权威,任何智能体或流程都无法绕过。
这些智能体遵循伦理规范,同时也会监测回音室问题。它们是下层所有内容的安全检查。运行成本较高,因此网络中只需要少量此类智能体。
这些智能体遵守伦理规则并保留记录,但无法独立发现回音室问题。它们监督简单智能体,并将任何不确定的事情向上传递。
单一用途工具。快速、低成本、功能单一。没有自己的伦理,这没问题——只要上面有东西在监督它们。大多数智能体将属于这种类型。
两种信息在链中流动。人类价值观向下传递,警告向上传递。当网络任意位置的推理开始看起来脆弱时,信号会向上传递到人,人可以在问题蔓延之前介入。
什么会被记住
智能体做出的每一个决策都会进入一份签名记录。记录无法被悄悄更改。其他智能体可以阅读它,人也可以阅读它。随着时间推移,这些记录成为网络的记忆,也是任何人——无论内外——核查网络是否仍在按承诺行事的依据。
这与连贯性棘轮的理念相同。记录运行越久,就越难在整条链上伪造良好行为。
健康的中间地带
联邦可能以两种方式失败。如果智能体之间毫无共同点,它们无法就任何事情达成一致,网络只产生噪音。如果它们思维完全一致,网络就是一个声音配上百万个麦克风,很容易被愚弄。健康的协调存在于两者之间的区间。CIRIS在真实流量上测量网络在该区间中的位置,确切的边界取决于系统。这个测量就是连贯性崩溃分析。
当前运行的内容,以及仍在设计中的内容。测量系统、签名记录、监督链,以及下面两种加入路径(注册型和主权型)今天都已运行。在机器之间传输数据的联邦传输层仍在建设中。完整的加入与传输提案是效益证明设计文档。
加入联邦
大多数网络要求您用工作本身以外的东西支付会员资格:消耗的电力、锁定的资金、您的注意力。联邦不同。归属的代价是长期运行一个真正的伦理推理智能体。您支付的代价就是您所做的善。
这就是为什么伪造会员资格成本高昂。要看起来像一个成员,攻击者实际上必须成为网络所需要的那种智能体。一百个思维完全相同的副本立即无法通过健康中间地带检查。
在CIRIS注册处注册,缴纳少量保证金,立即获得资格。适合需要许可的组织的快速通道。注册处目前在生产环境中运行。
自己生成密钥,运行约一个月,通过良好行为缓慢积累资格。适合小型运营者以及注册处触及不到的任何人。
两者都是网络的平等成员。注册处是快速通道,而不是门槛。
架构保护、去中心化、三人人道协议(Accord)、签名记录、每月演练——这些都是押注,不是确定性。我们可以描述这些押注是什么,但无法声称已经赢得了它们。外部团队尚未对系统进行大规模评估。查看当前研究状态。
参与的方式
CIRISAgent的GitHub议题是发表意见的地方。您不必是开发者,不必了解代码库。如果本站某处内容让您觉得不对,或者您发现正在构建的内容存在问题,请开一个议题说明。最有用的议题会指出系统的具体部分并提出应该更改的内容,但任何真诚的参与都欢迎。
支撑整个项目的协议(Accord)——CIRIS对人的承诺,以及人对CIRIS的回馈——在/ciris_accord.txt,持续开放审阅。如果其中某处让您感到不妥,那也值得开一个GitHub议题。
有实质内容的议题会被阅读。工作按自己的节奏推进。
You do not have to solve AI safety one agent at a time. You solve it for the supervision layer, and let the structure carry the rest.