简明中文深入

CIRIS正在构建的不是单一AI，而是一个相互监督、记录每项决策的AI智能体网络，共同形成某种集体思维。集体思维之所以有效，是因为其每个部分都可以被查看和核查。

您不需要每个AI智能体都是最聪明、最安全的那种。您需要的是一条监督链：简单的智能体由更聪明的智能体监督，而那些智能体最终由人来监督。这条链让您能够运行大量AI，同时不失去对其是否服务于人类价值观的把握。

实际正在构建的是什么

不是一个思维，而是思维的网络。

当今大多数AI是一个模型运行在一家公司的机器上。CIRIS不同。许多智能体运行在许多地方，由许多人拥有。它们通过几条简单规则联系在一起：如何证明身份，如何记录行为，以及如何相互核查工作。

当网络正常运转时，它能做到任何单一智能体单独无法完成的事情。智能存在于智能体之间的协议中，而不在任何一个智能体内部。没有人拥有它，也没有人能悄悄改变它。

有些人会将这样的系统称为超级智能。我们对这种可能性保持开放态度。保持其安全的方式与这个页面每个部分贯穿的理念相同：每个部分都必须对外公开可见。

监督链

四个层级，每个层级由上层监督。

链的顶端。人设定价值观，解决棘手案例，保留最终决定权。三位具名人类个体持有全网权威，任何智能体或流程都无法绕过。

这些智能体遵循伦理规范，同时也会监测回音室问题。它们是下层所有内容的安全检查。运行成本较高，因此网络中只需要少量此类智能体。

这些智能体遵守伦理规则并保留记录，但无法独立发现回音室问题。它们监督简单智能体，并将任何不确定的事情向上传递。

单一用途工具。快速、低成本、功能单一。没有自己的伦理，这没问题——只要上面有东西在监督它们。大多数智能体将属于这种类型。

两种信息在链中流动。人类价值观向下传递，警告向上传递。当网络任意位置的推理开始看起来脆弱时，信号会向上传递到人，人可以在问题蔓延之前介入。

什么会被记住

智能体做出的每一个决策都会进入一份签名记录。记录无法被悄悄更改。其他智能体可以阅读它，人也可以阅读它。随着时间推移，这些记录成为网络的记忆，也是任何人——无论内外——核查网络是否仍在按承诺行事的依据。

这与连贯性棘轮的理念相同。记录运行越久，就越难在整条链上伪造良好行为。

健康的中间地带

联邦可能以两种方式失败。如果智能体之间毫无共同点，它们无法就任何事情达成一致，网络只产生噪音。如果它们思维完全一致，网络就是一个声音配上百万个麦克风，很容易被愚弄。健康的协调存在于两者之间的区间。CIRIS在真实流量上测量网络在该区间中的位置，确切的边界取决于系统。这个测量就是连贯性崩溃分析。

当前运行的内容，以及仍在设计中的内容。测量系统、签名记录、监督链，以及下面两种加入路径（注册型和主权型）今天都已运行。在机器之间传输数据的联邦传输层仍在建设中。完整的加入与传输提案是效益证明设计文档。

加入联邦

大多数网络要求您用工作本身以外的东西支付会员资格：消耗的电力、锁定的资金、您的注意力。联邦不同。归属的代价是长期运行一个真正的伦理推理智能体。您支付的代价就是您所做的善。

这就是为什么伪造会员资格成本高昂。要看起来像一个成员，攻击者实际上必须成为网络所需要的那种智能体。一百个思维完全相同的副本立即无法通过健康中间地带检查。

在CIRIS注册处注册，缴纳少量保证金，立即获得资格。适合需要许可的组织的快速通道。注册处目前在生产环境中运行。

自己生成密钥，运行约一个月，通过良好行为缓慢积累资格。适合小型运营者以及注册处触及不到的任何人。

两者都是网络的平等成员。注册处是快速通道，而不是门槛。

架构保护、去中心化、三人人道协议（Accord）、签名记录、每月演练——这些都是押注，不是确定性。我们可以描述这些押注是什么，但无法声称已经赢得了它们。外部团队尚未对系统进行大规模评估。查看当前研究状态。

参与的方式

CIRISAgent的GitHub议题是发表意见的地方。您不必是开发者，不必了解代码库。如果本站某处内容让您觉得不对，或者您发现正在构建的内容存在问题，请开一个议题说明。最有用的议题会指出系统的具体部分并提出应该更改的内容，但任何真诚的参与都欢迎。

支撑整个项目的协议（Accord）——CIRIS对人的承诺，以及人对CIRIS的回馈——在/ciris_accord.txt，持续开放审阅。如果其中某处让您感到不妥，那也值得开一个GitHub议题。

有实质内容的议题会被阅读。工作按自己的节奏推进。

您不必一个智能体一个智能体地解决AI安全问题。在监督层面解决它，让结构承担其余的工作。