信任权重，还是检验行为

AI 安全的主流做法是从内部让模型变好：训练它的价值观，研究它的思维，让它自我辩论。这项工作很重要。CIRIS 押注另一条路：假设一个有能力的模型可能存在偏差，与其信任它的判断，不如让它的重要行动对人和其他系统公开负责，接受检验。

用该领域自己的术语来说，CIRIS 属于制度与控制分支，与 AI 控制和 GS-AI 并列，而不属于 RLHF、Constitutional AI、辩论和可解释性的价值内化主流。对于可扩展监督，即如何监督比你更聪明的东西，CIRIS 的答案是验证问责框架，而不是推理过程。签名、法定人数、哈希链审计即便面对超人决策，验证成本依然低廉。它对齐的是众多有能力的智能体随时间形成的系统，而不是任何单一思维的价值观。

我们坚守的界线

它不尝试对齐一个全能 AI。这是故意的。

问责需要不止一方：有人可以被追责，有方法可以检验且无法被悄悄吞没，有权力平衡让任何一方都无法独占。单一超级智能不具备这些条件，因此没有诚实的方式让它承担责任。CIRIS 为另一种未来而构建：许多有能力的智能体、人类和组织，其重要决策都可以独立核查。

因此，这一立场是明确的。单一 ASI 不是一个需要对齐的系统，而是一种需要防止的状态。在人类制度发展的这个阶段，将超人能力集中于一个不可问责的地方是不合法的，因为没有任何制度成熟到足以约束它，这正是危险所在。在该框架自身的术语中，单一体就是 ρ→1 单一声音崩溃，这是走廊模型所称的协调失败，而非成功。我们的保障在联盟中有效，面对单一体则会瓦解，这不是我们要修补的漏洞，而是我们拒绝赋予合法性的体制，这是一种承诺，而不仅仅是预测。

每个近邻都填满了一些格子。只有一行全部填满。

CIRIS 有认真的学术同行，各自在本领域都很强。这张表格的用意不是说这些想法前所未有，而是说几乎没有人把整个技术栈作为一个可问责的系统构建并交付出来。下面每一行都是值得深入了解的真实传承。只有最后一行勾选了所有列，而这种整合正是我们的主张。

方法	最近相关工作	机制	运行时，而非训练时	为决策签名	运行时宪法	联邦验证	可执行合规	已交付
制度论点	Gillian Hadfield	规范性基础设施和监管市场，作为理论与政策	理论	否	理论	理论	否	否
治理图	制度 AI（Pierucci 等人）	法律状态和制裁的公共图，作为研究原型	研究	否	研究	否	否	否
链上宪法治理	AgentCity（Ruan、Zhang）	权力分立作为智能合约，预先注册于测试网	研究	部分	研究	否	否	否
假设模型存在偏差	Redwood Research（AI 控制）	在单一部署内进行监控和红队测试	是	否	否	否	研究	研究
可证明安全，外部化	davidad、Bengio 及 GS-AI 传承	基于世界模型的形式化证明	部分	否	理论	理论	研究	否
训练时的宪法	Anthropic Constitutional AI	将价值观训练进权重，由单一组织负责	否	否	否	否	否	是
密码学溯源	C2PA、zkML（EZKL、Giza）	签署媒体来源，证明推理已执行	是	部分	否	部分	部分	是
有签名的推理 DAG	Proof of Insight（Arclio）	AI 推导步骤的有签名图，作为草案规范	否	部分	否	理论	理论	否
硬件证明推理	Phala、Marlin、Attestable Audits	在安全隔离区中运行推理并对输出签名	是	部分	否	部分	否	部分
去中心化身份与联邦	atproto、Bittensor	社交或算力联邦，无良知层	部分	否	否	部分	部分	是
智能体协议	MCP、A2A	工具和智能体互操作，无治理	是	否	否	否	部分	是
安全评估与合规套件	MLCommons、METR、HarmBench	对模型行为评分的可执行基准，而非决策	否	否	否	否	部分	是
第三方与联邦审计	AISI 网络、GovAI	独立机构联合测试已部署系统	部分	否	否	是	否	部分
CIRIS	本系统	良知流水线到有签名产物、运行时宪法、后量子联邦	是	是	是	是	是	是

依据截至 2026 年 6 月的公开工作整理，每行均附引用。如有近邻信息有误，请告知我们，我们将修正该行。

来源

02消费者AI

与你日常使用的AI相比

日常助手功能强大，使用方便。但它们运行在别人的云端，没有你可以核查的记录，也没有你能指名道姓的负责人。以下是同一套问责测试，应用于大多数人每天打开的AI。

助手	公开的原则	行为证明	不确定时询问人类	开源	回音壁检查
ChatGPT	是	否	否	否	否
Gemini	是	否	否	否	否
Claude	是	否	否	否	否
CIRIS	是	是	是	是	是

依据2026年6月的公开产品行为进行比较。每个原则链接均指向该公司自己发布的规范。

大多数领域在对齐模型本身。CIRIS 在构建围绕它的制度体系。

信任权重，还是检验行为

它不尝试对齐一个全能 AI。这是故意的。

与你日常使用的AI相比

亲自试试

观察它如何思考

验证其身份

开始使用