良知是必要条件,但还不够。
有些AI完全没有规则。有些AI遵守规则,但无法判断其信息来源是否只是互相重复。只有一种类型会主动检验信息是否真正来自不同来源。
没有公开原则,没有审计追踪,不开源。你无法核查它做了什么或为什么这样做。
大多数消费级AI助手(ChatGPT、Gemini)从公众问责角度看属于这一类。其内部可能存在良好实践,但你无法验证。
需要外部监管,无法自我治理。
遵守伦理规则,但无法判断其所有信息来源是否只是互相抄袭,因此可能自信地给出错误答案。
在监督下是安全的,但无法自主发现回音壁问题。
遵守伦理规则,同时检验信息是否真正来自不同来源。当一致性看起来可疑时,在行动前标记出来。
这正是 CIRIS 正在构建的。
一个AI可以遵守所有规则、通过所有审计,但如果所有信息都来自同一来源,它仍然会失败。 这正是 CIRIS 立志解决的盲点。
这些是让AI可审计、可问责的关键要素。前六项关乎做正确的事,第七项关乎识别「做正确的事」基于错误信息的情形。
智能体执行每项行动之前都要经过良知检查,是事前,不是事后。
遇到不确定情形或潜在伤害时,智能体会请教人,而不是猜测。这是工作流程的内置机制,不是可选项。
每次决策都有记录并经过签名,让你能够准确核查发生了什么以及原因。每项行动都有收据。
同意是双向的:你可以对智能体说不,智能体也可以对你说不,双方都不会被迫妥协。
单靠规则无法发现的问题。
在行动前,智能体会自问:"我的信息来源真的各有不同,还是都从同一地方获取信息?"十个来源如果都抄自同一个原始资料,其实只算一个来源。当一致性看起来过于整齐,智能体会标记出来请人复核。
噪音过多
来源之间矛盾太多,无法得出有用结论。
健康
来源真正各有不同,真正的一致才有意义。
回音壁
看似一致,但来源只是互相重复。
这正是 CIRIS 有别于其他AI问责框架的地方。
想看数学推导?阅读完整论文 →根据截至2026年2月的公开文档整理。如有遗漏或错误,请告知我们。
| 项目 | 每次决策均检查 | 已发布规则 | 内置良知 | 行为留有证明 | 开源 | 回音壁检测 |
|---|---|---|---|---|---|---|
| CIRIS | 是 | 是 | 是 | 是 | AGPL-3.0 | 是 |
| Constitutional AI | 仅限训练阶段 | 隐含 | 否 | 否 | 否 | 否 |
| LlamaFirewall / NeMo Guardrails | 是 | 否 | 否 | 日志记录 | 是 | 否 |
| HatCat | 是 | 部分 | 引导 | 部分 | CC0 | 否 |
| 伦理委员会 / 治理框架 | 否 | 是 | 否 | 人工审核 | 各有不同 | 否 |
输出过滤器和治理框架解决的是重要但不同的问题。过滤器阻止有害输出,良知对价值观进行推理。CIRIS 致力于两者兼顾,并弥补两者单独作用时的盲点。
阻断危险输出:提示词注入、有害内容、对抗性攻击。就像一个在出口拦截坏东西的过滤器。
推理某项行动是否正确,而不仅仅判断是否安全。就像一位法官在做出裁定前权衡实际情况。
检验一致性是真实的还是只是重复。就像一位事实核查员会问:「你们是不是都看的同一篇文章?」
许多规模较小的智能体,每一个都遵循已发布的原则,都可审计,都向人类权威汇报。没有任何单一公司或实体控制整个技术栈。智能体越独立,任何单一故障就越难产生连锁反应。
这是一项进行中的研究。我们对已确立的内容和仍在测试的内容保持透明。
已充分确立
仍在测试中