初次接触安装连贯棘轮联邦对比研究协议GitHub
本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题
Background Image
当今量产AI中最安全、最合乎伦理的选择

没有问责机制,AI往往索取多于给予。

如果你无法核查问责机制,那只是营销话术。以下是需要关注的要点,以及现有方案的对比情况。

AI的三种类型

良知是必要条件,但还不够。

有些AI完全没有规则。有些AI遵守规则,但无法判断其信息来源是否只是互相重复。只有一种类型会主动检验信息是否真正来自不同来源。

1

没有规则

没有公开原则,没有审计追踪,不开源。你无法核查它做了什么或为什么这样做。

大多数消费级AI助手(ChatGPT、Gemini)从公众问责角度看属于这一类。其内部可能存在良好实践,但你无法验证。

需要外部监管,无法自我治理。

2

有规则,没有自觉

遵守伦理规则,但无法判断其所有信息来源是否只是互相抄袭,因此可能自信地给出错误答案。

在监督下是安全的,但无法自主发现回音壁问题。

3

有规则,也有自觉

遵守伦理规则,同时检验信息是否真正来自不同来源。当一致性看起来可疑时,在行动前标记出来。

这正是 CIRIS 正在构建的。

一个AI可以遵守所有规则、通过所有审计,但如果所有信息都来自同一来源,它仍然会失败。 这正是 CIRIS 立志解决的盲点。

七件需要检查的事

六项关乎伦理,一项关乎盲点。

这些是让AI可审计、可问责的关键要素。前六项关乎做正确的事,第七项关乎识别「做正确的事」基于错误信息的情形。

1. 公开原则

智能体必须遵循公开的伦理框架,而不是隐藏的规则——任何人都能阅读并据此要求它承担责任的文件。

2. 每次决策均有良知检查

智能体执行每项行动之前都要经过良知检查,是事前,不是事后。

3. 不确定时向人类求助

遇到不确定情形或潜在伤害时,智能体会请教人,而不是猜测。这是工作流程的内置机制,不是可选项。

4. 行为留有证明

每次决策都有记录并经过签名,让你能够准确核查发生了什么以及原因。每项行动都有收据。

5. 双向同意

同意是双向的:你可以对智能体说不,智能体也可以对你说不,双方都不会被迫妥协。

6. 开源

看不到的东西无法审计。CIRIS 在 AGPL-3.0 下完全开源,任何人都可以阅读、验证和改进代码。

7

回音壁检测

单靠规则无法发现的问题。

在行动前,智能体会自问:"我的信息来源真的各有不同,还是都从同一地方获取信息?"十个来源如果都抄自同一个原始资料,其实只算一个来源。当一致性看起来过于整齐,智能体会标记出来请人复核。

噪音过多

来源之间矛盾太多,无法得出有用结论。

健康

来源真正各有不同,真正的一致才有意义。

回音壁

看似一致,但来源只是互相重复。

这正是 CIRIS 有别于其他AI问责框架的地方。

想看数学推导?阅读完整论文 →

当前格局

不同的项目,不同的目标。

根据截至2026年2月的公开文档整理。如有遗漏或错误,请告知我们

项目每次决策均检查已发布规则内置良知行为留有证明开源回音壁检测
CIRISAGPL-3.0
Constitutional AI仅限训练阶段隐含
LlamaFirewall / NeMo Guardrails日志记录
HatCat部分引导部分CC0
伦理委员会 / 治理框架人工审核各有不同

输出过滤器和治理框架解决的是重要但不同的问题。过滤器阻止有害输出,良知对价值观进行推理。CIRIS 致力于两者兼顾,并弥补两者单独作用时的盲点。

三层防护

每一层解决不同的问题。

输出过滤器

阻断危险输出:提示词注入、有害内容、对抗性攻击。就像一个在出口拦截坏东西的过滤器。

伦理良知

推理某项行动是否正确,而不仅仅判断是否安全。就像一位法官在做出裁定前权衡实际情况。

回音壁检测

检验一致性是真实的还是只是重复。就像一位事实核查员会问:「你们是不是都看的同一篇文章?」

众多连贯的智能体

分布式治理,而非权力集中。

没有单点故障

规模更小的智能体,各自承担责任。

许多规模较小的智能体,每一个都遵循已发布的原则,都可审计,都向人类权威汇报。没有任何单一公司或实体控制整个技术栈。智能体越独立,任何单一故障就越难产生连锁反应。

研究现状

这是一项进行中的研究。我们对已确立的内容和仍在测试的内容保持透明。

已充分确立

  • - 抄袭来源会降低真实多样性
  • - AI模型共享训练数据重叠
  • - 回音壁制造虚假的确定感
  • - 独立验证能发现更多错误

仍在测试中

  • - 精确测量AI来源的抄袭程度
  • - 标记回音壁的最佳阈值
  • - 干预措施减少抄袭的效果
  • - 在不同领域的差异

亲自试试

自己验证。

开源,接受审查。

本页的每项声明都有可读的代码、可验证的追踪记录和可查的研究作为支撑。这就是重点所在。