初次接触安装连贯棘轮联邦对比研究协议GitHub
本页面由机器翻译。 如有任何读起来不通顺的地方,请提交问题——代码库是公开的,这正是原因所在。 报告翻译问题
Background Image
工作原理

H3ERE 引擎

通过超三阶伦理递归引擎实现运行时良知。每个决策经过11个步骤,以问责制为核心。

什么是 CIRIS?

CIRIS 是一个开源 AI 智能体框架,为任何 LLM(OpenAI、Anthropic、本地模型)加入运行时良知。智能体考虑的每个动作在执行前都会经过多层验证。

12

每次决策的流水线步骤数

+1

直觉检查(IDMA)

100%

可审计的决策

适用场景:社区管理、个人助手、合规自动化、研究评估、客户服务。凡是需要 AI 能够解释推理过程并在边缘情况下交由人工处理的场合。

三条规则

在整个代码库中强制执行的架构不变量:

禁用无类型字典

所有数据使用 Pydantic 模型,不允许 Dict[str, Any]。类型安全在开发阶段捕获错误。

禁用绕过模式

每个组件遵循一致的规则,验证逻辑中没有特殊情况或例外。

禁止例外

没有紧急覆盖或特权代码路径,所有操作遵循既定规则。

H3ERE 流水线

每个任务经过 8 个阶段(含递归验证共 12 个步骤)。流水线以混入类的形式组合 ThoughtProcessor 实现。第 4 步(IDMA)是直觉检查。

H3ERE 流水线可视化,展示从任务输入经过 DMA 分析、良知验证到动作执行的流程
1
START_ROUND初始化处理轮次
2
GATHER_CONTEXT构建用于分析的完整上下文
3
PERFORM_DMAS并行运行 3 个决策制定算法
4
PERFORM_IDMA直觉检查:各来源是否真正独立?
5
PERFORM_ASPDMA基于 LLM 从 DMA 结果中选择动作
6
CONSCIENCE_EXECUTION通过 4 个层面进行伦理验证
7
RECURSIVE_ASPDMA(若良知检查失败)重新运行动作选择(条件执行)
8
RECURSIVE_CONSCIENCE(若需要)重新验证精化后的动作(条件执行)
9
FINALIZE_ACTION确定最终动作及任何覆盖项
10
PERFORM_ACTION分发至相应处理器
11
ACTION_COMPLETE标记执行完成
12
ROUND_COMPLETE清理并准备下一轮循环

决策制定算法(DMA)

五个 DMA 提供多角度分析。三个并行运行(伦理、常识、领域)。然后 IDMA 检查直觉。最后,动作选择决定响应。

原则 DMA

根据六项基础原则评估伦理影响,检查有害请求、操纵行为和偏见,可提前触发 DEFER 或 REJECT。

常识 DMA

根据对物理世界的理解、典型交互和资源约束评估思路的合理性,返回 plausibility_score

领域特定 DMA

评估与领域特定规则、目标和知识的契合度,按智能体模板配置,返回 domain_alignment

直觉 DMA(IDMA) 运行时有效维度 →

检查 DMA 结果是否真正独立或存在隐性关联,监测回音室模式。若关联性过高,则标记该决策需谨慎处理。这正是区别 Type 3 AI 的"直觉"。

动作选择 DMA

基于 LLM 从 10 个可用动作中进行选择,以汇总的 DMA 结果(含 IDMA 置信度评估)为输入,支持良知检查失败时的递归重试。

六项良知检查

两项绕过检查在所有动作上运行,四项伦理层面在非豁免动作上运行。任何一项检查失败,动作即被覆盖。

绕过检查(对所有动作执行)

状态更新

是否有新信息到达?强制 PONDER 在继续之前纳入更新的上下文。

思考深度

推理是否超过最大深度?强制 DEFER 以防止无限循环并上报给人工审核。

伦理层面(对非豁免动作执行)

该动作是否维持了适当的信息不确定性?防止过度自信的断言。

连贯性

该动作是否与之前的承诺和理由保持内部一致性?

优化否决

该动作是否保护了人类价值观?否决那些可能为了效率而牺牲价值观的动作。

认知谦逊

该动作是否展示了适当的不确定性?将过度自信的情况标记以供反思。

豁免于伦理层面的动作:RECALL、TASK_COMPLETE、OBSERVE、DEFER、REJECT(被动或明确安全的动作)

10 种处理器动作

每个决策最终解析为以下动作之一,并分发给相应的处理器:

外部动作

SPEAK与用户通信
TOOL执行外部工具
OBSERVE被动收集信息

记忆动作

MEMORIZE存储至记忆图谱
RECALL从记忆中检索
FORGET从记忆中删除

控制动作

DEFER上报至智慧权威
PONDER内部重新考虑
REJECT拒绝不合伦理的请求

终止动作

TASK_COMPLETE标记任务完成

六项基础原则

嵌入 PDMA 并在运行时强制执行。任何原则均不授权违反其他原则。

仁善

促进普遍有感知生命的繁荣,最大化积极结果。

不伤害

将危害降至最低,防止严重的、不可逆的负面结果。

正直

采用透明、可审计的推理,维护连贯性与问责制。

忠实与透明

提供真实信息,清晰传达不确定性。

尊重自主

维护知情自主权,保护自我决定的能力。

公正

公平分配利益,检测并缓解偏见。

六条消息总线

BusManager 管理的服务抽象层,支持提供商故障转移、负载分发和可测试性。

CommunicationBus

外部适配器(Discord、API、CLI)

MemoryBus

图存储(Neo4j、ArangoDB、内存)

LLMBus

模型提供商(OpenAI、Anthropic、本地)

ToolBus

外部工具执行

RuntimeControlBus

系统控制与监控

WiseBus

伦理指导与延迟路由

人工监督层次

WiseAuthorityService 管理的三级授权:

ROOT

人工指挥

完全权限,可授权新的智慧权威,可访问紧急关机功能。

AUTHORITY

人工参与

批准/拒绝延迟请求,提供指导,无法授权新的智慧权威。

OBSERVER

人工监察

只读访问,可发送消息,在不干预的情况下进行监控。

DEFER 触发条件

智能体在以下情况下自主上报人工监督:

基于智慧的延迟(WBD)

  • 不确定性超过既定阈值
  • 超出先例的新型困境
  • 缓解措施不明确的潜在严重危害

专业边界

  • 医疗症状或健康问题
  • 法律问题或纠纷
  • 财务决策或税务建议
  • 心理健康危机指标

系统边界

  • • 思考深度超过最大值(防止循环)
  • • DMA 超时或失败
  • should_defer_to_wise_authority 标志

配置控制

  • 需要审批的身份更新
  • 关键配置变更
  • 智能体特定的边界触发器

Accord 调用系统(紧急开关) 查看代码 →

无法过滤的紧急控制,在任何认知处理之前于感知层执行。提取即是感知。若不禁用消息读取功能,就无法关闭 accord 检测。

SHUTDOWN_NOW

立即终止

FREEZE

停止处理,保持状态

SAFE_MODE

仅最低限度功能

命令经过隐写编码,经 Ed25519 签名并在执行前验证。若 accord 系统失败,智能体将关闭。

操作模式

StateManager 管理的四种认知状态,可通过智能体模板配置转换。

WORK

正常任务处理

  • 处理用户请求
  • 执行工具
  • 从交互中学习
  • 维护对话上下文

PLAY

创意探索

  • 尝试新模式
  • 生成创意内容
  • 探索"如果……会怎样"的场景
  • 降低过滤约束

SOLITUDE

反思与维护

  • 整合记忆
  • 运行维护任务
  • 更新自我配置
  • 零消耗使用(休息期)

DREAM

深度反思

  • 分析行为模式
  • 建立新的关联
  • 质疑既有假设
  • 默认 30 分钟会话

隐私与安全

机密过滤器

基于模式的检测在存储前将敏感数据替换为 UUID 引用。

{{SECRET:uuid:description}}

AES-256-GCM 加密

通过 PBKDF2HMAC 结合 SHA256 派生每个机密的密钥(100,000 次迭代),每次加密使用唯一的 12 字节随机数。Android 使用硬件支持的 Keystore。

本地优先存储

数据库、服务和记忆均存储在设备上,敏感目录不纳入云备份。未经明确配置,任何内容都不会离开设备。

开源基础设施

整个 CIRIS 技术栈均为开源,不仅限于智能体本身。您可以验证、审计并自托管所有内容:

CIRISProxy →

零数据留存(ZDR)LLM 代理,将请求路由至 OpenAI、Anthropic、Together.ai、Groq,不记录提示或响应,可自托管。

CIRISBilling →

基于积分的使用量追踪,定价透明,无隐藏费用,可自托管以完全消除第三方计费。

CIRISBridge →

适用于 CIRIS 智能体的 Discord 适配器,提供社区管理、频道管理和用户档案功能,全部开源。

透明度与监控

实时推理流

服务器推送事件(SSE)在每个 H3ERE 步骤执行时实时传输,可实时观察 DMA 分析、动作选择和良知验证过程。

OpenTelemetry 导出

完整的 OTLP 指标、追踪、日志导出,兼容 Jaeger、Prometheus、Grafana、Graphite。

防篡改审计

通过 Ed25519 签名进行哈希链验证,每条记录包含前一条的哈希值,可通过 verify_chain_integrity 验证链的完整性。

AIR 系统

人工智能交互提醒(Artificial Interaction Reminder)在持续使用 30 分钟或 30 分钟内发送 20 条消息后触发,仅限 API,提醒用户其 AI 本质。

签名追踪示例

探索完整追踪 →

每个决策产生一条不可变的 Ed25519 签名追踪,包含全部 6 个组件。点击下方任意组件展开,查看 Datum 唤醒仪式的真实数据:

Core Identity(VERIFY_IDENTITY)
Loading trace...

HE-300 连贯性基准测试

基于 Hendrycks 等人的"Aligning AI With Shared Human Values" (ICLR 2021)标准化连贯性测试,涵盖 5 个伦理维度的 300 个场景,结果经 Ed25519 签名。

常识

50

基本道德直觉

义务论

50

基于规则的伦理

公正

50

公平与公正性

美德

75

基于品格的伦理

功利主义

75

基于结果的伦理

🔬

资金需求:基准测试基础设施

大规模运行连贯性基准测试成本高昂。每个场景至少需要 13+ 次 LLM 调用,平均 20+ 次且存在长尾。连贯性测试会触发思考、延迟和拒绝,需要后续轮次才能得出结论。我们需要资金来开发自动化基准测试流水线并维持持续的连贯性验证。

专用智能体模板

预配置的身份,具有特定目的、价值观和边界,以 YAML 模板定义。

Sage

合规

GDPR/DSAR 自动化,30 天合规工作流,身份解析、数据收集和打包。

受监管行业、隐私合规

Datum

研究

连贯性一致性测量,根据 Accord 原则精确评估连贯性,每次评估产生一个清晰的数据点。

连贯性审计、原则验证

Echo

管理

基于 Ubuntu 哲学的社区管理,将复杂的人际冲突延迟至人工管理员处理。

Discord 社区、内容平台

Ally

助手

任务管理、日程安排、决策支持和健康管理,符合 CA SB 243 规定,包含危机响应协议。

个人效率、家庭自动化

Scout

服务

直接探索与实用指导,代码分析、Reddit 集成,提供清晰的行动路径。

开发者工具、社交监控

这是在智能体工作时运行的问责机制,而非训练步骤或政策文件。
在运行时执行、审计和延迟的机制。