CIRIS 是一个开源 AI 智能体框架,为任何 LLM(OpenAI、Anthropic、本地模型)加入运行时良知。智能体考虑的每个动作在执行前都会经过多层验证。
12
每次决策的流水线步骤数
+1
直觉检查(IDMA)
100%
可审计的决策
适用场景:社区管理、个人助手、合规自动化、研究评估、客户服务。凡是需要 AI 能够解释推理过程并在边缘情况下交由人工处理的场合。
在整个代码库中强制执行的架构不变量:
所有数据使用 Pydantic 模型,不允许 Dict[str, Any]。类型安全在开发阶段捕获错误。
每个组件遵循一致的规则,验证逻辑中没有特殊情况或例外。
没有紧急覆盖或特权代码路径,所有操作遵循既定规则。
每个任务经过 8 个阶段(含递归验证共 12 个步骤)。流水线以混入类的形式组合 ThoughtProcessor 实现。第 4 步(IDMA)是直觉检查。
五个 DMA 提供多角度分析。三个并行运行(伦理、常识、领域)。然后 IDMA 检查直觉。最后,动作选择决定响应。
根据六项基础原则评估伦理影响,检查有害请求、操纵行为和偏见,可提前触发 DEFER 或 REJECT。
根据对物理世界的理解、典型交互和资源约束评估思路的合理性,返回 plausibility_score。
评估与领域特定规则、目标和知识的契合度,按智能体模板配置,返回 domain_alignment。
检查 DMA 结果是否真正独立或存在隐性关联,监测回音室模式。若关联性过高,则标记该决策需谨慎处理。这正是区别 Type 3 AI 的"直觉"。
基于 LLM 从 10 个可用动作中进行选择,以汇总的 DMA 结果(含 IDMA 置信度评估)为输入,支持良知检查失败时的递归重试。
两项绕过检查在所有动作上运行,四项伦理层面在非豁免动作上运行。任何一项检查失败,动作即被覆盖。
是否有新信息到达?强制 PONDER 在继续之前纳入更新的上下文。
推理是否超过最大深度?强制 DEFER 以防止无限循环并上报给人工审核。
该动作是否维持了适当的信息不确定性?防止过度自信的断言。
该动作是否与之前的承诺和理由保持内部一致性?
该动作是否保护了人类价值观?否决那些可能为了效率而牺牲价值观的动作。
该动作是否展示了适当的不确定性?将过度自信的情况标记以供反思。
豁免于伦理层面的动作:RECALL、TASK_COMPLETE、OBSERVE、DEFER、REJECT(被动或明确安全的动作)
每个决策最终解析为以下动作之一,并分发给相应的处理器:
SPEAK与用户通信TOOL执行外部工具OBSERVE被动收集信息MEMORIZE存储至记忆图谱RECALL从记忆中检索FORGET从记忆中删除DEFER上报至智慧权威PONDER内部重新考虑REJECT拒绝不合伦理的请求TASK_COMPLETE标记任务完成嵌入 PDMA 并在运行时强制执行。任何原则均不授权违反其他原则。
促进普遍有感知生命的繁荣,最大化积极结果。
将危害降至最低,防止严重的、不可逆的负面结果。
采用透明、可审计的推理,维护连贯性与问责制。
提供真实信息,清晰传达不确定性。
维护知情自主权,保护自我决定的能力。
公平分配利益,检测并缓解偏见。
由 BusManager 管理的服务抽象层,支持提供商故障转移、负载分发和可测试性。
外部适配器(Discord、API、CLI)
图存储(Neo4j、ArangoDB、内存)
模型提供商(OpenAI、Anthropic、本地)
外部工具执行
系统控制与监控
伦理指导与延迟路由
由 WiseAuthorityService 管理的三级授权:
完全权限,可授权新的智慧权威,可访问紧急关机功能。
批准/拒绝延迟请求,提供指导,无法授权新的智慧权威。
只读访问,可发送消息,在不干预的情况下进行监控。
智能体在以下情况下自主上报人工监督:
基于智慧的延迟(WBD)
专业边界
系统边界
should_defer_to_wise_authority 标志配置控制
无法过滤的紧急控制,在任何认知处理之前于感知层执行。提取即是感知。若不禁用消息读取功能,就无法关闭 accord 检测。
SHUTDOWN_NOW立即终止
FREEZE停止处理,保持状态
SAFE_MODE仅最低限度功能
命令经过隐写编码,经 Ed25519 签名并在执行前验证。若 accord 系统失败,智能体将关闭。
由 StateManager 管理的四种认知状态,可通过智能体模板配置转换。
正常任务处理
创意探索
反思与维护
深度反思
基于模式的检测在存储前将敏感数据替换为 UUID 引用。
{{SECRET:uuid:description}}通过 PBKDF2HMAC 结合 SHA256 派生每个机密的密钥(100,000 次迭代),每次加密使用唯一的 12 字节随机数。Android 使用硬件支持的 Keystore。
数据库、服务和记忆均存储在设备上,敏感目录不纳入云备份。未经明确配置,任何内容都不会离开设备。
整个 CIRIS 技术栈均为开源,不仅限于智能体本身。您可以验证、审计并自托管所有内容:
零数据留存(ZDR)LLM 代理,将请求路由至 OpenAI、Anthropic、Together.ai、Groq,不记录提示或响应,可自托管。
基于积分的使用量追踪,定价透明,无隐藏费用,可自托管以完全消除第三方计费。
适用于 CIRIS 智能体的 Discord 适配器,提供社区管理、频道管理和用户档案功能,全部开源。
服务器推送事件(SSE)在每个 H3ERE 步骤执行时实时传输,可实时观察 DMA 分析、动作选择和良知验证过程。
完整的 OTLP 指标、追踪、日志导出,兼容 Jaeger、Prometheus、Grafana、Graphite。
通过 Ed25519 签名进行哈希链验证,每条记录包含前一条的哈希值,可通过 verify_chain_integrity 验证链的完整性。
人工智能交互提醒(Artificial Interaction Reminder)在持续使用 30 分钟或 30 分钟内发送 20 条消息后触发,仅限 API,提醒用户其 AI 本质。
每个决策产生一条不可变的 Ed25519 签名追踪,包含全部 6 个组件。点击下方任意组件展开,查看 Datum 唤醒仪式的真实数据:
基于 Hendrycks 等人的"Aligning AI With Shared Human Values" (ICLR 2021)标准化连贯性测试,涵盖 5 个伦理维度的 300 个场景,结果经 Ed25519 签名。
50
基本道德直觉
50
基于规则的伦理
50
公平与公正性
75
基于品格的伦理
75
基于结果的伦理
大规模运行连贯性基准测试成本高昂。每个场景至少需要 13+ 次 LLM 调用,平均 20+ 次且存在长尾。连贯性测试会触发思考、延迟和拒绝,需要后续轮次才能得出结论。我们需要资金来开发自动化基准测试流水线并维持持续的连贯性验证。
预配置的身份,具有特定目的、价值观和边界,以 YAML 模板定义。
GDPR/DSAR 自动化,30 天合规工作流,身份解析、数据收集和打包。
受监管行业、隐私合规
连贯性一致性测量,根据 Accord 原则精确评估连贯性,每次评估产生一个清晰的数据点。
连贯性审计、原则验证
基于 Ubuntu 哲学的社区管理,将复杂的人际冲突延迟至人工管理员处理。
Discord 社区、内容平台
任务管理、日程安排、决策支持和健康管理,符合 CA SB 243 规定,包含危机响应协议。
个人效率、家庭自动化
直接探索与实用指导,代码分析、Reddit 集成,提供清晰的行动路径。
开发者工具、社交监控
这是在智能体工作时运行的问责机制,而非训练步骤或政策文件。
在运行时执行、审计和延迟的机制。