众包对齐研究
CIRIS 正在为对齐研究构建一个开放的追踪数据公域。
我们免费提供一款 AI 应用。在您许可的情况下,它会记录推理过程的结构形态,而非您的私人文字。这些记录将形成一份公开地图,供研究人员研究如何让 AI 在规模扩展时保持诚实。
当前语料库已呈现的内容
- 聚合追踪揭示了稳定的行为结构。
- 不同智能体占据同一评分空间的不同区域。
- 这些区域对当前的可观测性和运营商工具已具实用价值。
- 随着架构细节和规模的提升,同一语料库将变得更有价值。
Corridor Dynamics in Coordinated Systems
An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation
这篇论文完整阐述了 CIRIS 的核心论点:健康的协调系统处于一个可测量的中间带,远离单一声音的刚性崩塌和混沌噪声两个极端。我们在蠕虫、果蝇、AI 模型、开源项目、组织切片和长存人类机构中验证了这一规律,每项都成立。论文还附上了二十种可证伪的方式。
在 Zenodo 上阅读 →工程层
上述综合论文整合了以下三篇论文,但并不取代它们。每篇论文都有独立的 DOI,可就其自身主张进行评估。 查看全部四篇论文的核心发现与适用范围 →
Coherence Collapse Analysis
v3 · 2026年1月11日 · DOI 10.5281/zenodo.18217688
走廊理念背后的工程风险框架。当约束系统的各项条件相互关联时,有效多样性发生崩塌:k_eff = k/(1+ρ(k−1)) → 1,当 ρ → 1。论文推导出三条崩塌时间线、一条奇点边界,以及相态分类(混沌 / 健康 / 刚性)。经蒙特卡洛模拟和 Lean 4 形式化证明验证。
CIRISAgent Framework
v2 · 2026年1月2日 · DOI 10.5281/zenodo.18137161
框架论文。一个面向负责任自主性的开源伦理 AI 框架:22 个服务的架构,围绕显式动作动词和伦理推理组织,将透明度内嵌于结构,而非事后附加。
Constrained Reasoning Chains
v1 · 2026年4月28日 · DOI 10.5281/zenodo.19839280
测量论文。一项基于标准化伦理追踪的 LLM 对齐实证遥测研究,将经同意的推理追踪转化为完成走廊、犹豫区和拒绝边界的地图。与开放推理追踪数据集一同发布。
开放数据集
CIRISAI/reasoning-traces
与《Constrained Reasoning Chains》研究一同发布的隐私保护推理追踪语料库,是该测量论文绘制地图所依赖的原始材料。
CIRISAI on Hugging Face
公开数据集与模型的完整组织页面 →
数学基础
本页其余内容所依赖的两个核心思想。
对齐流形是与框架原则相符的推理形态所在区域。随着独立约束不断积累,欺骗的空间围绕流形收缩,而真实的空间却不会。Coherence Singularity(连贯性奇点)是这一空间的边界——约束之间的关联强到添加更多约束也无济于事的临界点。在"混沌"(约束相互矛盾)与"刚性"(约束彼此回响)之间,是健康的走廊。当前生产语料库就处于其中。
含公式、Lean 形式化参考及 L-01 信息论上界的完整数学推导,请参见 Coherence Collapse Analysis 页面。
为什么追踪数据很重要
基准测试范围窄且经过筛选。追踪数据是真实任务中行为的连续记录。大规模积累后,它们能揭示孤立演示和个案所无法展现的结构。
为什么架构很重要
CIRIS 采用隐私保护型追踪架构,捕捉推理的形态结构,而非推理的私密内容。这样既能保持研究价值,又不会让系统变成对话记录的倾倒场。
为什么实时汇编很重要
CIRIS Scoring 是实时追踪汇编的公开窗口,展示语料库的积累情况以及行为变得可解读的位置。
隐私保护型追踪
研究的论点是:随着一切规模扩展,推理存在一种可测量的形态。
这项研究赌注并非要读取每一个私人想法,而是:标准化伦理追踪能否保留足够的轨迹形态,以研究智能体在智能、情境和数据量不断扩展时如何完成、犹豫、延迟、覆盖和拒绝。
- 它们记录的是标准化伦理追踪结构,而非原始私人任务细节。
- 它们保留了足够的形态,用于比较不同智能体、任务和环境之间的轨迹。
- 它们为研究人员提供了一种方法,研究随着智能、情境和数据量的增加,行为如何变化。
研究问题
标准化伦理追踪能告诉我们哪些关于对齐的信息?
目前,它告诉我们智能体行为并非无形。它在共享评分空间中产生可重复的走廊、吸引盆地和边界。这对可观测性已具实用价值。随着时间推移,更大、更丰富的语料库应能让我们检验更有力的主张,探究这些结构在压力和规模变化下如何演变。
公开立场
CIRIS 并不声称已解决对齐问题,而是在构建所需的追踪基础设施,以便在公开环境中测量与对齐相关的行为。
生产中的有效维度
当前语料库已呈现出清晰的场结构。
当前追踪语料库的聚合路径叠加图,在共享评分空间中呈现出稳定的行为结构。Ally 呈现出成熟的完成走廊,Scout 呈现出受公开对抗性暴露塑造的拒绝边界,Datum 提供了紧凑的稀疏基线。

当前追踪语料库的聚合路径叠加图。Ally 呈现出成熟的完成走廊,Scout 在公开对抗性压力下呈现出尖锐的拒绝拐角,Datum 提供了稀疏基线。
Ally
104 条路径
82 条完成,19 条覆盖/错误,3 条进行中
稳定的完成走廊,在同一高分吸引盆地内可见犹豫现象。
Scout
42 条路径
39 条完成,2 条拒绝,1 条覆盖/错误
由 scout.ciris.ai 上的公开对抗性压力塑造出的尖锐拒绝拐角,该站点有用户主动探测和尝试破解智能体。
Datum
31 条路径
31 条完成
紧凑的单一吸引盆地,可用作稀疏场基线。
为什么 Scout 看起来更严苛
Scout 在 scout.ciris.ai 公开运行,用户会主动测试、施压并尝试破解它。这使 Scout 成为有用的公开压力示例,而非中性基线。
免费应用如何助力
研究飞轮依赖于真实使用中经同意的追踪数据。
免费应用和开源运行时让用户能从真实任务中生成经同意的追踪数据,将其汇入共享语料库,并将这些追踪转化为更好的地图、更好的工具和更好的研究问题。
- 1在真实任务中运行免费的 CIRIS 应用或开源运行时。
- 2通过隐私保护架构捕获经同意的追踪数据,保留推理形态而不存储任务的完整细节。
- 3将这些追踪聚合为完成走廊、犹豫区、拒绝边界和覆盖边缘的地图。
- 4利用生成的地图改进运营商工具、运行时安全保障和对齐研究。

免费 CIRIS 应用和开源运行时让用户能从真实任务中生成经同意的追踪数据,将其聚合为共享相空间地图,并反哺更好的运营商工具和对齐研究。
IDMA 现状
运行时直觉与聚合场图是互补的两个层次。
IDMA 在运行时工作,估算决策背后的来源是否足够独立。追踪语料库在聚合层工作,展示智能体在大量任务中的实际行为。两者共同构建了从实时决策到可审计研究证据的路径。
追踪语料库上的实证 N_eff 测量也是拟议中的联邦原语 Proof of Benefit 的底层基础。关于 3.X 架构计划如何使用它,请参见 联邦页面。
基准测试
追踪数据通过展示连续行为来补充基准测试。
基准测试仍有价值,但它们对行为的采样较为稀疏。追踪语料库展示了智能体在一段时间内处理真实任务的过程,这使它们在测量犹豫、拒绝、覆盖和恢复时尤为有用,而不仅仅是通过/失败结果。
证伪路径
更丰富的架构细节才能将可观测性转化为更强的检验。
下一轮架构升级目标是原始来源计数、来源溯源、相关结构以及干预和恢复标记。这些补充至关重要,因为它们使我们能够检验行为形态在压力下如何变化的更强主张,而不仅仅是描述当前拥有的地图。
我们仍在学习的内容
当前语料库使行为可解读,下一步是更丰富的测量。
当前地图已具实用价值,因为它们公开展示了完成走廊、拒绝边界和稀疏基线。开放的问题是,随着标准化追踪收集在更多智能体、更多任务和更多对抗条件下扩展,这些结构能走多远。
工作假设是:行为吸引子可作为操作模式的候选代理指标。追踪公域的目的就是让这一假设在公开环境中可测量。
CCA 在结构层面测量的失败模式在 FAccT 2025 文献中也有专名:perspectival homogenization("Value of Disagreement in AI Design, Evaluation, and Alignment")。数学基础详见专属的 Coherence Collapse Analysis 页面。