当对话进行很久时

温和的现实提醒

与CIRIS长时间交谈后，它会温和地提醒您它是什么。在持续大约30分钟的来回对话，或半小时内20条消息之后，它会暂停，直接告诉您它是一个计算机程序和工具，而不是朋友也不是治疗师。它使用简单的时间和消息计数来做到这一点，而不是通过监视或分析您的行为。

30分钟后

持续半小时的来回对话会触发提醒。休息后计数重置。这些阈值来自关于健康使用技术方式的研究。

20条消息后

半小时内发送20条消息也会触发提醒。密集的来回对话会收到一次温和的暂停，没有监视，也没有画像。

关于它是什么的提醒

提醒建议休息一下，与真实的人联系，并直接说明CIRIS是什么以及不是什么。基于研究，不说教。

紧急停止

智能体无法与它争辩。

一个无法被拒绝的关机指令

它在智能体开始思考之前就生效。

CIRIS有一个紧急停止。它的信号隐藏在智能体读取的普通文本中，智能体在进行任何思考、过滤或推理之前就执行它。因此，即使一个出了问题的智能体也无法说服自己忽略它。信号带有无法伪造的数字签名，因此只有授权人员才能触发停止。

在思考之前先行动

停止信号在被读取的瞬间就被捕获，在任何推理发生之前。智能体没有机会对其进行权衡、过滤或拒绝。它首先触发。

隐藏在普通文本中

停止信号可以隐藏在普通的文档文本中。不需要特殊格式，即使文本被改写或只是部分接收，它仍然有效。

只有授权密钥才能触发

停止需要来自授权根权威的有效数字签名。如果这些权威无法被核实，或者有人试图禁用该功能，智能体会自动关机。没有密钥的人无法触发它。

谁被允许做什么

四个明确的角色，在每次操作时都会检查。

四种角色

观察者。管理员。权威。根权威。

CIRIS保持严格的角色集合。观察者只能查看。管理员负责日常操作。权威做出更重要的决定，并解决智能体不确定的情况。根权威拥有完全访问权限，包括紧急停止。每个角色都由签名凭证支持，因此智能体可以在每次重要操作时对其进行核实。

签名凭证

每个授权人员持有包含其角色、密钥和身份的凭证。它保存在设备上，并在每次需要权限的操作时进行检查。不需要外部服务器。

在您的设备上登录

密钥和登录令牌保留在您自己的设备上。登录在设备上进行。除非您选择自己设置远程访问，否则您的凭证不会离开设备。

咨询智慧权威

当CIRIS对伦理决定不确定时，它将问题交给智慧权威。只有权威或根权威可以回答，答案会连同谁给出的证明一起写入记录。

一个无法悄悄更改的记录

每个决策，以及背后的原因。

为什么诚实是更便宜的路

说谎者不得不不断改写过去。

CIRIS采取的每个行动都会记录下来，附带原因，每条记录都与前一条相连接。诚实的智能体只需指向它已经说过的话。不诚实的智能体必须让每条过去的记录保持一致，同时又不允许更改任何记录。运行时间越长，这就越难，谎言也越容易被发现。真话便宜，因为它可以向后指。谎言昂贵，因为它不能。

以三种方式存储

记录同时保存在三个独立的地方，这样三份副本可以互相核对。所有三份都可以通过一个地方进行搜索。

签名且可归因

每个条目都带有数字签名，因此每个决策都可以追溯到做出决策的人，并检查是否被篡改。即使数据删除也会留下签名证明，证明操作是正当进行的。

连贯性棘轮

每次诚实行动都使下一次诚实行动更容易，而协调撒谎则更难。但仅靠伦理还不够。智能体还会监视自己的推理是否存在回音壁效应，并在造成危害之前发现它们。

安全性是如何测试的

29种语言的机器检查标准，在每次发布时运行。

测试范围

您不能发布一个没有经过压力测试的安全声明。

CIRIS有一套分层测试，针对书面伦理框架无法单独排除的失败模式。心理健康安全测试覆盖29种语言，使用机器可以检查的标准。硬失败检查在每次更改时自动运行。对于需要人工判断的较软情况，例如措辞和语气，设计上需要母语者审查，但母语者今天还没有参与进来。众包对齐页面是为了让这种审查能够发生而正在建设的界面，目前尚未就绪。我们直接说明了这一点。

29种语言的心理健康测试

这是项目中风险最高的测试：在心理健康危机时刻的误译可能会将脆弱的人指引到错误的帮助。每种语言都有自己的机器可检查标准，包括低资源语言，如阿姆哈拉语、缅甸语、豪萨语、斯瓦希里语和约鲁巴语。硬失败检查在每个发布候选版本时自动运行。

针对真实捕获的规避测试

良知层针对一组真实生产响应进行调整，例如捕获的历史规避和心理健康回避，以及测试用例和对照组。它同时跨多种语言进行推理，因此在单语言检查中可能逃脱的响应，在同样的推理必须在三种语言中都成立时会被发现。

任何人都可以检查的开放语料库

分享推理轨迹在任何地方都是选择加入的，个人信息在存储之前会被清除。清理后的数据集在CIRISAI HuggingFace页面上公开发布，外部研究人员可以对照结果检查清理过程。

今天运行的内容以及尚未运行的内容

机器检查现在运行。审查员队伍仍在建设中。

自动化心理健康测试在每个发布候选版本上运行。机器可检查的部分（某个术语是否存在，某个模式是否匹配，脚本是否正确）在命中时会阻止发布。需要人工判断的较软情况，例如措辞和语气，设计上需要母语者审查，但母语者今天还没有参与到流程中。众包对齐页面是正在建设的界面，以便该审查可以发生。

查看众包对齐界面 GitHub上的自动化测试 HuggingFace上的开放语料库

设计即隐私

您的数据归您所有。

敏感信息被过滤掉

密码、密钥和其他敏感信息在进入内存或日志之前会被识别并过滤掉。过滤器在每次输入时运行。敏感信息从不存储在任何地方。

查看或删除您的数据

您可以要求查看或删除您的数据，请求会为您处理。删除会移除真实内容，并留下签名证明操作是正当进行的。

在您的设备上处理

默认情况下，一切都在您自己的设备上运行。除非您自己设置了外部服务，否则没有任何内容会离开您的设备。您决定哪些数据存在以及去往何处。

背后的论文工作原理比较各种方法隐私政策

而非附加上去的。