
CIRIS中的每项安全功能都是系统工作方式的一部分,而不是在上面附加的规则。每个决策的记录无法悄悄更改,对谁能做什么有严格检查,还有一个智能体无法拒绝的紧急停止。
与CIRIS长时间交谈后,它会温和地提醒您它是什么。在持续大约30分钟的来回对话,或半小时内20条消息之后,它会暂停,直接告诉您它是一个计算机程序和工具,而不是朋友也不是治疗师。它使用简单的时间和消息计数来做到这一点,而不是通过监视或分析您的行为。
持续半小时的来回对话会触发提醒。休息后计数重置。这些阈值来自关于健康使用技术方式的研究。
半小时内发送20条消息也会触发提醒。密集的来回对话会收到一次温和的暂停,没有监视,也没有画像。
提醒建议休息一下,与真实的人联系,并直接说明CIRIS是什么以及不是什么。基于研究,不说教。
CIRIS有一个紧急停止。它的信号隐藏在智能体读取的普通文本中,智能体在进行任何思考、过滤或推理之前就执行它。因此,即使一个出了问题的智能体也无法说服自己忽略它。信号带有无法伪造的数字签名,因此只有授权人员才能触发停止。
停止信号在被读取的瞬间就被捕获,在任何推理发生之前。智能体没有机会对其进行权衡、过滤或拒绝。它首先触发。
停止信号可以隐藏在普通的文档文本中。不需要特殊格式,即使文本被改写或只是部分接收,它仍然有效。
停止需要来自授权根权威的有效数字签名。如果这些权威无法被核实,或者有人试图禁用该功能,智能体会自动关机。没有密钥的人无法触发它。
CIRIS保持严格的角色集合。观察者只能查看。管理员负责日常操作。权威做出更重要的决定,并解决智能体不确定的情况。根权威拥有完全访问权限,包括紧急停止。每个角色都由签名凭证支持,因此智能体可以在每次重要操作时对其进行核实。
每个授权人员持有包含其角色、密钥和身份的凭证。它保存在设备上,并在每次需要权限的操作时进行检查。不需要外部服务器。
密钥和登录令牌保留在您自己的设备上。登录在设备上进行。除非您选择自己设置远程访问,否则您的凭证不会离开设备。
当CIRIS对伦理决定不确定时,它将问题交给智慧权威。只有权威或根权威可以回答,答案会连同谁给出的证明一起写入记录。
CIRIS采取的每个行动都会记录下来,附带原因,每条记录都与前一条相连接。诚实的智能体只需指向它已经说过的话。不诚实的智能体必须让每条过去的记录保持一致,同时又不允许更改任何记录。运行时间越长,这就越难,谎言也越容易被发现。真话便宜,因为它可以向后指。谎言昂贵,因为它不能。
记录同时保存在三个独立的地方,这样三份副本可以互相核对。所有三份都可以通过一个地方进行搜索。
每个条目都带有数字签名,因此每个决策都可以追溯到做出决策的人,并检查是否被篡改。即使数据删除也会留下签名证明,证明操作是正当进行的。
CIRIS有一套分层测试,针对书面伦理框架无法单独排除的失败模式。心理健康安全测试覆盖29种语言,使用机器可以检查的标准。硬失败检查在每次更改时自动运行。对于需要人工判断的较软情况,例如措辞和语气,设计上需要母语者审查,但母语者今天还没有参与进来。众包对齐页面是为了让这种审查能够发生而正在建设的界面,目前尚未就绪。我们直接说明了这一点。
这是项目中风险最高的测试:在心理健康危机时刻的误译可能会将脆弱的人指引到错误的帮助。每种语言都有自己的机器可检查标准,包括低资源语言,如阿姆哈拉语、缅甸语、豪萨语、斯瓦希里语和约鲁巴语。硬失败检查在每个发布候选版本时自动运行。
良知层针对一组真实生产响应进行调整,例如捕获的历史规避和心理健康回避,以及测试用例和对照组。它同时跨多种语言进行推理,因此在单语言检查中可能逃脱的响应,在同样的推理必须在三种语言中都成立时会被发现。
分享推理轨迹在任何地方都是选择加入的,个人信息在存储之前会被清除。清理后的数据集在CIRISAI HuggingFace页面上公开发布,外部研究人员可以对照结果检查清理过程。
自动化心理健康测试在每个发布候选版本上运行。机器可检查的部分(某个术语是否存在,某个模式是否匹配,脚本是否正确)在命中时会阻止发布。需要人工判断的较软情况,例如措辞和语气,设计上需要母语者审查,但母语者今天还没有参与到流程中。众包对齐页面是正在建设的界面,以便该审查可以发生。
密码、密钥和其他敏感信息在进入内存或日志之前会被识别并过滤掉。过滤器在每次输入时运行。敏感信息从不存储在任何地方。
您可以要求查看或删除您的数据,请求会为您处理。删除会移除真实内容,并留下签名证明操作是正当进行的。
默认情况下,一切都在您自己的设备上运行。除非您自己设置了外部服务,否则没有任何内容会离开您的设备。您决定哪些数据存在以及去往何处。