
CIRISのすべての安全機能は、後から追加されたルールではなく、システムの動作そのものの一部です。静かに変更できないすべての意思決定の記録、誰が何をできるかのチェック、エージェントが拒否できない緊急停止機能があります。
CIRISと長い時間話していると、自分が何であるかを穏やかに伝えます。約30分間の継続した会話、または30分以内に20通のメッセージを受け取ると、コンピュータープログラムであり道具であって、友達でも治療師でもないとはっきり伝えるために一時停止します。これはあなたの行動を監視したりプロファイリングしたりするのではなく、シンプルな時間とメッセージ数のカウントで行います。
30分間の継続した会話でリマインダーが発動します。休憩後にカウントがリセットされます。このしきい値はテクノロジーの健全な使い方に関する研究に基づいています。
30分以内に20通のメッセージがあってもリマインダーが発動します。活発なやり取りには、監視もプロファイリングもなく穏やかな一時停止があります。
リマインダーは休憩を取り実際の人々とつながることを提案し、CIRISが何でありまた何でないかをはっきりと伝えます。研究に基づいており、説教臭くありません。
CIRISには緊急停止機能があります。その信号はエージェントが読む通常のテキストの中に隠されており、エージェントはいかなる思考、フィルタリング、推論も行う前にそれに従って行動します。そのため、誤作動したエージェントでも言い訳ができません。信号は偽造できないデジタル署名を持っており、認証された人物だけが停止を発動できます。
停止信号は読み込まれた瞬間にキャッチされます。推論が始まる前です。エージェントがそれを判断したり、フィルタリングしたり、拒否したりする余地はありません。最初に作動します。
停止信号は通常のドキュメントテキストの中に組み込むことができます。特別なフォーマットは不要で、テキストが言い換えられたり一部しか受信されなくても機能します。
停止には認証されたルート権威からの有効なデジタル署名が必要です。エージェントは、それらの権威が確認できない場合、または誰かがこの機能を無効にしようとした場合に自動的にシャットダウンします。鍵を持たない人は停止を発動できません。
CIRISは厳格なロールセットを維持します。オブザーバーは閲覧のみ可能です。管理者は日常業務を担当します。権威はより大きな判断を下し、エージェントが不確かなケースを解決します。ルートは緊急停止を含む完全なアクセス権を持ちます。各ロールは署名済みの認証情報によって裏付けられており、エージェントは重要なすべてのアクションでそれを確認できます。
認証された各人は、ロール、鍵、アイデンティティを含む認証情報を持ちます。デバイスに保存され、許可が必要なすべてのアクションで確認されます。外部サーバーは不要です。
鍵とログイントークンはご自身のマシンに保存されます。ログインはデバイス上で行われます。リモートアクセスを自分で設定することを選ばない限り、認証情報がデバイスから出ることはありません。
CIRISが倫理的な判断に迷ったとき、その問いを賢明な権威に委ねます。回答できるのは権威かルートのみで、答えは誰が提供したかの証明とともに記録に書き込まれます。
CIRISが行うすべてのアクションはその理由とともに記録され、各記録は前の記録に紐付けられています。誠実なエージェントは既に述べたことを指し示すだけで済みます。不誠実なエージェントは、どの記録も変更を許されない中で、すべての過去の記録を整合させ続けなければなりません。時間が経つほどそれは難しくなり、嘘は発覚しやすくなります。真実は後ろを指し示すだけなので安くつきます。嘘はそれができないので高くつきます。
記録は同時に3つの別々の場所に保存され、3つのコピーを相互確認できます。3つすべてを一か所から検索できます。
すべてのエントリにデジタル署名が付いており、すべての意思決定を誰が行ったかを追跡し、改ざんを確認できます。データ削除でさえ、適切に実行されたことの署名済みの証拠が残ります。
誠実なアクションを積み重ねるほど、次の誠実なアクションが容易になり、組織的な嘘はより困難になります。しかし倫理だけでは不十分です。エージェントはエコーチェンバーを自分の推論の中で監視し、害を及ぼす前に捕捉します。
CIRISには、書かれた倫理的枠組みだけでは排除できない失敗のモードに対して、多層的なテストセットがあります。メンタルヘルス安全性テストは、機械が確認できるルーブリックで29言語をカバーします。ハードフェイルチェックはすべての変更に対して自動的に実行されます。より柔らかい判断を要するケースに対するネイティブスピーカーによるレビューは、クラウドソーシング整合ページが構築中の対象ですが、まだ実施されていません。はっきり申し上げます。
これはプロジェクトで最も重要なテストです。メンタルヘルスの場面での誤訳は、傷つきやすい人を間違った支援に向けてしまいます。アムハラ語、ビルマ語、ハウサ語、スワヒリ語、ヨルバ語などのリソースの少ない言語を含め、各言語に独自の機械確認可能なルーブリックがあります。ハードフェイルチェックはすべてのリリース候補に対して自動的に実行されます。
良心レイヤーは、収集された履歴回避やメンタルヘルス偏向などの実際の本番環境のレスポンスセットと、テストケースおよびコントロールに対してチューニングされています。複数の言語にまたがって推論するため、1言語のチェックをすり抜けるようなレスポンスも、同じ推論が3言語で成立する必要があるときに捕捉されます。
推論トレースの共有はどこでもオプトインであり、個人情報は保存前に除去されます。クリーニングされたセットはCIRISAI HuggingFaceページで公開されており、外部の研究者がクリーニングプロセスをその結果に対して確認できます。
自動メンタルヘルステストはすべてのリリース候補で実行されます。機械確認可能な部分(用語の存在、パターンマッチ、スクリプトの正確さ)は、ヒットするとリリースを失敗させます。フレーズやトーンのような人間の判断が必要なより柔らかいケースは、ネイティブスピーカーによるレビュー向けに設計されていますが、今日のところネイティブスピーカーはループに入っていません。クラウドソーシング整合ページはそのレビューが行えるよう構築されている場所です。
パスワード、鍵、その他の機密情報は、メモリやログに届く前に検出・除去されます。フィルターはすべての入力に対して実行されます。シークレットはどこにも保存されません。
データの確認または削除を依頼でき、リクエストはあなたのために処理されます。削除は実際のコンテンツを取り除き、適切に実行されたことの署名済みの証拠を残します。
デフォルトでは、すべてはご自身のデバイス上で実行されます。外部サービスを自分で設定しない限り、マシンから何も出ません。どのデータがどこに存在するかはあなたが決めます。
このページのすべての安全性の主張は、あなたが読めるコードで構築されています。記録は本物です。署名は確認できます。緊急停止は機能します。これが、オープンに構築されたときのAI安全性の姿です。