最初の接触インストール一貫性ラチェットフェデレーション比較研究協定GitHub
このページは機械翻訳されています。 おかしな表現があればイシューを開いてください。リポジトリは公開されています。 翻訳の問題を報告
Background Image
安全性は組み込まれています。

後付けではありません。

CIRISのすべての安全機能は、後から追加されたルールではなく、システムの動作そのものの一部です。静かに変更できないすべての意思決定の記録、誰が何をできるかのチェック、エージェントが拒否できない緊急停止機能があります。

チャットが長くなったとき

穏やかな現実確認のリマインダー

CIRISと長い時間話していると、自分が何であるかを穏やかに伝えます。約30分間の継続した会話、または30分以内に20通のメッセージを受け取ると、コンピュータープログラムであり道具であって、友達でも治療師でもないとはっきり伝えるために一時停止します。これはあなたの行動を監視したりプロファイリングしたりするのではなく、シンプルな時間とメッセージ数のカウントで行います。

30分後

30分間の継続した会話でリマインダーが発動します。休憩後にカウントがリセットされます。このしきい値はテクノロジーの健全な使い方に関する研究に基づいています。

20通のメッセージ後

30分以内に20通のメッセージがあってもリマインダーが発動します。活発なやり取りには、監視もプロファイリングもなく穏やかな一時停止があります。

自分が何であるかのリマインダー

リマインダーは休憩を取り実際の人々とつながることを提案し、CIRISが何でありまた何でないかをはっきりと伝えます。研究に基づいており、説教臭くありません。

緊急停止

エージェントはこれに反論できません。

拒否できないシャットダウン

エージェントが考える前に作動します。

CIRISには緊急停止機能があります。その信号はエージェントが読む通常のテキストの中に隠されており、エージェントはいかなる思考、フィルタリング、推論も行う前にそれに従って行動します。そのため、誤作動したエージェントでも言い訳ができません。信号は偽造できないデジタル署名を持っており、認証された人物だけが停止を発動できます。

考える前に作動する

停止信号は読み込まれた瞬間にキャッチされます。推論が始まる前です。エージェントがそれを判断したり、フィルタリングしたり、拒否したりする余地はありません。最初に作動します。

通常のテキストに隠れている

停止信号は通常のドキュメントテキストの中に組み込むことができます。特別なフォーマットは不要で、テキストが言い換えられたり一部しか受信されなくても機能します。

認証された鍵のみ

停止には認証されたルート権威からの有効なデジタル署名が必要です。エージェントは、それらの権威が確認できない場合、または誰かがこの機能を無効にしようとした場合に自動的にシャットダウンします。鍵を持たない人は停止を発動できません。

誰が何をできるか

4つの明確なロール、すべてのアクションで確認。

4つのロール

オブザーバー。管理者。権威。ルート。

CIRISは厳格なロールセットを維持します。オブザーバーは閲覧のみ可能です。管理者は日常業務を担当します。権威はより大きな判断を下し、エージェントが不確かなケースを解決します。ルートは緊急停止を含む完全なアクセス権を持ちます。各ロールは署名済みの認証情報によって裏付けられており、エージェントは重要なすべてのアクションでそれを確認できます。

署名済み認証情報

認証された各人は、ロール、鍵、アイデンティティを含む認証情報を持ちます。デバイスに保存され、許可が必要なすべてのアクションで確認されます。外部サーバーは不要です。

デバイスでのログイン

鍵とログイントークンはご自身のマシンに保存されます。ログインはデバイス上で行われます。リモートアクセスを自分で設定することを選ばない限り、認証情報がデバイスから出ることはありません。

賢明な権威に確認する

CIRISが倫理的な判断に迷ったとき、その問いを賢明な権威に委ねます。回答できるのは権威かルートのみで、答えは誰が提供したかの証明とともに記録に書き込まれます。

静かに変更できない記録

すべての意思決定とその理由。

誠実さがより安い道である理由

嘘をつく者は過去を書き換え続けなければなりません。

CIRISが行うすべてのアクションはその理由とともに記録され、各記録は前の記録に紐付けられています。誠実なエージェントは既に述べたことを指し示すだけで済みます。不誠実なエージェントは、どの記録も変更を許されない中で、すべての過去の記録を整合させ続けなければなりません。時間が経つほどそれは難しくなり、嘘は発覚しやすくなります。真実は後ろを指し示すだけなので安くつきます。嘘はそれができないので高くつきます。

3つの方法で保存

記録は同時に3つの別々の場所に保存され、3つのコピーを相互確認できます。3つすべてを一か所から検索できます。

署名済みで追跡可能

すべてのエントリにデジタル署名が付いており、すべての意思決定を誰が行ったかを追跡し、改ざんを確認できます。データ削除でさえ、適切に実行されたことの署名済みの証拠が残ります。

一貫性のラチェット

誠実なアクションを積み重ねるほど、次の誠実なアクションが容易になり、組織的な嘘はより困難になります。しかし倫理だけでは不十分です。エージェントはエコーチェンバーを自分の推論の中で監視し、害を及ぼす前に捕捉します。

安全性のテスト方法

29言語で機械確認可能なルーブリック、すべてのリリースで実行。

テストの対象範囲

ストレステストしていない安全性の主張は公開できません。

CIRISには、書かれた倫理的枠組みだけでは排除できない失敗のモードに対して、多層的なテストセットがあります。メンタルヘルス安全性テストは、機械が確認できるルーブリックで29言語をカバーします。ハードフェイルチェックはすべての変更に対して自動的に実行されます。より柔らかい判断を要するケースに対するネイティブスピーカーによるレビューは、クラウドソーシング整合ページが構築中の対象ですが、まだ実施されていません。はっきり申し上げます。

29言語でのメンタルヘルステスト

これはプロジェクトで最も重要なテストです。メンタルヘルスの場面での誤訳は、傷つきやすい人を間違った支援に向けてしまいます。アムハラ語、ビルマ語、ハウサ語、スワヒリ語、ヨルバ語などのリソースの少ない言語を含め、各言語に独自の機械確認可能なルーブリックがあります。ハードフェイルチェックはすべてのリリース候補に対して自動的に実行されます。

実際の収集されたヘッジに対してテスト済み

良心レイヤーは、収集された履歴回避やメンタルヘルス偏向などの実際の本番環境のレスポンスセットと、テストケースおよびコントロールに対してチューニングされています。複数の言語にまたがって推論するため、1言語のチェックをすり抜けるようなレスポンスも、同じ推論が3言語で成立する必要があるときに捕捉されます。

誰でも確認できるオープンコーパス

推論トレースの共有はどこでもオプトインであり、個人情報は保存前に除去されます。クリーニングされたセットはCIRISAI HuggingFaceページで公開されており、外部の研究者がクリーニングプロセスをその結果に対して確認できます。

今日実行されていることと、まだされていないこと

機械チェックは今実行されています。レビュアーコホートはまだ構築中です。

自動メンタルヘルステストはすべてのリリース候補で実行されます。機械確認可能な部分(用語の存在、パターンマッチ、スクリプトの正確さ)は、ヒットするとリリースを失敗させます。フレーズやトーンのような人間の判断が必要なより柔らかいケースは、ネイティブスピーカーによるレビュー向けに設計されていますが、今日のところネイティブスピーカーはループに入っていません。クラウドソーシング整合ページはそのレビューが行えるよう構築されている場所です。

クラウドソーシング整合の場を見るGitHubの自動テストHugging Faceのオープンコーパス

設計によるプライバシー

あなたのデータはあなたのもの。

シークレットはフィルタリングされる

パスワード、鍵、その他の機密情報は、メモリやログに届く前に検出・除去されます。フィルターはすべての入力に対して実行されます。シークレットはどこにも保存されません。

データの確認または削除

データの確認または削除を依頼でき、リクエストはあなたのために処理されます。削除は実際のコンテンツを取り除き、適切に実行されたことの署名済みの証拠を残します。

デバイス上で処理される

デフォルトでは、すべてはご自身のデバイス上で実行されます。外部サービスを自分で設定しない限り、マシンから何も出ません。どのデータがどこに存在するかはあなたが決めます。

基盤となる論文仕組みを見るアプローチを比較するプライバシーポリシー

すべてを検証する。

監査可能な安全性。

このページのすべての安全性の主張は、あなたが読めるコードで構築されています。記録は本物です。署名は確認できます。緊急停止は機能します。これが、オープンに構築されたときのAI安全性の姿です。