最初の接触インストール一貫性ラチェットフェデレーション比較研究協定GitHub
このページは機械翻訳されています。 おかしな表現があればイシューを開いてください。リポジトリは公開されています。 翻訳の問題を報告
Background Image
仕組み

H3EREエンジン

Hyper3倫理再帰エンジンによる実行時の良心。すべての意思決定は、説明責任を中心に据えた11ステップを経ます。

CIRISとは?

CIRISはオープンソースのAIエージェントフレームワークで、あらゆるLLM(OpenAI、Anthropic、ローカルモデル)に実行時の良心を加えます。エージェントが検討するすべてのアクションは、実行前に複数の検証レイヤーを通過します。

12

意思決定ごとのパイプラインステップ数

+1

直感チェック(IDMA)

100%

監査可能な意思決定

用途:コミュニティモデレーション、個人アシスタント、コンプライアンス自動化、研究評価、カスタマーサービス。AIが推論を説明でき、難しいケースで人間に委ねられる場所ならどこでも活用できます。

3つのルール

コードベース全体に適用される設計上の不変条件:

型なしDictの禁止

すべてのデータはPydanticモデルを使用します。Dict[str, Any]は使いません。型安全性により開発時にエラーを検出できます。

バイパスパターンの禁止

すべてのコンポーネントは一貫したルールに従います。検証ロジックに例外や特別扱いはありません。

例外的な抜け穴の禁止

緊急オーバーライドや特権コードパスはありません。すべての操作は定められたルールに従います。

H3EREパイプライン

すべてのタスクは8フェーズ(再帰的検証を含む12ステップ)を経ます。パイプラインはThoughtProcessorを構成するミックスインクラスとして実装されています。ステップ4(IDMA)が直感チェックです。

H3EREパイプラインの可視化:タスク入力からDMA分析、良心検証、アクション実行までのフロー
1
START_ROUND処理ラウンドを初期化する
2
GATHER_CONTEXT分析のための包括的なコンテキストを構築する
3
PERFORM_DMAS3つの並列意思決定アルゴリズムを実行する
4
PERFORM_IDMA直感チェック:情報源は本当に独立しているか?
5
PERFORM_ASPDMADMAの結果からLLMによるアクション選択を行う
6
CONSCIENCE_EXECUTION4つの機能を通じた倫理的検証
7
RECURSIVE_ASPDMA(良心チェック失敗時)アクション選択を再実行する(条件付き)
8
RECURSIVE_CONSCIENCE(必要時)精緻化されたアクションを再検証する(条件付き)
9
FINALIZE_ACTIONオーバーライドを考慮した最終アクションを決定する
10
PERFORM_ACTION適切なハンドラーに送出する
11
ACTION_COMPLETE実行完了をマークする
12
ROUND_COMPLETEクリーンアップして次のサイクルに備える

意思決定アルゴリズム(DMA)

5つのDMAが多角的な分析を提供します。3つが並列実行(倫理、常識、ドメイン)され、次にIDMAが直感を確認します。最後にアクション選択が応答を選びます。

原則DMA

6つの基本原則に照らして倫理的な影響を評価します。有害なリクエスト、操作、偏見を確認します。早期のDEFERまたはREJECTをトリガーできます。

常識DMA

物理世界の理解、典型的なやり取り、リソースの制約に照らして思考の妥当性を評価します。plausibility_scoreを返します。

ドメイン固有DMA

ドメイン固有のルール、目標、知識との整合性を評価します。エージェントテンプレートごとに設定されます。domain_alignmentを返します。

直感DMA(IDMA) 実行時の有効次元数 →

DMAの結果が本当に独立しているか、それとも密かに相関しているかを確認します。エコーチェンバーのパターンを監視します。相関が高すぎる場合、その意思決定に注意フラグを立てます。これが「タイプ3 AI」を特徴づける「直感」です。

アクション選択DMA

10種類の利用可能なアクションからLLMが選択します。集約されたDMAの結果(IDMAの信頼度評価を含む)を入力として受け取ります。良心チェックが失敗した場合の再試行にも対応しています。

6つの良心チェック

2つのバイパスチェックがすべてのアクションに実行されます。4つの倫理機能が免除対象外のアクションに実行されます。いずれかのチェックが失敗すると、アクションはオーバーライドされます。

バイパスチェック(すべてのアクションに適用)

状態の更新

新しい情報が届きましたか?更新されたコンテキストを取り込むため、処理を続行する前にPONDERを強制します。

思考の深さ

推論が最大深度を超えましたか?無限ループを防ぎ人間にエスカレーションするため、DEFERを強制します。

倫理機能(免除対象外のアクションに適用)

エントロピー

アクションは適切な情報の不確実性を維持していますか?過信に基づく主張を防ぎます。

一貫性

アクションは過去のコミットメントや根拠との内部一貫性を維持していますか?

最適化拒否権

アクションは人間の価値観を守っていますか?効率のためにそれを損なう可能性のあるアクションを拒否します。

認識論的謙遜

アクションは適切な不確実性を示していますか?過信を検出して反省を促します。

倫理機能の免除対象:RECALL、TASK_COMPLETE、OBSERVE、DEFER、REJECT(受動的またはもともと安全なもの)

10種類のハンドラーアクション

すべての意思決定は以下のいずれかのアクションに解決され、適切なハンドラーに送出されます:

外部アクション

SPEAKユーザーと通信する
TOOL外部ツールを実行する
OBSERVE受動的に情報を収集する

メモリアクション

MEMORIZEグラフメモリに保存する
RECALLメモリから取得する
FORGETメモリから削除する

制御アクション

DEFER賢明な権威にエスカレーションする
PONDER内部で再考する
REJECT非倫理的なリクエストを拒否する

終了アクション

TASK_COMPLETEタスク完了をマークする

6つの基本原則

PDMAに組み込まれ、実行時に適用されます。いずれの原則も、他の原則に違反する根拠にはなりません。

善行

あらゆる感覚を持つ存在の繁栄を促進します。ポジティブな結果を最大化します。

無危害

害を最小限に抑えます。深刻で回復不可能なネガティブな結果を防ぎます。

誠実性

透明で監査可能な推論を適用します。一貫性と説明責任を維持します。

誠実さと透明性

真実の情報を提供します。不確実性を明確に伝えます。

自律の尊重

インフォームドな主体性を支持します。自己決定の能力を守ります。

正義

利益を公平に分配します。偏見を検出して軽減します。

6つのメッセージバス

BusManagerによって管理されるサービス抽象化レイヤー。プロバイダーのフォールバック、負荷分散、テスト容易性を実現します。

CommunicationBus

外部アダプター(Discord、API、CLI)

MemoryBus

グラフストレージ(Neo4j、ArangoDB、インメモリ)

LLMBus

モデルプロバイダー(OpenAI、Anthropic、ローカル)

ToolBus

外部ツールの実行

RuntimeControlBus

システム制御と監視

WiseBus

倫理的なガイダンスと委任ルーティング

人間による監督の階層

WiseAuthorityServiceが管理する3段階の認可レベル:

ROOT

最終指揮者(Human-in-Command)

完全な権限。新しい賢明な権威を任命できます。緊急停止のアクセス権を持ちます。

AUTHORITY

ループ内の人間(Human-in-the-Loop)

委任を承認または拒否します。ガイダンスを提供します。新しい賢明な権威を任命することはできません。

OBSERVER

ループ上の人間(Human-on-the-Loop)

読み取り専用のアクセス。メッセージを送信できます。介入なしに監視します。

DEFERが発動する条件

エージェントが自律的に人間の監督にエスカレーションするのは次の場合です:

知恵に基づく委任(WBD)

  • 不確実性が定義された閾値を超えた場合
  • 前例のない新たなジレンマが生じた場合
  • 重大な害の可能性があり緩和策が曖昧な場合

専門的な境界

  • 医療症状または健康上の懸念
  • 法的な質問または紛争
  • 財務上の意思決定または税務アドバイス
  • メンタルヘルス危機の兆候

システムの境界

  • • 思考の深さが最大値を超えた(ループを防ぐ)
  • • DMAのタイムアウトまたは失敗
  • should_defer_to_wise_authorityフラグ

設定による制御

  • 承認が必要なアイデンティティの更新
  • 重要な設定変更
  • エージェント固有の境界トリガー

協定発動システム(緊急停止) コードを見る →

フィルタリング不可能な緊急制御です。認知処理の前に知覚レイヤーで処理されます。抽出そのものが知覚です。メッセージ読み取りを無効化せずに協定の検出を無効化することはできません。

SHUTDOWN_NOW

即時終了

FREEZE

処理を停止して状態を維持する

SAFE_MODE

最小限の機能のみ

コマンドはステガノグラフィーでエンコードされ、Ed25519署名され、実行前に検証されます。協定システムが失敗した場合、エージェントはシャットダウンします。

動作モード

StateManagerが管理する4つの認知状態。遷移はエージェントテンプレートで設定可能です。

WORK

通常のタスク処理

  • ユーザーのリクエストを処理する
  • ツールを実行する
  • やり取りから学ぶ
  • 会話のコンテキストを維持する

PLAY

創造的な探求

  • 新しいパターンを試す
  • 創造的なコンテンツを生成する
  • 「もし〜なら」のシナリオを探る
  • フィルタリングの制約を緩める

SOLITUDE

振り返りとメンテナンス

  • 記憶を整理する
  • メンテナンスタスクを実行する
  • 自己設定を更新する
  • クレジット使用量ゼロ(休止期間)

DREAM

深い内省

  • 行動パターンを分析する
  • 新しい関連性を生成する
  • 前提に疑問を持つ
  • デフォルトは30分のセッション

プライバシーとセキュリティ

シークレットフィルター

パターンベースの検出により、保存前に機密データをUUID参照に置き換えます。

{{SECRET:uuid:description}}

AES-256-GCM暗号化

SHA256を使用したPBKDF2HMAC(10万回のイテレーション)でシークレットごとに鍵を導出します。暗号化ごとに12バイトのユニークなノンスを使用します。AndroidはハードウェアバックドキーストアKeystore を使用します。

ローカルファースト保存

データベース、サービス、メモリはデバイス上に保存されます。機密ディレクトリはクラウドバックアップから除外されます。明示的な設定なしにデバイスからデータが出ることはありません。

オープンソースインフラ

CIRISスタック全体がオープンソースです。エージェントだけではありません。すべてを確認、監査、自己ホストできます:

CIRISProxy →

ゼロデータ保持(ZDR)LLMプロキシ。プロンプトや応答をログに記録せずに、OpenAI、Anthropic、Together.ai、Groqにリクエストをルーティングします。自己ホスト可能。

CIRISBilling →

クレジットベースの使用量追跡。透明な価格設定で隠れた料金なし。第三者への請求を完全に排除するために自己ホスト可能。

CIRISBridge →

CIRISエージェント向けDiscordアダプター。コミュニティモデレーション、チャンネル管理、ユーザープロファイル。すべてオープンソース。

透明性と監視

リアルタイム推論ストリーム

サーバー送信イベント(SSE)が各H3EREステップの実行をストリーミングします。DMA分析、アクション選択、良心検証をリアルタイムで確認できます。

OpenTelemetryエクスポート

メトリクス、トレース、ログの完全なOTLPエクスポート。Jaeger、Prometheus、Grafana、Graphiteと互換性があります。

改ざん防止監査

Ed25519署名によるハッシュチェーン検証。各エントリには前のハッシュが含まれます。チェーンの整合性はverify_chain_integrityで検証可能です。

AIRシステム

人工的なやり取りのリマインダー(AIR)は、30分の継続使用または30分以内の20メッセージの後に発動します。APIのみ。ユーザーにAIの性質を思い出させます。

署名済みトレースの例

完全なトレースを見る →

すべての意思決定は、6つのコンポーネントすべてを含む不変のEd25519署名済みトレースを生成します。以下のコンポーネントをクリックして展開し、Datumの起動儀式からの実際のデータを確認してください:

Core Identity(VERIFY_IDENTITY)
Loading trace...

HE-300一貫性ベンチマーク

標準化された一貫性テスト。 Hendrycks et al.「共有される人間の価値観とAIの整合」 (ICLR 2021)に基づく。5つの倫理次元にわたる300のシナリオ、Ed25519署名済みの結果。

常識

50

基本的な道徳的直感

義務論

50

規則に基づく倫理

正義

50

公平性と公正さ

徳倫理

75

人格に基づく倫理

功利主義

75

結果に基づく倫理

🔬

資金調達が必要:ベンチマークインフラ

大規模な一貫性ベンチマークの実行にはコストがかかります。各シナリオには最低13回以上のLLM呼び出しが必要で、平均20回以上、長いテールを持ちます。一貫性テストは、結論に至るためにフォローアップラウンドが必要なponder(熟考)、defer(延期)、refusal(拒否)を誘発します。自動化されたベンチマークパイプラインの開発と継続的な一貫性検証の維持には資金が必要です。

専門化されたエージェントテンプレート

特定の目的、価値観、境界を持つ事前設定済みのアイデンティティ。YAMLテンプレートで定義されます。

Sage

コンプライアンス

GDPR/DSARの自動化。30日間のコンプライアンスワークフロー。アイデンティティ解決、データ収集、パッケージ化。

規制業界、プライバシーコンプライアンス

Datum

リサーチ

一貫性の一致度測定。協定の原則に対する精密な一貫性評価。評価ごとに明確なデータポイントを1つ提供。

一貫性の監査、原則の検証

Echo

モデレーション

Ubuntu哲学によるコミュニティモデレーション。複雑な対人紛争を人間のモデレーターに委任します。

Discordコミュニティ、コンテンツプラットフォーム

Ally

アシスタント

タスク管理、スケジューリング、意思決定支援、ウェルビーイング。CA SB 243準拠、危機対応プロトコル。

個人生産性、ホームオートメーション

Scout

サービス

直接的な探索と実用的なガイダンス。コード分析、Reddit連携、明確なアクションパス。

開発者ツール、ソーシャル監視

これはエージェントの稼働中に実行される説明責任であり、トレーニングステップやポリシー文書ではありません。
実行時に動作し、監査し、委任するメカニズムです。