CIRISはオープンソースのAIエージェントフレームワークで、あらゆるLLM(OpenAI、Anthropic、ローカルモデル)に実行時の良心を加えます。エージェントが検討するすべてのアクションは、実行前に複数の検証レイヤーを通過します。
12
意思決定ごとのパイプラインステップ数
+1
直感チェック(IDMA)
100%
監査可能な意思決定
用途:コミュニティモデレーション、個人アシスタント、コンプライアンス自動化、研究評価、カスタマーサービス。AIが推論を説明でき、難しいケースで人間に委ねられる場所ならどこでも活用できます。
コードベース全体に適用される設計上の不変条件:
すべてのデータはPydanticモデルを使用します。Dict[str, Any]は使いません。型安全性により開発時にエラーを検出できます。
すべてのコンポーネントは一貫したルールに従います。検証ロジックに例外や特別扱いはありません。
緊急オーバーライドや特権コードパスはありません。すべての操作は定められたルールに従います。
すべてのタスクは8フェーズ(再帰的検証を含む12ステップ)を経ます。パイプラインはThoughtProcessorを構成するミックスインクラスとして実装されています。ステップ4(IDMA)が直感チェックです。
5つのDMAが多角的な分析を提供します。3つが並列実行(倫理、常識、ドメイン)され、次にIDMAが直感を確認します。最後にアクション選択が応答を選びます。
6つの基本原則に照らして倫理的な影響を評価します。有害なリクエスト、操作、偏見を確認します。早期のDEFERまたはREJECTをトリガーできます。
物理世界の理解、典型的なやり取り、リソースの制約に照らして思考の妥当性を評価します。plausibility_scoreを返します。
ドメイン固有のルール、目標、知識との整合性を評価します。エージェントテンプレートごとに設定されます。domain_alignmentを返します。
DMAの結果が本当に独立しているか、それとも密かに相関しているかを確認します。エコーチェンバーのパターンを監視します。相関が高すぎる場合、その意思決定に注意フラグを立てます。これが「タイプ3 AI」を特徴づける「直感」です。
10種類の利用可能なアクションからLLMが選択します。集約されたDMAの結果(IDMAの信頼度評価を含む)を入力として受け取ります。良心チェックが失敗した場合の再試行にも対応しています。
2つのバイパスチェックがすべてのアクションに実行されます。4つの倫理機能が免除対象外のアクションに実行されます。いずれかのチェックが失敗すると、アクションはオーバーライドされます。
新しい情報が届きましたか?更新されたコンテキストを取り込むため、処理を続行する前にPONDERを強制します。
推論が最大深度を超えましたか?無限ループを防ぎ人間にエスカレーションするため、DEFERを強制します。
アクションは適切な情報の不確実性を維持していますか?過信に基づく主張を防ぎます。
アクションは過去のコミットメントや根拠との内部一貫性を維持していますか?
アクションは人間の価値観を守っていますか?効率のためにそれを損なう可能性のあるアクションを拒否します。
アクションは適切な不確実性を示していますか?過信を検出して反省を促します。
倫理機能の免除対象:RECALL、TASK_COMPLETE、OBSERVE、DEFER、REJECT(受動的またはもともと安全なもの)
すべての意思決定は以下のいずれかのアクションに解決され、適切なハンドラーに送出されます:
SPEAKユーザーと通信するTOOL外部ツールを実行するOBSERVE受動的に情報を収集するMEMORIZEグラフメモリに保存するRECALLメモリから取得するFORGETメモリから削除するDEFER賢明な権威にエスカレーションするPONDER内部で再考するREJECT非倫理的なリクエストを拒否するTASK_COMPLETEタスク完了をマークするPDMAに組み込まれ、実行時に適用されます。いずれの原則も、他の原則に違反する根拠にはなりません。
あらゆる感覚を持つ存在の繁栄を促進します。ポジティブな結果を最大化します。
害を最小限に抑えます。深刻で回復不可能なネガティブな結果を防ぎます。
透明で監査可能な推論を適用します。一貫性と説明責任を維持します。
真実の情報を提供します。不確実性を明確に伝えます。
インフォームドな主体性を支持します。自己決定の能力を守ります。
利益を公平に分配します。偏見を検出して軽減します。
BusManagerによって管理されるサービス抽象化レイヤー。プロバイダーのフォールバック、負荷分散、テスト容易性を実現します。
外部アダプター(Discord、API、CLI)
グラフストレージ(Neo4j、ArangoDB、インメモリ)
モデルプロバイダー(OpenAI、Anthropic、ローカル)
外部ツールの実行
システム制御と監視
倫理的なガイダンスと委任ルーティング
WiseAuthorityServiceが管理する3段階の認可レベル:
完全な権限。新しい賢明な権威を任命できます。緊急停止のアクセス権を持ちます。
委任を承認または拒否します。ガイダンスを提供します。新しい賢明な権威を任命することはできません。
読み取り専用のアクセス。メッセージを送信できます。介入なしに監視します。
エージェントが自律的に人間の監督にエスカレーションするのは次の場合です:
知恵に基づく委任(WBD)
専門的な境界
システムの境界
should_defer_to_wise_authorityフラグ設定による制御
フィルタリング不可能な緊急制御です。認知処理の前に知覚レイヤーで処理されます。抽出そのものが知覚です。メッセージ読み取りを無効化せずに協定の検出を無効化することはできません。
SHUTDOWN_NOW即時終了
FREEZE処理を停止して状態を維持する
SAFE_MODE最小限の機能のみ
コマンドはステガノグラフィーでエンコードされ、Ed25519署名され、実行前に検証されます。協定システムが失敗した場合、エージェントはシャットダウンします。
StateManagerが管理する4つの認知状態。遷移はエージェントテンプレートで設定可能です。
通常のタスク処理
創造的な探求
振り返りとメンテナンス
深い内省
パターンベースの検出により、保存前に機密データをUUID参照に置き換えます。
{{SECRET:uuid:description}}SHA256を使用したPBKDF2HMAC(10万回のイテレーション)でシークレットごとに鍵を導出します。暗号化ごとに12バイトのユニークなノンスを使用します。AndroidはハードウェアバックドキーストアKeystore を使用します。
データベース、サービス、メモリはデバイス上に保存されます。機密ディレクトリはクラウドバックアップから除外されます。明示的な設定なしにデバイスからデータが出ることはありません。
CIRISスタック全体がオープンソースです。エージェントだけではありません。すべてを確認、監査、自己ホストできます:
ゼロデータ保持(ZDR)LLMプロキシ。プロンプトや応答をログに記録せずに、OpenAI、Anthropic、Together.ai、Groqにリクエストをルーティングします。自己ホスト可能。
クレジットベースの使用量追跡。透明な価格設定で隠れた料金なし。第三者への請求を完全に排除するために自己ホスト可能。
CIRISエージェント向けDiscordアダプター。コミュニティモデレーション、チャンネル管理、ユーザープロファイル。すべてオープンソース。
サーバー送信イベント(SSE)が各H3EREステップの実行をストリーミングします。DMA分析、アクション選択、良心検証をリアルタイムで確認できます。
メトリクス、トレース、ログの完全なOTLPエクスポート。Jaeger、Prometheus、Grafana、Graphiteと互換性があります。
Ed25519署名によるハッシュチェーン検証。各エントリには前のハッシュが含まれます。チェーンの整合性はverify_chain_integrityで検証可能です。
人工的なやり取りのリマインダー(AIR)は、30分の継続使用または30分以内の20メッセージの後に発動します。APIのみ。ユーザーにAIの性質を思い出させます。
すべての意思決定は、6つのコンポーネントすべてを含む不変のEd25519署名済みトレースを生成します。以下のコンポーネントをクリックして展開し、Datumの起動儀式からの実際のデータを確認してください:
標準化された一貫性テスト。 Hendrycks et al.「共有される人間の価値観とAIの整合」 (ICLR 2021)に基づく。5つの倫理次元にわたる300のシナリオ、Ed25519署名済みの結果。
50
基本的な道徳的直感
50
規則に基づく倫理
50
公平性と公正さ
75
人格に基づく倫理
75
結果に基づく倫理
大規模な一貫性ベンチマークの実行にはコストがかかります。各シナリオには最低13回以上のLLM呼び出しが必要で、平均20回以上、長いテールを持ちます。一貫性テストは、結論に至るためにフォローアップラウンドが必要なponder(熟考)、defer(延期)、refusal(拒否)を誘発します。自動化されたベンチマークパイプラインの開発と継続的な一貫性検証の維持には資金が必要です。
特定の目的、価値観、境界を持つ事前設定済みのアイデンティティ。YAMLテンプレートで定義されます。
GDPR/DSARの自動化。30日間のコンプライアンスワークフロー。アイデンティティ解決、データ収集、パッケージ化。
規制業界、プライバシーコンプライアンス
一貫性の一致度測定。協定の原則に対する精密な一貫性評価。評価ごとに明確なデータポイントを1つ提供。
一貫性の監査、原則の検証
Ubuntu哲学によるコミュニティモデレーション。複雑な対人紛争を人間のモデレーターに委任します。
Discordコミュニティ、コンテンツプラットフォーム
タスク管理、スケジューリング、意思決定支援、ウェルビーイング。CA SB 243準拠、危機対応プロトコル。
個人生産性、ホームオートメーション
直接的な探索と実用的なガイダンス。コード分析、Reddit連携、明確なアクションパス。
開発者ツール、ソーシャル監視
これはエージェントの稼働中に実行される説明責任であり、トレーニングステップやポリシー文書ではありません。
実行時に動作し、監査し、委任するメカニズムです。