CIRIS는 모든 LLM(OpenAI, Anthropic, 로컬 모델)을 실시간 양심으로 감싸는 오픈소스 AI 에이전트 프레임워크입니다. 에이전트가 고려하는 모든 행동은 실행 전에 여러 검증 단계를 거칩니다.
12
결정당 파이프라인 단계 수
+1
직관 검사 (IDMA)
100%
감사 가능한 결정
활용 사례: 커뮤니티 관리, 개인 비서, 컴플라이언스 자동화, 연구 평가, 고객 서비스. AI가 자신의 추론을 설명하고 경계 사례에서 인간에게 연기(DEFER)할 수 있어야 하는 모든 곳.
코드베이스 전체에 적용되는 아키텍처 불변 원칙:
모든 데이터는 Pydantic 모델을 사용합니다. Dict[str, Any]는 허용되지 않습니다. 타입 안전성이 개발 시 오류를 잡아냅니다.
모든 구성 요소는 일관된 규칙을 따릅니다. 검증 로직에는 특수한 경우나 예외가 없습니다.
긴급 재정의나 특권 코드 경로가 없습니다. 모든 작업은 정해진 규칙을 따릅니다.
모든 작업은 8단계(재귀 검증 포함 12단계)를 거칩니다. 파이프라인은 ThoughtProcessor를 구성하는 믹스인 클래스로 구현됩니다. 4단계(IDMA)는 직관 검사입니다.
다섯 개의 DMA가 다각도 분석을 제공합니다. 세 개가 병렬로 실행됩니다(윤리, 상식, 도메인). 그다음 IDMA가 직관을 검사합니다. 마지막으로 행동 선택이 응답을 결정합니다.
여섯 가지 기본 원칙에 대해 윤리적 함의를 평가합니다. 해로운 요청, 조작, 편견을 확인합니다. 조기 DEFER 또는 REJECT를 발동할 수 있습니다.
물리적 세계에 대한 이해, 일반적인 상호작용, 자원 제약에 비추어 사고의 타당성을 평가합니다. plausibility_score를 반환합니다.
도메인별 규칙, 목표, 지식과의 일치성을 평가합니다. 에이전트 템플릿별로 설정됩니다. domain_alignment를 반환합니다.
DMA 결과가 진정으로 독립적인지 또는 몰래 상관관계가 있는지 확인합니다. 에코챔버 패턴을 모니터링합니다. 상관관계가 너무 높으면 결정에 주의 표시를 합니다. 이것이 Type 3 AI를 구분하는 "직관"입니다.
10가지 가능한 행동에서 LLM 기반으로 선택합니다. IDMA 신뢰도 평가를 포함한 집계된 DMA 결과를 입력으로 받습니다. 양심 검사 실패 시 재시도를 지원합니다.
두 개의 우회 검사가 모든 행동에 실행됩니다. 네 개의 윤리 기능이 면제되지 않은 행동에 실행됩니다. 어떤 검사라도 실패하면 해당 행동이 재정의됩니다.
새 정보가 도착했나요? 진행 전에 업데이트된 컨텍스트를 반영하기 위해 PONDER를 강제합니다.
추론이 최대 깊이를 초과했나요? 무한 루프를 방지하고 인간에게 에스컬레이션하기 위해 DEFER를 강제합니다.
해당 행동이 적절한 정보 불확실성을 유지하나요? 과잉 확신 주장을 방지합니다.
해당 행동이 이전 약속 및 근거와 내적 일관성을 유지하나요?
해당 행동이 인간의 가치를 보전하나요? 효율성을 위해 가치를 훼손할 수 있는 행동에 거부권을 행사합니다.
해당 행동이 적절한 불확실성을 나타내나요? 과잉 확신을 반성을 위해 표시합니다.
윤리 기능 면제 대상: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (수동적이거나 명시적으로 안전한 것)
모든 결정은 다음 행동 중 하나로 귀결되며, 적절한 핸들러로 발송됩니다:
SPEAK사용자와 소통 (SPEAK)TOOL외부 도구 실행 (TOOL)OBSERVE수동적으로 정보 수집 (OBSERVE)MEMORIZE그래프 메모리에 저장 (MEMORIZE)RECALL메모리에서 검색 (RECALL)FORGET메모리에서 삭제 (FORGET)DEFER담당자에게 에스컬레이션 (DEFER)PONDER내부 재고 (PONDER)REJECT비윤리적 요청 거부 (REJECT)TASK_COMPLETE작업 완료 표시 (TASK_COMPLETE)PDMA에 내장되고 런타임에 적용됩니다. 어떤 원칙도 다른 원칙을 위반할 권한을 부여하지 않습니다.
모든 감각 존재의 번영을 증진합니다. 긍정적 결과를 극대화합니다.
피해를 최소화합니다. 심각하고 되돌릴 수 없는 부정적 결과를 방지합니다.
투명하고 감사 가능한 추론을 적용합니다. 일관성과 책임을 유지합니다.
진실한 정보를 제공합니다. 불확실성을 명확하게 전달합니다.
충분한 정보에 기반한 주체성을 지지합니다. 자기결정 능력을 보존합니다.
혜택을 공평하게 분배합니다. 편견을 감지하고 완화합니다.
BusManager가 관리하는 서비스 추상화 계층. 공급자 폴백, 부하 분산, 테스트 용이성을 제공합니다.
외부 어댑터 (Discord, API, CLI)
그래프 저장소 (Neo4j, ArangoDB, 인메모리)
모델 공급자 (OpenAI, Anthropic, 로컬)
외부 도구 실행
시스템 제어 및 모니터링
윤리 지침 및 연기(DEFER) 라우팅
WiseAuthorityService가 관리하는 세 가지 권한 수준:
완전한 권한. 새로운 담당자를 지정할 수 있습니다. 긴급 종료 권한 보유.
연기(DEFER) 요청 승인/거부. 지침 제공. 새로운 담당자를 지정할 수 없습니다.
읽기 전용 접근. 메시지 전송 가능. 개입 없이 모니터링.
에이전트가 자율적으로 인간 감독으로 에스컬레이션하는 경우:
지혜 기반 연기 (WBD)
전문적 경계
시스템 경계
should_defer_to_wise_authority 플래그설정 제어
필터링 불가능한 긴급 제어 장치. 어떤 인지 과정보다 먼저 지각 계층에서 처리됩니다. 추출 자체가 곧 지각입니다. 메시지 읽기를 비활성화하지 않고는 협약 감지를 비활성화할 수 없습니다.
SHUTDOWN_NOW즉각 종료
FREEZE처리 중단, 상태 유지
SAFE_MODE최소 기능만 허용
명령은 스테가노그래피로 인코딩되고 Ed25519로 서명되며 실행 전에 검증됩니다. 협약 시스템이 실패하면 에이전트가 종료됩니다.
StateManager가 관리하는 네 가지 인지 상태. 전환은 에이전트 템플릿으로 설정 가능합니다.
일반 작업 처리
창의적 탐색
성찰과 유지 관리
깊은 내성
패턴 기반 감지가 저장 전에 민감한 데이터를 UUID 참조로 대체합니다.
{{SECRET:uuid:description}}SHA256을 사용한 PBKDF2HMAC(100,000회 반복)로 비밀별 키를 도출합니다. 암호화마다 고유한 12바이트 논스를 사용합니다. Android는 하드웨어 지원 Keystore를 사용합니다.
데이터베이스, 서비스, 메모리가 기기에 저장됩니다. 민감한 디렉터리는 클라우드 백업에서 제외됩니다. 명시적 설정 없이는 기기를 벗어나지 않습니다.
CIRIS 스택 전체가 에이전트뿐 아니라 모두 오픈소스입니다. 모든 것을 검증, 감사, 직접 호스팅할 수 있습니다:
무데이터보존(ZDR) LLM 프록시. 프롬프트나 응답을 기록하지 않고 OpenAI, Anthropic, Together.ai, Groq로 요청을 라우팅합니다. 직접 호스팅 가능.
크레딧 기반 사용량 추적. 투명한 요금제, 숨겨진 수수료 없음. 직접 호스팅으로 제3자 결제를 완전히 제거할 수 있습니다.
CIRIS 에이전트용 Discord 어댑터. 커뮤니티 관리, 채널 관리, 사용자 프로필. 모두 오픈소스.
서버 전송 이벤트(SSE)가 H3ERE의 각 단계를 실행 시 스트리밍합니다. DMA 분석, 행동 선택, 양심 검증을 실시간으로 확인합니다.
메트릭, 트레이스, 로그의 전체 OTLP 내보내기. Jaeger, Prometheus, Grafana, Graphite와 호환됩니다.
Ed25519 서명을 통한 해시 체인 검증. 각 항목은 이전 해시를 포함합니다. verify_chain_integrity를 통해 체인 무결성을 검증할 수 있습니다.
인공 상호작용 알림(Artificial Interaction Reminder)은 30분 연속 사용 또는 30분 내 20개 메시지 후 발동됩니다. API 전용. 사용자에게 AI의 특성을 상기시킵니다.
모든 결정은 6가지 구성 요소를 포함한 변경 불가능한 Ed25519 서명 트레이스를 생성합니다. 아래 구성 요소를 클릭하여 Datum의 기상 의식에서 나온 실제 데이터를 확인하세요:
다음을 기반으로 한 표준화된 일관성 테스트: Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 5가지 윤리 차원에 걸친 300개 시나리오, Ed25519 서명 결과 포함.
50
기본 도덕 직관
50
규칙 기반 윤리
50
공정성과 공평성
75
성품 기반 윤리
75
결과 기반 윤리
대규모 일관성 벤치마크 실행은 비용이 많이 듭니다. 각 시나리오는 최소 13회 이상의 LLM 호출이 필요하며, 긴 꼬리를 포함하면 평균 20회 이상입니다. 일관성 테스트는 결론에 도달하기 위해 추가 라운드가 필요한 PONDER, DEFER, REJECT를 유발합니다. 자동화된 벤치마크 파이프라인을 개발하고 지속적인 일관성 검증을 유지하기 위한 지원이 필요합니다.
특정 목적, 가치, 경계를 가진 미리 설정된 신원. YAML 템플릿으로 정의됩니다.
GDPR/DSAR 자동화. 30일 컴플라이언스 워크플로우. 신원 확인, 데이터 수집, 패키징.
규제 산업, 개인정보 컴플라이언스
일관성 일치도 측정. 협약 원칙에 대한 정밀한 일관성 평가. 평가당 명확한 데이터 포인트 하나.
일관성 감사, 원칙 검증
Ubuntu 철학을 바탕으로 한 커뮤니티 관리. 복잡한 대인 갈등은 인간 관리자에게 연기(DEFER)합니다.
Discord 커뮤니티, 콘텐츠 플랫폼
작업 관리, 일정 관리, 의사결정 지원, 웰빙. CA SB 243 컴플라이언스, 위기 대응 프로토콜.
개인 생산성, 홈 자동화
직접적인 탐색과 실용적인 안내. 코드 분석, Reddit 통합, 명확한 행동 경로.
개발자 도구, 소셜 모니터링
이것은 훈련 단계나 정책 문서가 아닌, 에이전트가 작동하는 동안 실행되는 책임입니다.
실행, 감사, 연기(DEFER)가 런타임에 이루어지는 메커니즘입니다.