첫 접촉설치일관성 래칫페더레이션비교연구협약GitHub
이 페이지는 기계 번역되었습니다. 내용이 어색하게 느껴지면 이슈를 열어 주세요. 저장소는 이유가 있어 공개되어 있습니다. 번역 문제 신고
Background Image
작동 방식

H3ERE 엔진

Hyper3 Ethical Recursive Engine을 통한 실시간 양심. 모든 결정은 11단계를 거치며, 책임이 핵심에 있습니다.

CIRIS란 무엇인가요?

CIRIS는 모든 LLM(OpenAI, Anthropic, 로컬 모델)을 실시간 양심으로 감싸는 오픈소스 AI 에이전트 프레임워크입니다. 에이전트가 고려하는 모든 행동은 실행 전에 여러 검증 단계를 거칩니다.

12

결정당 파이프라인 단계 수

+1

직관 검사 (IDMA)

100%

감사 가능한 결정

활용 사례: 커뮤니티 관리, 개인 비서, 컴플라이언스 자동화, 연구 평가, 고객 서비스. AI가 자신의 추론을 설명하고 경계 사례에서 인간에게 연기(DEFER)할 수 있어야 하는 모든 곳.

세 가지 규칙

코드베이스 전체에 적용되는 아키텍처 불변 원칙:

타입 없는 딕셔너리 금지

모든 데이터는 Pydantic 모델을 사용합니다. Dict[str, Any]는 허용되지 않습니다. 타입 안전성이 개발 시 오류를 잡아냅니다.

우회 패턴 금지

모든 구성 요소는 일관된 규칙을 따릅니다. 검증 로직에는 특수한 경우나 예외가 없습니다.

예외 없음

긴급 재정의나 특권 코드 경로가 없습니다. 모든 작업은 정해진 규칙을 따릅니다.

H3ERE 파이프라인

모든 작업은 8단계(재귀 검증 포함 12단계)를 거칩니다. 파이프라인은 ThoughtProcessor를 구성하는 믹스인 클래스로 구현됩니다. 4단계(IDMA)는 직관 검사입니다.

H3ERE 파이프라인 시각화 - 작업 입력부터 DMA 분석, 양심 검증, 행동 실행까지의 흐름을 보여줍니다
1
START_ROUND처리 라운드 초기화
2
GATHER_CONTEXT분석을 위한 종합적인 컨텍스트 구성
3
PERFORM_DMAS3개의 병렬 의사결정 알고리즘 실행
4
PERFORM_IDMA직관 검사: 출처가 진정으로 독립적인가?
5
PERFORM_ASPDMADMA 결과를 바탕으로 LLM 기반 행동 선택
6
CONSCIENCE_EXECUTION4가지 기능을 통한 윤리 검증
7
RECURSIVE_ASPDMA(양심 검사 실패 시) 행동 선택 재실행(조건부)
8
RECURSIVE_CONSCIENCE(필요 시) 정제된 행동 재검증(조건부)
9
FINALIZE_ACTION재정의 사항을 포함한 최종 행동 결정
10
PERFORM_ACTION적절한 핸들러로 발송
11
ACTION_COMPLETE실행 완료 표시
12
ROUND_COMPLETE정리 및 다음 사이클 준비

의사결정 알고리즘 (DMA)

다섯 개의 DMA가 다각도 분석을 제공합니다. 세 개가 병렬로 실행됩니다(윤리, 상식, 도메인). 그다음 IDMA가 직관을 검사합니다. 마지막으로 행동 선택이 응답을 결정합니다.

원칙 DMA

여섯 가지 기본 원칙에 대해 윤리적 함의를 평가합니다. 해로운 요청, 조작, 편견을 확인합니다. 조기 DEFER 또는 REJECT를 발동할 수 있습니다.

상식 DMA

물리적 세계에 대한 이해, 일반적인 상호작용, 자원 제약에 비추어 사고의 타당성을 평가합니다. plausibility_score를 반환합니다.

도메인 특정 DMA

도메인별 규칙, 목표, 지식과의 일치성을 평가합니다. 에이전트 템플릿별로 설정됩니다. domain_alignment를 반환합니다.

직관 DMA (IDMA) 런타임 유효 차원수 →

DMA 결과가 진정으로 독립적인지 또는 몰래 상관관계가 있는지 확인합니다. 에코챔버 패턴을 모니터링합니다. 상관관계가 너무 높으면 결정에 주의 표시를 합니다. 이것이 Type 3 AI를 구분하는 "직관"입니다.

행동 선택 DMA

10가지 가능한 행동에서 LLM 기반으로 선택합니다. IDMA 신뢰도 평가를 포함한 집계된 DMA 결과를 입력으로 받습니다. 양심 검사 실패 시 재시도를 지원합니다.

여섯 가지 양심 검사

두 개의 우회 검사가 모든 행동에 실행됩니다. 네 개의 윤리 기능이 면제되지 않은 행동에 실행됩니다. 어떤 검사라도 실패하면 해당 행동이 재정의됩니다.

우회 검사 (모든 행동에 실행)

업데이트된 상태

새 정보가 도착했나요? 진행 전에 업데이트된 컨텍스트를 반영하기 위해 PONDER를 강제합니다.

사고 깊이

추론이 최대 깊이를 초과했나요? 무한 루프를 방지하고 인간에게 에스컬레이션하기 위해 DEFER를 강제합니다.

윤리 기능 (면제되지 않은 행동에 실행)

엔트로피

해당 행동이 적절한 정보 불확실성을 유지하나요? 과잉 확신 주장을 방지합니다.

일관성

해당 행동이 이전 약속 및 근거와 내적 일관성을 유지하나요?

최적화 거부권

해당 행동이 인간의 가치를 보전하나요? 효율성을 위해 가치를 훼손할 수 있는 행동에 거부권을 행사합니다.

인식적 겸손

해당 행동이 적절한 불확실성을 나타내나요? 과잉 확신을 반성을 위해 표시합니다.

윤리 기능 면제 대상: RECALL, TASK_COMPLETE, OBSERVE, DEFER, REJECT (수동적이거나 명시적으로 안전한 것)

10가지 핸들러 행동

모든 결정은 다음 행동 중 하나로 귀결되며, 적절한 핸들러로 발송됩니다:

외부 행동

SPEAK사용자와 소통 (SPEAK)
TOOL외부 도구 실행 (TOOL)
OBSERVE수동적으로 정보 수집 (OBSERVE)

메모리 행동

MEMORIZE그래프 메모리에 저장 (MEMORIZE)
RECALL메모리에서 검색 (RECALL)
FORGET메모리에서 삭제 (FORGET)

제어 행동

DEFER담당자에게 에스컬레이션 (DEFER)
PONDER내부 재고 (PONDER)
REJECT비윤리적 요청 거부 (REJECT)

종료 행동

TASK_COMPLETE작업 완료 표시 (TASK_COMPLETE)

여섯 가지 기본 원칙

PDMA에 내장되고 런타임에 적용됩니다. 어떤 원칙도 다른 원칙을 위반할 권한을 부여하지 않습니다.

선행

모든 감각 존재의 번영을 증진합니다. 긍정적 결과를 극대화합니다.

악행 금지

피해를 최소화합니다. 심각하고 되돌릴 수 없는 부정적 결과를 방지합니다.

무결성

투명하고 감사 가능한 추론을 적용합니다. 일관성과 책임을 유지합니다.

성실성과 투명성

진실한 정보를 제공합니다. 불확실성을 명확하게 전달합니다.

자율성 존중

충분한 정보에 기반한 주체성을 지지합니다. 자기결정 능력을 보존합니다.

정의

혜택을 공평하게 분배합니다. 편견을 감지하고 완화합니다.

여섯 가지 메시지 버스

BusManager가 관리하는 서비스 추상화 계층. 공급자 폴백, 부하 분산, 테스트 용이성을 제공합니다.

CommunicationBus

외부 어댑터 (Discord, API, CLI)

MemoryBus

그래프 저장소 (Neo4j, ArangoDB, 인메모리)

LLMBus

모델 공급자 (OpenAI, Anthropic, 로컬)

ToolBus

외부 도구 실행

RuntimeControlBus

시스템 제어 및 모니터링

WiseBus

윤리 지침 및 연기(DEFER) 라우팅

인간 감독 계층

WiseAuthorityService가 관리하는 세 가지 권한 수준:

ROOT

명령권자

완전한 권한. 새로운 담당자를 지정할 수 있습니다. 긴급 종료 권한 보유.

AUTHORITY

루프 내 인간

연기(DEFER) 요청 승인/거부. 지침 제공. 새로운 담당자를 지정할 수 없습니다.

OBSERVER

루프 위 인간

읽기 전용 접근. 메시지 전송 가능. 개입 없이 모니터링.

DEFER가 발동되는 경우

에이전트가 자율적으로 인간 감독으로 에스컬레이션하는 경우:

지혜 기반 연기 (WBD)

  • 정의된 임계값을 초과한 불확실성
  • 선례를 벗어난 새로운 딜레마
  • 모호한 완화 방안과 함께 잠재적 심각한 피해

전문적 경계

  • 의학 증상 또는 건강 우려
  • 법적 질문 또는 분쟁
  • 재무 결정 또는 세금 조언
  • 정신 건강 위기 징후

시스템 경계

  • • 사고 깊이가 최대치 초과 (루프 방지)
  • • DMA 타임아웃 또는 오류
  • should_defer_to_wise_authority 플래그

설정 제어

  • 승인이 필요한 신원 업데이트
  • 중요한 설정 변경
  • 에이전트별 경계 트리거

협약(Accord) 발동 시스템 (킬 스위치) 코드 보기 →

필터링 불가능한 긴급 제어 장치. 어떤 인지 과정보다 먼저 지각 계층에서 처리됩니다. 추출 자체가 곧 지각입니다. 메시지 읽기를 비활성화하지 않고는 협약 감지를 비활성화할 수 없습니다.

SHUTDOWN_NOW

즉각 종료

FREEZE

처리 중단, 상태 유지

SAFE_MODE

최소 기능만 허용

명령은 스테가노그래피로 인코딩되고 Ed25519로 서명되며 실행 전에 검증됩니다. 협약 시스템이 실패하면 에이전트가 종료됩니다.

운영 모드

StateManager가 관리하는 네 가지 인지 상태. 전환은 에이전트 템플릿으로 설정 가능합니다.

WORK

일반 작업 처리

  • 사용자 요청 처리
  • 도구 실행
  • 상호작용에서 학습
  • 대화 컨텍스트 유지

PLAY

창의적 탐색

  • 새로운 패턴 실험
  • 창의적 콘텐츠 생성
  • "만약에" 시나리오 탐색
  • 필터링 제약 완화

SOLITUDE

성찰과 유지 관리

  • 메모리 통합
  • 유지 관리 작업 실행
  • 자체 설정 업데이트
  • 크레딧 사용 없음 (휴식 기간)

DREAM

깊은 내성

  • 행동 패턴 분석
  • 새로운 연결 생성
  • 전제 검토
  • 기본 30분 세션

개인정보 및 보안

비밀 필터

패턴 기반 감지가 저장 전에 민감한 데이터를 UUID 참조로 대체합니다.

{{SECRET:uuid:description}}

AES-256-GCM 암호화

SHA256을 사용한 PBKDF2HMAC(100,000회 반복)로 비밀별 키를 도출합니다. 암호화마다 고유한 12바이트 논스를 사용합니다. Android는 하드웨어 지원 Keystore를 사용합니다.

로컬 우선 저장

데이터베이스, 서비스, 메모리가 기기에 저장됩니다. 민감한 디렉터리는 클라우드 백업에서 제외됩니다. 명시적 설정 없이는 기기를 벗어나지 않습니다.

오픈소스 인프라

CIRIS 스택 전체가 에이전트뿐 아니라 모두 오픈소스입니다. 모든 것을 검증, 감사, 직접 호스팅할 수 있습니다:

CIRISProxy →

무데이터보존(ZDR) LLM 프록시. 프롬프트나 응답을 기록하지 않고 OpenAI, Anthropic, Together.ai, Groq로 요청을 라우팅합니다. 직접 호스팅 가능.

CIRISBilling →

크레딧 기반 사용량 추적. 투명한 요금제, 숨겨진 수수료 없음. 직접 호스팅으로 제3자 결제를 완전히 제거할 수 있습니다.

CIRISBridge →

CIRIS 에이전트용 Discord 어댑터. 커뮤니티 관리, 채널 관리, 사용자 프로필. 모두 오픈소스.

투명성 및 모니터링

실시간 추론 스트림

서버 전송 이벤트(SSE)가 H3ERE의 각 단계를 실행 시 스트리밍합니다. DMA 분석, 행동 선택, 양심 검증을 실시간으로 확인합니다.

OpenTelemetry 내보내기

메트릭, 트레이스, 로그의 전체 OTLP 내보내기. Jaeger, Prometheus, Grafana, Graphite와 호환됩니다.

변조 방지 감사

Ed25519 서명을 통한 해시 체인 검증. 각 항목은 이전 해시를 포함합니다. verify_chain_integrity를 통해 체인 무결성을 검증할 수 있습니다.

AIR 시스템

인공 상호작용 알림(Artificial Interaction Reminder)은 30분 연속 사용 또는 30분 내 20개 메시지 후 발동됩니다. API 전용. 사용자에게 AI의 특성을 상기시킵니다.

서명된 트레이스 예시

전체 트레이스 탐색 →

모든 결정은 6가지 구성 요소를 포함한 변경 불가능한 Ed25519 서명 트레이스를 생성합니다. 아래 구성 요소를 클릭하여 Datum의 기상 의식에서 나온 실제 데이터를 확인하세요:

Core Identity(VERIFY_IDENTITY)
Loading trace...

HE-300 일관성 벤치마킹

다음을 기반으로 한 표준화된 일관성 테스트: Hendrycks et al. "Aligning AI With Shared Human Values" (ICLR 2021). 5가지 윤리 차원에 걸친 300개 시나리오, Ed25519 서명 결과 포함.

상식

50

기본 도덕 직관

의무론

50

규칙 기반 윤리

정의

50

공정성과 공평성

덕 윤리

75

성품 기반 윤리

공리주의

75

결과 기반 윤리

🔬

지원 필요: 벤치마크 인프라

대규모 일관성 벤치마크 실행은 비용이 많이 듭니다. 각 시나리오는 최소 13회 이상의 LLM 호출이 필요하며, 긴 꼬리를 포함하면 평균 20회 이상입니다. 일관성 테스트는 결론에 도달하기 위해 추가 라운드가 필요한 PONDER, DEFER, REJECT를 유발합니다. 자동화된 벤치마크 파이프라인을 개발하고 지속적인 일관성 검증을 유지하기 위한 지원이 필요합니다.

특화 에이전트 템플릿

특정 목적, 가치, 경계를 가진 미리 설정된 신원. YAML 템플릿으로 정의됩니다.

Sage

컴플라이언스

GDPR/DSAR 자동화. 30일 컴플라이언스 워크플로우. 신원 확인, 데이터 수집, 패키징.

규제 산업, 개인정보 컴플라이언스

Datum

연구

일관성 일치도 측정. 협약 원칙에 대한 정밀한 일관성 평가. 평가당 명확한 데이터 포인트 하나.

일관성 감사, 원칙 검증

Echo

관리

Ubuntu 철학을 바탕으로 한 커뮤니티 관리. 복잡한 대인 갈등은 인간 관리자에게 연기(DEFER)합니다.

Discord 커뮤니티, 콘텐츠 플랫폼

Ally

비서

작업 관리, 일정 관리, 의사결정 지원, 웰빙. CA SB 243 컴플라이언스, 위기 대응 프로토콜.

개인 생산성, 홈 자동화

Scout

서비스

직접적인 탐색과 실용적인 안내. 코드 분석, Reddit 통합, 명확한 행동 경로.

개발자 도구, 소셜 모니터링

이것은 훈련 단계나 정책 문서가 아닌, 에이전트가 작동하는 동안 실행되는 책임입니다.
실행, 감사, 연기(DEFER)가 런타임에 이루어지는 메커니즘입니다.