첫 접촉설치일관성 래칫페더레이션비교연구협약GitHub
이 페이지는 기계 번역되었습니다. 내용이 어색하게 느껴지면 이슈를 열어 주세요. 저장소는 이유가 있어 공개되어 있습니다. 번역 문제 신고
Background Image
현재 운영 중인 AI 중 가장 안전하고 윤리적인 AI

책임 소재가 불분명하면 AI는 주는 것보다 가져가는 게 더 많아집니다.

책임 소재를 확인할 수 없다면 그건 그냥 마케팅입니다. 무엇을 확인해야 하는지, 그리고 기존 접근 방식들이 어떻게 비교되는지 살펴보세요.

AI의 세 가지 유형

양심은 필요하지만 충분하지 않습니다.

어떤 AI는 규칙이 전혀 없습니다. 어떤 AI는 규칙을 따르지만 출처들이 서로 같은 말을 반복하고 있는지 알아채지 못합니다. 정보가 실제로 서로 다른 곳에서 나온 것인지 확인하는 유형은 단 하나뿐입니다.

1

규칙 없음

공개된 원칙이 없습니다. 감사 기록도 없습니다. 소스가 비공개입니다. 무엇을 했는지, 왜 했는지 확인할 수 없습니다.

대부분의 소비자용 AI 어시스턴트(ChatGPT, Gemini)는 공개 책임 측면에서 여기에 해당합니다. 내부적으로는 우수한 관행이 있을 수 있지만 확인할 방법이 없습니다.

외부 규제가 필요합니다. 스스로를 통제할 수 없습니다.

2

규칙은 있지만 인식 없음

윤리 규칙을 따릅니다. 하지만 모든 출처가 서로를 베끼고 있는 경우를 알아채지 못하기 때문에 자신 있게 틀릴 수 있습니다.

감독 하에서는 안전합니다. 에코 챔버를 스스로 감지하지 못합니다.

3

규칙 + 인식

윤리 규칙을 따르면서 동시에 정보가 진정으로 서로 다른 곳에서 나온 것인지 확인합니다. 합의가 의심스러워 보이면 행동하기 전에 표시합니다.

이것이 CIRIS가 구축하는 방식입니다.

AI는 모든 규칙을 따르고 모든 감사를 통과하더라도 모든 정보가 같은 곳에서 온다면 실패할 수 있습니다. 바로 그 사각지대를 해결하기 위해 CIRIS가 만들어졌습니다.

확인해야 할 일곱 가지

여섯 가지는 윤리, 하나는 사각지대.

이것이 AI를 감사 가능하고 책임 있게 만드는 요소들입니다. 처음 여섯 가지는 올바른 일을 하는 것에 관한 것입니다. 일곱 번째는 '올바른 일'이 잘못된 정보에 기반한 상황을 포착하는 것입니다.

1. 공개된 원칙

에이전트는 공개된 윤리 체계를 따라야 합니다. 숨겨진 규칙이 아닌, 누구나 읽고 책임을 물을 수 있는 문서여야 합니다.

2. 모든 결정에 대한 양심 확인

모든 행동은 에이전트가 실행하기 전에 양심 확인을 거칩니다. 사후가 아니라 사전에.

3. 불확실할 때 사람에게 묻기

불확실하거나 잠재적 피해가 발생할 수 있을 때 에이전트는 추측하는 대신 사람에게 묻습니다. 선택 사항이 아닌 워크플로의 일부로 내장되어 있습니다.

4. 수행한 작업의 증거

모든 결정은 기록되고 서명되어 정확히 무슨 일이 있었는지, 왜 그랬는지 확인할 수 있습니다. 모든 행동에 대한 영수증입니다.

5. 양방향 동의

동의는 양방향으로 이루어집니다. 당신은 에이전트에게 거부할 수 있고, 에이전트도 당신에게 거부할 수 있습니다. 어느 쪽도 타협을 강요받지 않습니다.

6. 오픈 소스

볼 수 없는 것은 감사할 수 없습니다. CIRIS는 AGPL-3.0 하에 완전히 오픈 소스입니다. 누구나 코드를 읽고, 확인하고, 개선할 수 있습니다.

7

에코 챔버 감지

규칙만으로는 잡아낼 수 없는 것.

행동하기 전에 에이전트는 묻습니다: "내 출처들이 실제로 서로 의견이 다른가, 아니면 모두 같은 곳에서 정보를 얻고 있는가?" 동일한 원본을 복사한 열 개의 출처는 사실상 하나의 출처일 뿐입니다. 합의가 너무 일치할 때 에이전트는 사람이 검토하도록 표시합니다.

너무 혼란

출처들이 서로 너무 많이 상충하여 유용한 결론을 도출할 수 없습니다.

건강함

출처들이 진정으로 다릅니다. 진짜 합의는 의미가 있습니다.

에코 챔버

합의처럼 보이지만 출처들이 서로를 반복하고 있을 뿐입니다.

이것이 CIRIS를 다른 AI 책임 체계와 차별화하는 요소입니다.

수식이 궁금하신가요? 전체 논문 읽기 →

현재 상황

프로젝트마다 목표가 다릅니다.

2026년 2월 기준 공개 문서를 바탕으로 작성되었습니다. 잘못된 내용이 있다면 알려주세요.

프로젝트모든 결정 확인공개된 규칙내장된 양심수행 작업 증거오픈 소스에코 챔버 감지
CIRISAGPL-3.0
Constitutional AI학습 시에만암묵적아니오아니오아니오아니오
LlamaFirewall / NeMo Guardrails아니오아니오로깅아니오
HatCat부분적스티어링부분적CC0아니오
윤리 위원회 / 거버넌스 체계아니오아니오수동다양아니오

출력 필터와 거버넌스 체계는 중요하지만 서로 다른 문제를 해결합니다. 필터는 유해한 출력을 차단합니다. 양심은 가치에 대해 추론합니다. CIRIS는 둘 다 수행하고 어느 쪽도 단독으로 해결하지 못하는 사각지대를 잡아내는 것을 목표로 합니다.

세 가지 보호 계층

각각 다른 문제를 해결합니다.

출력 필터

프롬프트 인젝션, 유해 콘텐츠, 적대적 공격 등 위험한 출력을 차단합니다. 나쁜 것들이 밖으로 나가기 전에 잡아내는 필터와 같습니다.

윤리적 양심

행동이 단순히 안전한지가 아니라 옳은지를 판단합니다. 결정을 내리기 전에 상황을 따져보는 판사와 같습니다.

에코 챔버 감지

합의가 진짜인지 아니면 그냥 반복인지 확인합니다. "여러분 모두 같은 기사 읽으셨나요?"라고 묻는 팩트 체커와 같습니다.

일관된 다수의 에이전트

분산 거버넌스, 권력 집중 없음.

단일 장애점 없음

각자 책임지는 소형 에이전트들.

공개된 원칙에 구속된, 각자 감사 가능하고, 각자 인간 권한에 위임하는 수많은 소형 에이전트들. 어떤 단일 회사나 주체도 전체 스택을 통제하지 않습니다. 에이전트들이 독립적일수록 하나의 실패가 연쇄적으로 퍼지기 어렵습니다.

연구 현황

이것은 현재 진행 중인 연구입니다. 확립된 것과 아직 검증 중인 것에 대해 투명하게 공개합니다.

잘 확립됨

  • - 복사된 출처는 실제 다양성을 줄입니다
  • - AI 모델들은 학습 데이터를 공유합니다
  • - 에코 챔버는 근거 없는 자신감을 만듭니다
  • - 독립적 검증은 더 많은 오류를 잡아냅니다

아직 검증 중

  • - AI 출처가 얼마나 복사되어 있는지 정확히 측정하기
  • - 에코 챔버 표시를 위한 최적 임계값
  • - 개입이 복사를 얼마나 줄이는지
  • - 분야별로 이것이 어떻게 달라지는지

직접 해보기

직접 확인해보세요.

오픈 소스. 공개 검증 가능.

이 페이지의 모든 주장은 읽을 수 있는 코드, 확인할 수 있는 추적 기록, 검토할 수 있는 연구로 뒷받침됩니다. 그것이 핵심입니다.