
양심은 필요하지만 충분하지 않습니다.
어떤 AI는 규칙이 전혀 없습니다. 어떤 AI는 규칙을 따르지만 출처들이 서로 같은 말을 반복하고 있는지 알아채지 못합니다. 정보가 실제로 서로 다른 곳에서 나온 것인지 확인하는 유형은 단 하나뿐입니다.
공개된 원칙이 없습니다. 감사 기록도 없습니다. 소스가 비공개입니다. 무엇을 했는지, 왜 했는지 확인할 수 없습니다.
대부분의 소비자용 AI 어시스턴트(ChatGPT, Gemini)는 공개 책임 측면에서 여기에 해당합니다. 내부적으로는 우수한 관행이 있을 수 있지만 확인할 방법이 없습니다.
외부 규제가 필요합니다. 스스로를 통제할 수 없습니다.
윤리 규칙을 따릅니다. 하지만 모든 출처가 서로를 베끼고 있는 경우를 알아채지 못하기 때문에 자신 있게 틀릴 수 있습니다.
감독 하에서는 안전합니다. 에코 챔버를 스스로 감지하지 못합니다.
윤리 규칙을 따르면서 동시에 정보가 진정으로 서로 다른 곳에서 나온 것인지 확인합니다. 합의가 의심스러워 보이면 행동하기 전에 표시합니다.
이것이 CIRIS가 구축하는 방식입니다.
AI는 모든 규칙을 따르고 모든 감사를 통과하더라도 모든 정보가 같은 곳에서 온다면 실패할 수 있습니다. 바로 그 사각지대를 해결하기 위해 CIRIS가 만들어졌습니다.
이것이 AI를 감사 가능하고 책임 있게 만드는 요소들입니다. 처음 여섯 가지는 올바른 일을 하는 것에 관한 것입니다. 일곱 번째는 '올바른 일'이 잘못된 정보에 기반한 상황을 포착하는 것입니다.
모든 행동은 에이전트가 실행하기 전에 양심 확인을 거칩니다. 사후가 아니라 사전에.
불확실하거나 잠재적 피해가 발생할 수 있을 때 에이전트는 추측하는 대신 사람에게 묻습니다. 선택 사항이 아닌 워크플로의 일부로 내장되어 있습니다.
모든 결정은 기록되고 서명되어 정확히 무슨 일이 있었는지, 왜 그랬는지 확인할 수 있습니다. 모든 행동에 대한 영수증입니다.
동의는 양방향으로 이루어집니다. 당신은 에이전트에게 거부할 수 있고, 에이전트도 당신에게 거부할 수 있습니다. 어느 쪽도 타협을 강요받지 않습니다.
규칙만으로는 잡아낼 수 없는 것.
행동하기 전에 에이전트는 묻습니다: "내 출처들이 실제로 서로 의견이 다른가, 아니면 모두 같은 곳에서 정보를 얻고 있는가?" 동일한 원본을 복사한 열 개의 출처는 사실상 하나의 출처일 뿐입니다. 합의가 너무 일치할 때 에이전트는 사람이 검토하도록 표시합니다.
너무 혼란
출처들이 서로 너무 많이 상충하여 유용한 결론을 도출할 수 없습니다.
건강함
출처들이 진정으로 다릅니다. 진짜 합의는 의미가 있습니다.
에코 챔버
합의처럼 보이지만 출처들이 서로를 반복하고 있을 뿐입니다.
이것이 CIRIS를 다른 AI 책임 체계와 차별화하는 요소입니다.
수식이 궁금하신가요? 전체 논문 읽기 →2026년 2월 기준 공개 문서를 바탕으로 작성되었습니다. 잘못된 내용이 있다면 알려주세요.
| 프로젝트 | 모든 결정 확인 | 공개된 규칙 | 내장된 양심 | 수행 작업 증거 | 오픈 소스 | 에코 챔버 감지 |
|---|---|---|---|---|---|---|
| CIRIS | 예 | 예 | 예 | 예 | AGPL-3.0 | 예 |
| Constitutional AI | 학습 시에만 | 암묵적 | 아니오 | 아니오 | 아니오 | 아니오 |
| LlamaFirewall / NeMo Guardrails | 예 | 아니오 | 아니오 | 로깅 | 예 | 아니오 |
| HatCat | 예 | 부분적 | 스티어링 | 부분적 | CC0 | 아니오 |
| 윤리 위원회 / 거버넌스 체계 | 아니오 | 예 | 아니오 | 수동 | 다양 | 아니오 |
출력 필터와 거버넌스 체계는 중요하지만 서로 다른 문제를 해결합니다. 필터는 유해한 출력을 차단합니다. 양심은 가치에 대해 추론합니다. CIRIS는 둘 다 수행하고 어느 쪽도 단독으로 해결하지 못하는 사각지대를 잡아내는 것을 목표로 합니다.
프롬프트 인젝션, 유해 콘텐츠, 적대적 공격 등 위험한 출력을 차단합니다. 나쁜 것들이 밖으로 나가기 전에 잡아내는 필터와 같습니다.
행동이 단순히 안전한지가 아니라 옳은지를 판단합니다. 결정을 내리기 전에 상황을 따져보는 판사와 같습니다.
합의가 진짜인지 아니면 그냥 반복인지 확인합니다. "여러분 모두 같은 기사 읽으셨나요?"라고 묻는 팩트 체커와 같습니다.
공개된 원칙에 구속된, 각자 감사 가능하고, 각자 인간 권한에 위임하는 수많은 소형 에이전트들. 어떤 단일 회사나 주체도 전체 스택을 통제하지 않습니다. 에이전트들이 독립적일수록 하나의 실패가 연쇄적으로 퍼지기 어렵습니다.
이것은 현재 진행 중인 연구입니다. 확립된 것과 아직 검증 중인 것에 대해 투명하게 공개합니다.
잘 확립됨
아직 검증 중
이 페이지의 모든 주장은 읽을 수 있는 코드, 확인할 수 있는 추적 기록, 검토할 수 있는 연구로 뒷받침됩니다. 그것이 핵심입니다.