가중치를 신뢰하거나, 행동을 검증하거나

AI 안전의 주류는 모델을 내부적으로 선하게 만들려 합니다. 가치관을 훈련하고, 생각을 연구하며, 스스로 토론하게 합니다. 그 작업은 중요합니다. CIRIS는 다른 길에 주목합니다. 능력 있는 모델이 정렬되지 않았을 수 있다고 가정하고, 그 마음을 신뢰하는 대신, 중요한 행동을 사람과 검증할 수 있는 다른 시스템에 책임지게 만듭니다.

이 분야의 용어로 말하자면, CIRIS는 RLHF, Constitutional AI, 토론, 해석 가능성 등 가치 내재화 주류가 아닌, AI 제어와 GS-AI와 같은 제도적, 통제 분야에 속합니다. 확장 가능한 감독, 즉 자신보다 똑똑한 것을 어떻게 감독하느냐는 문제에 대한 CIRIS의 답은 추론이 아닌 책임 범위를 검증하는 것입니다. 서명, 쿼럼, 해시 체인 감사는 그 뒤의 결정이 초인적이더라도 저렴하게 확인할 수 있습니다. CIRIS는 단일 마음의 가치관이 아니라, 시간이 지남에 따라 많은 유능한 에이전트로 구성된 시스템을 정렬합니다.

우리가 지키는 선

의도적으로, 단 하나의 전능한 AI를 정렬하려 하지 않습니다.

책임은 한 당사자 이상을 필요로 합니다. 책임을 질 상대방, 조용히 삼켜질 수 없는 확인 방법, 어느 한쪽도 장악할 수 없는 권력 균형이 필요합니다. 단일 초지능에는 이 중 어느 것도 없으므로, 그것을 책임지게 할 솔직한 방법이 없습니다. CIRIS는 다른 미래를 위해 설계되었습니다. 중요한 결정이 모두 독립적으로 확인 가능한, 많은 유능한 에이전트, 사람, 그리고 조직으로 구성된 미래입니다.

따라서 이 입장은 명확합니다. 단일 ASI는 정렬해야 할 시스템이 아니라 예방해야 할 조건입니다. 인간 제도 발전의 현 단계에서, 초인적 역량을 하나의 책임지지 않는 곳에 집중하는 것은 정당하지 않습니다. 어떤 제도도 그것을 책임지게 할 만큼 성숙하지 않았기 때문이며, 바로 그것이 위험입니다. 이 프레임워크의 용어로, 단일체는 조정 성공이 아닌 실패로 지목되는, 복도 모델이 명명한 ρ→1 단일 음성 붕괴입니다. 우리의 보증이 연합에서는 유지되고 단일체에 대해서는 약화된다는 것은 우리가 메워야 할 공백이 아닙니다. 그것은 우리가 예측으로서만이 아닌 약속으로 합법화를 거부하는 체제입니다.

모든 가까운 이웃은 일부 항목을 채웁니다. 한 행만이 모든 항목을 채웁니다.

CIRIS에는 각자의 분야에서 강한 진지한 지적 동료들이 있습니다. 이 표의 목적은 이 아이디어들이 전례 없다는 것을 보이려는 것이 아닙니다. 거의 아무도 전체 스택을 하나의 책임 있는 시스템으로 구축하고 출시하지 않았다는 점입니다. 아래의 각 행은 읽을 가치 있는 실제 계보입니다. 마지막 행만이 모든 열을 확인하며, 그 통합이 바로 우리의 주장입니다.

접근 방식	가장 가까운 연구	메커니즘	훈련이 아닌 런타임	결정에 서명	런타임 헌법	연합 검증	실행 가능한 적합성	출시
제도적 논제	Gillian Hadfield	이론과 정책으로서의 규범 인프라 및 규제 시장	이론	아니요	이론	이론	아니요	아니요
거버넌스 그래프	제도적 AI (Pierucci 외)	연구 프로토타입으로서 법적 상태와 제재의 공개 그래프	연구	아니요	연구	아니요	아니요	아니요
온체인 헌법적 거버넌스	AgentCity (Ruan, Zhang)	테스트넷에 사전 등록된 스마트 계약으로서의 권력 분립	연구	부분	연구	아니요	아니요	아니요
모델이 정렬되지 않았다고 가정	Redwood Research (AI 제어)	단일 배포 내의 모니터링과 레드팀	예	아니요	아니요	아니요	연구	연구
증명 가능한 안전, 외재화	davidad, Bengio, GS-AI 계보	세계 모델에 대한 형식적 증명	부분	아니요	이론	이론	연구	아니요
훈련 시점의 헌법	Anthropic Constitutional AI	한 조직이 가중치에 훈련된 가치관	아니요	아니요	아니요	아니요	아니요	예
암호화 출처	C2PA, zkML (EZKL, Giza)	미디어 출처 서명, 추론 실행 증명	예	부분	아니요	부분	부분	예
서명된 추론 DAG	Proof of Insight (Arclio)	초안 사양으로서의 AI 파생 단계의 서명된 그래프	아니요	부분	아니요	이론	이론	아니요
하드웨어 증명 추론	Phala, Marlin, Attestable Audits	출력에 서명하는 보안 엔클레이브에서 추론 실행	예	부분	아니요	부분	아니요	부분
탈중앙화 신원 및 연합	atproto, Bittensor	소셜 또는 컴퓨팅 연합, 양심 레이어 없음	부분	아니요	아니요	부분	부분	예
에이전트 프로토콜	MCP, A2A	도구 및 에이전트 상호운용, 거버넌스 없음	예	아니요	아니요	아니요	부분	예
안전 평가 및 적합성 모음	MLCommons, METR, HarmBench	결정이 아닌 모델 행동을 점수화하는 실행 가능한 벤치마크	아니요	아니요	아니요	아니요	부분	예
제3자 및 연합 감사	AISI 네트워크, GovAI	독립 기관들이 공동으로 배포된 시스템을 테스트	부분	아니요	아니요	예	아니요	부분
CIRIS	이 시스템	서명된 아티팩트에 대한 양심 파이프라인, 런타임 헌법, 양자 내성 연합	예	예	예	예	예	예

2026년 6월 기준 공개 연구에서 정리했으며, 모든 행은 아래에 인용되었습니다. 가까운 이웃을 잘못 표시했다면 알려주시면 해당 행을 수정하겠습니다.

출처

02소비자 AI

실제로 사용하는 AI와 비교하면

일상적인 AI 어시스턴트는 강력하고 사용하기 쉽습니다. 하지만 다른 회사의 클라우드에서 실행되고, 확인할 수 있는 기록을 남기지 않으며, 이름을 댈 수 있는 누군가에게 책임을 지지 않습니다. 여기에 대부분의 사람들이 매일 여는 AI에 같은 책임 기준을 적용해 봤습니다.

어시스턴트	공개된 원칙	행동 증거	불확실할 때 사람에게 물음	오픈 소스	반향실 점검
ChatGPT	예	아니요	아니요	아니요	아니요
Gemini	예	아니요	아니요	아니요	아니요
Claude	예	아니요	아니요	아니요	아니요
CIRIS	예	예	예	예	예

2026년 6월 기준 공개 제품 동작을 비교했습니다. 각 원칙 링크는 해당 회사가 직접 공개한 사양으로 연결됩니다.

이 분야의 대부분은 모델을 정렬하는 데 집중합니다. CIRIS는 그 주변의 제도를 구축합니다.

가중치를 신뢰하거나, 행동을 검증하거나

의도적으로, 단 하나의 전능한 AI를 정렬하려 하지 않습니다.

실제로 사용하는 AI와 비교하면

직접 해보기

생각하는 과정 보기

신원 확인하기

시작하기