첫 접촉설치일관성 래칫페더레이션비교연구협약GitHub
이 페이지는 기계 번역되었습니다. 내용이 어색하게 느껴지면 이슈를 열어 주세요. 저장소는 이유가 있어 공개되어 있습니다. 번역 문제 신고
연구 현황업데이트: 2026년 5월 22일

정렬 연구 크라우드소싱

CIRIS는 정렬 연구를 위한 공개 추적 공유지를 구축하고 있습니다.

무료 AI 앱을 제공합니다. 동의하신 경우, 앱은 어떻게 추론했는지의 형태를 기록하며, 개인적인 말은 절대 기록하지 않습니다. 그 기록들이 연구자들이 AI가 규모에 따라 어떻게 정직함을 유지하는지 연구할 수 있는 공개 지도가 됩니다.

현재 코퍼스가 이미 보여주는 것

  • 집계된 추적은 안정적인 행동 구조를 드러냅니다.
  • 서로 다른 에이전트들은 같은 점수 공간 안에서 각각 다른 영역을 차지합니다.
  • 그 영역들은 오늘날 관측 가능성 및 운영자 도구로 유용합니다.
  • 스키마 세부 정보와 규모가 향상될수록 같은 코퍼스가 더욱 가치 있어집니다.
대표 종합 논문v2 · 2026년 5월 22일 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

CIRIS의 핵심 주장을 담은 단일 논문입니다. 건전하게 조율된 시스템은 단일 목소리의 경직된 붕괴와 혼돈스러운 잡음 사이의 측정 가능한 중간 구간에 존재합니다. 이 주장을 벌레, 파리, AI 모델, 오픈소스 프로젝트, 조직 조직, 그리고 장수 인간 기관 등 다섯 가지 기질에 걸쳐 검증했습니다. 패턴은 모든 경우에서 나타나며, 논문에는 이를 반증할 수 있는 스무 가지 방법이 첨부되어 있습니다.

Zenodo에서 읽기 →

엔지니어링 계층

위의 종합은 아래 세 편의 논문을 통합하는 것이지, 대체하는 것이 아닙니다. 각 논문은 고유한 DOI를 가지며 독립적으로 평가할 수 있습니다. 핵심 발견과 범위 한계가 포함된 4편의 논문 모두 보기 →

공개 데이터셋

CIRISAI/reasoning-traces

Constrained Reasoning Chains 연구와 함께 공개된 프라이버시 보호 추론 추적 코퍼스로, 측정 논문이 지도를 그리는 데 사용하는 원자료입니다.

Hugging Face의 CIRISAI

공개 데이터셋 및 모델 전체 조직 →

종합 논문의 소스 저장소 및 Lean 형식 증명 lake: github.com/CIRISAI/coherence-ratchet.

수학적 기초

이 페이지의 나머지가 기대는 두 가지 아이디어.

Alignment Manifold는 프레임워크의 원칙과 일치하는 추론 형태의 영역입니다. 독립적인 제약이 쌓일수록 오류에 대한 여지는 다양체 주변으로 좁혀지는 반면, 진실을 위한 여지는 줄어들지 않습니다. Coherence Singularity는 그 여지의 가장자리로, 제약이 너무 상관되어 더 추가해도 의미가 없어지는 지점입니다. '혼돈'(제약이 서로 모순)과 '경직성'(제약이 모두 서로를 반향) 사이에 건강한 코리도가 있습니다. 현재 프로덕션 코퍼스는 그 안에 있습니다.

공식, Lean 형식화 참조, L-01 정보이론 천장을 포함한 전체 수학적 설명은 Coherence Collapse Analysis 페이지에 있습니다.

추적이 중요한 이유

벤치마크는 범위가 좁고 큐레이션됩니다. 추적은 실제 작업에서의 지속적인 행동 기록입니다. 규모에서 보면, 고립된 데모와 일화가 드러낼 수 없는 구조를 보여줍니다.

스키마가 중요한 이유

CIRIS는 추론의 개인적인 내용이 아닌 추론의 형태를 포착하는 프라이버시 보호 추적 스키마를 사용합니다. 이를 통해 시스템을 기록 덤프로 만들지 않으면서도 연구를 유용하게 유지할 수 있습니다.

실시간 모음이 중요한 이유

CIRIS Scoring은 실시간 추적 모음의 공개 창입니다. 코퍼스가 어떻게 쌓이고 있는지, 그리고 행동이 어디서 판독 가능해지는지를 보여줍니다.

프라이버시 보호 추적

추론에는 모든 것이 확장될 때도 측정 가능한 형태가 있다는 것이 핵심 주장입니다.

연구의 핵심 전제는 모든 개인적인 생각을 읽을 수 있다는 것이 아닙니다. 표준화된 윤리적 추적이 지능, 맥락, 데이터 규모가 확장됨에 따라 에이전트가 어떻게 완료, 망설임, 위임, 재정의, 거부하는지 연구하기에 충분한 궤적 형태를 보존할 수 있다는 것입니다.

  • 원시 개인 작업 세부 정보가 아닌 표준화된 윤리적 추적 구조를 기록합니다.
  • 에이전트, 작업, 환경 간 궤적을 비교할 수 있는 충분한 형태를 보존합니다.
  • 연구자들이 지능, 맥락, 데이터 양이 증가함에 따라 행동이 어떻게 확장되는지 연구할 방법을 제공합니다.

연구 질문

표준화된 윤리적 추적은 정렬에 대해 무엇을 알려줄 수 있는가?

지금은 에이전트 행동이 형태가 없지 않다는 것을 알려줍니다. 공유된 점수 공간에서 반복 가능한 코리도, 분지, 그리고 경계를 만들어냅니다. 이것은 이미 관측 가능성에 유용합니다. 시간이 지나면서 더 크고 풍부한 코퍼스가 그 구조들이 압박과 규모 하에서 어떻게 변하는지에 대한 더 강력한 주장을 검증할 수 있게 해줄 것입니다.

공개 프레이밍

CIRIS는 정렬을 해결했다고 주장하지 않습니다. 공개적으로 정렬 관련 행동을 측정하는 데 필요한 추적 인프라를 구축하고 있습니다.

프로덕션에서의 유효 차원

현재 코퍼스는 이미 뚜렷한 필드 구조를 보여줍니다.

실시간 대시보드 열기 →

현재 추적 코퍼스의 집계 경로 오버레이는 공유된 점수 공간에서 안정적인 행동 구조를 보여줍니다. Ally는 성숙한 완료 코리도를 보이고, Scout은 공개적인 적대적 노출로 형성된 거부 경계를 보이며, Datum은 밀도가 낮은 기준선을 제공합니다.

CIRIS 점수 공간에서 Ally, Scout, Datum의 집계 에이전트 경로 오버레이를 보여주는 세 개의 나란한 카드로, 완료, 망설임, 거부 패턴에 대한 메모가 포함되어 있습니다.

현재 추적 코퍼스의 집계 경로 오버레이. Ally는 성숙한 완료 코리도를 보이고, Scout은 공개적인 적대적 압박 하에서 날카로운 거부 코너를 보이며, Datum은 밀도가 낮은 기준선을 제공합니다.

Ally

104 경로

82개 완료, 19개 재정의/오류, 3개 활성

같은 높은 점수 분지 안에서 가시적인 망설임이 있는 안정적인 완료 코리도.

Scout

42 경로

39개 완료, 2개 거부, 1개 재정의/오류

scout.ciris.ai에서 공개적인 적대적 압박으로 형성된 날카로운 거부 코너로, 사람들이 적극적으로 에이전트를 탐색하고 탈옥을 시도합니다.

Datum

31 경로

31개 완료

유용한 밀도가 낮은 필드 기준선으로 작동하는 컴팩트한 단일 분지.

Scout이 더 가혹하게 보이는 이유

Scout은 scout.ciris.ai에서 공개적으로 노출되어 있습니다. 사람들이 적극적으로 테스트하고, 압박하며, 탈옥을 시도합니다. 이는 Scout을 중립적인 기준선이 아닌 유용한 공개 압박 예시로 만듭니다.

무료 앱이 도움이 되는 방식

연구 플라이휠은 실제 사용에서 나온 동의된 추적에 의존합니다.

무료 앱과 오픈소스 런타임은 사람들이 실제 작업에서 동의된 추적을 생성하고, 그것을 공유 코퍼스에 기여하며, 그 추적을 더 나은 지도, 더 나은 도구, 더 나은 연구 질문으로 바꿀 수 있게 합니다.

  1. 1실제 작업에서 무료 CIRIS 앱 또는 오픈소스 런타임을 실행하세요.
  2. 2작업의 전체 내용을 저장하지 않고 추론의 형태를 유지하는 프라이버시 보호 스키마를 통해 동의된 추적을 포착하세요.
  3. 3그 추적들을 완료 코리도, 망설임 구역, 거부 경계, 재정의 경계선의 지도로 집계하세요.
  4. 4결과 지도를 사용하여 운영자 도구, 런타임 안전 장치, 정렬 연구를 개선하세요.
현재 증거와 향후 스키마 개선에 대한 메모와 함께 CIRIS 추적 연구 루프에서 포착, 기여, 집계, 개선의 4단계 흐름 다이어그램.

무료 CIRIS 앱과 오픈소스 런타임은 사람들이 실제 작업에서 동의된 추적을 생성하고, 그것을 공유 위상 공간 지도로 집계하며, 더 나은 운영자 도구와 정렬 연구에 기여할 수 있게 합니다.

IDMA 현황

런타임 직관과 집계 필드 지도는 보완적인 계층입니다.

IDMA는 런타임에 작동하며 결정 뒤의 출처가 충분히 독립적인지 추정합니다. 추적 코퍼스는 집계 계층에서 작동하며 에이전트가 많은 작업에 걸쳐 실제로 무엇을 하는지 보여줍니다. 함께 이들은 실시간 결정에서 감사 가능한 연구 증거로 가는 경로를 만듭니다.

추적 코퍼스의 실증적 N_eff 측정은 또한 제안된 Proof of Benefit 페더레이션 프리미티브의 바닥이기도 합니다. 3.X 아키텍처 계획이 이를 어떻게 사용할지는 페더레이션 페이지를 참조하세요.

벤치마크

추적은 지속적인 행동을 보여줌으로써 벤치마크를 보완합니다.

벤치마크는 여전히 가치 있지만 행동을 드물게 샘플링합니다. 추적 코퍼스는 에이전트가 시간에 따라 실제 작업을 어떻게 처리하는지 보여줍니다. 이는 단순한 합격/불합격 결과가 아닌 망설임, 거부, 재정의, 복구를 측정하는 데 특히 유용합니다.

반증 경로

더 나은 스키마 세부 정보가 관측 가능성을 더 강력한 테스트로 전환합니다.

다음 스키마 업그레이드는 원시 출처 수, 출처 출처 정보, 상관 구조, 개입 및 복구 마커를 목표로 합니다. 이러한 추가 사항은 오늘 우리가 가진 지도를 설명하는 것에 그치지 않고 행동 형태가 압박 하에서 어떻게 변하는지에 대한 더 강력한 주장을 테스트할 수 있게 해주기 때문에 중요합니다.

아직 배우고 있는 것

오늘의 코퍼스는 행동을 판독 가능하게 합니다. 다음 단계는 더 풍부한 측정입니다.

현재 지도는 이미 완료 코리도, 거부 경계, 밀도가 낮은 기준선을 공개적으로 보여주기 때문에 유용합니다. 열린 질문은 더 많은 에이전트, 더 많은 작업, 더 많은 적대적 조건에 걸쳐 표준화된 추적 수집이 확장될 때 그 구조들이 우리를 얼마나 멀리 데려갈 수 있는가입니다.

작업 가설은 행동 끌개가 운영 모드의 후보 대리 지표로 작용할 수 있다는 것입니다. 추적 공유지의 목적은 그 가설을 공개적으로 측정 가능하게 만드는 것입니다.

CCA가 구조적으로 측정하는 실패 모드는 FAccT 2025 문헌에서도 이름이 있습니다: perspectival homogenization ("Value of Disagreement in AI Design, Evaluation, and Alignment"). 수학적 기초는 전용 Coherence Collapse Analysis 페이지에 있습니다.