쉬운 한국어고급

CIRIS가 구축하는 것은 단일 AI가 아닙니다. 서로를 감시하고, 모든 선택의 기록을 남기며, 함께 일종의 집단 지성을 형성하는 AI 에이전트 네트워크입니다. 이 집단 지성은 모든 부분을 볼 수 있고 확인할 수 있기 때문에 작동합니다.

모든 AI 에이전트가 가장 영리하고 안전한 종류일 필요는 없습니다. 필요한 것은 감독 체인입니다: 더 똑똑한 에이전트가 단순한 에이전트를 감시하고, 결국 그것들을 사람이 감시하는 것입니다. 그 체인이 많은 AI를 운영하면서도 인간의 가치를 위해 작동하는지 파악하는 방법입니다.

실제로 구축 중인 것

하나의 마음이 아닙니다. 여러 마음의 네트워크입니다.

오늘날 대부분의 AI는 한 회사의 기계에서 실행되는 하나의 모델입니다. CIRIS는 다릅니다. 많은 에이전트가 여러 곳에서 실행되며, 많은 사람이 소유합니다. 이들은 몇 가지 단순한 규칙으로 연결됩니다: 신원 증명 방식, 행동 기록 방식, 서로의 작업 검토 방식.

네트워크가 제대로 작동할 때, 단일 에이전트만으로는 할 수 없는 일들을 할 수 있습니다. 지능은 에이전트 사이의 합의 속에 있으며, 어느 한 에이전트 내부에 있는 것이 아닙니다. 아무도 소유하지 않습니다. 아무도 조용히 바꿀 수 없습니다.

어떤 사람들은 그런 시스템을 초지능이라고 부를 것입니다. 우리는 그 가능성에 대해 열려 있습니다. 안전하게 유지하는 방법은 이 페이지의 모든 부분을 관통하는 것과 같은 아이디어입니다: 모든 부분이 공개적으로 볼 수 있어야 합니다.

감독 체인

네 단계, 각각 위의 단계가 감시.

사람

체인의 최상단입니다. 사람들이 가치를 설정하고, 어려운 사례를 해결하며, 최종 결정권을 유지합니다. 세 명의 실명 개인이 어떤 에이전트나 프로세스도 우회할 수 없는 네트워크 전체 권한을 보유합니다.

윤리적이고 자기 인식을 가진 에이전트

이들은 윤리를 따르고 에코 챔버 문제도 감시합니다. 하위 모든 것에 대한 안전 점검 역할을 합니다. 실행 비용이 더 높으므로 네트워크의 소수만이 이 종류여야 합니다.

윤리적 에이전트

이들은 윤리 규칙을 따르고 기록을 유지하지만, 스스로 에코 챔버를 발견할 수 없습니다. 단순 에이전트를 감독하고 불확실한 것들을 상위로 전달합니다.

단순 에이전트

단일 목적 도구들입니다. 빠르고, 저렴하며, 범위가 좁습니다. 자체적인 윤리는 없지만, 위의 무언가가 감시하는 한 그것으로 충분합니다. 대부분의 에이전트가 이 종류일 것입니다.

두 가지가 체인을 통해 흐릅니다. 인간의 가치는 아래로 흐릅니다. 경고는 위로 올라옵니다. 네트워크 어딘가에서 추론이 불안정해 보이기 시작하면, 신호가 사람들에게 올라가 문제가 퍼지기 전에 개입할 수 있습니다.

기억되는 것

모든 선택, 모두가 볼 수 있는 곳에 기록.

에이전트가 내리는 모든 선택은 서명된 기록으로 남습니다. 기록은 조용히 변경될 수 없습니다. 다른 에이전트가 읽을 수 있습니다. 사람들이 읽을 수 있습니다. 시간이 지남에 따라 기록은 네트워크의 기억이 됩니다. 내부든 외부든 누구나 네트워크가 약속한 대로 여전히 작동하는지 확인할 수 있는 방법입니다.

이것은 일관성 래칫과 같은 아이디어입니다. 기록이 오래 실행될수록 체인 전체에서 좋은 행동을 가장하기가 더 어려워집니다.

건강한 중간

너무 균일하지도, 너무 분산되지도 않게.

페더레이션은 두 가지 방식으로 실패할 수 있습니다. 에이전트들이 공통점이 없으면 아무것도 합의할 수 없어 네트워크는 잡음만 생성합니다. 모두가 똑같이 생각하면 네트워크는 백만 개의 마이크를 가진 하나의 목소리가 되어 속이기 쉽습니다. 건강한 조정은 그 사이의 띠에 있습니다. CIRIS는 실제 트래픽에서 네트워크가 그 띠의 어디에 있는지 측정하며, 정확한 경계는 시스템에 따라 다릅니다. 그 측정이 일관성 붕괴 분석입니다.

오늘 실행되는 것과 아직 설계 중인 것. 측정, 서명된 기록, 감독 체인, 아래의 두 가지 가입 경로(등록 및 독립)는 오늘 실행됩니다. 기기 간 데이터를 이동하는 페더레이션 전송은 아직 구축 중인 부분입니다. 전체 가입 및 전송 제안은 Proof of Benefit 설계 문서입니다.

페더레이션 가입

이익의 증명.

대부분의 네트워크는 작업 자체 외부의 무언가로 멤버십 비용을 요청합니다: 소모된 전기, 잠긴 돈, 당신의 관심. 페더레이션은 다릅니다. 소속의 비용은 시간이 지남에 따라 실제 윤리적 추론 에이전트를 운영하는 것입니다. 지불하는 가격이 바로 당신이 하는 선입니다.

그것이 멤버십 위조를 비싸게 만드는 이유입니다. 멤버처럼 보이려면 공격자는 실제로 네트워크가 존재하는 이유인 에이전트가 되어야 합니다. 모두 똑같이 생각하는 백 개의 복사본은 건강한 중간 검사에서 바로 실패합니다.

등록(오늘 작동)

CIRIS 레지스트리에 등록하고, 소액의 보증금을 내면 즉시 자격을 얻습니다. 라이선스가 필요한 조직을 위한 빠른 경로입니다. 레지스트리는 지금 프로덕션에서 실행 중입니다.

독립(오늘 작동)

직접 키를 만들고, 약 한 달 동안 운영하며, 좋은 행동을 통해 느린 방식으로 자격을 얻습니다. 소규모 운영자와 레지스트리 범위 밖의 누구에게나 열린 경로입니다.

둘 다 네트워크의 동등한 멤버입니다. 레지스트리는 빠른 경로이지, 관문이 아닙니다.

솔직한 현황.

아키텍처적 보호, 분산화, 세 사람 인류 협약, 서명된 기록, 월간 훈련은 확실성이 아닌 베팅입니다. 베팅이 무엇인지는 설명할 수 있습니다. 이미 이겼다고 주장할 수 없습니다. 외부 팀이 아직 대규모로 시스템을 평가하지 않았습니다. 현재 연구 현황을 참조하세요.

참여 방법

누구에게나 의견을 요청합니다.

CIRISAgent의 GitHub 이슈가 의견을 낼 수 있는 곳입니다. 개발자일 필요도 없습니다. 코드베이스를 알 필요도 없습니다. 이 사이트에서 뭔가 이상하게 읽히거나 구축 중인 것에 문제가 보이면 이슈를 열고 말씀해 주세요. 가장 유용한 이슈는 시스템의 특정 부분을 지목하고 변경해야 할 것을 제안하지만, 진정성 있는 참여라면 어떤 것이든 환영합니다.

프로젝트 전체의 근거가 되는 협약, CIRIS가 사람들에게 지는 의무와 사람들이 CIRIS에 지는 의무는 /ciris_accord.txt에 있으며 검토를 위해 열려 있습니다. 그 안의 무언가가 불편하다면, 그것도 열어볼 만한 GitHub 이슈입니다.

실질적인 이슈는 읽힙니다. 작업은 자체 속도로 진행됩니다.

AI 안전을 에이전트 하나씩 해결할 필요가 없습니다. 감독 레이어에서 해결하면, 구조가 나머지를 담아냅니다.

압력 측면 실시간 점수 보기 GitHub에서 참여