첫 접촉설치일관성 래칫페더레이션비교연구협약GitHub
이 페이지는 기계 번역되었습니다. 내용이 어색하게 느껴지면 이슈를 열어 주세요. 저장소는 이유가 있어 공개되어 있습니다. 번역 문제 신고

The Coherence Ratchet

Why a powerful mind has to show its work.

Research testbedDOI

소규모 사고 시스템은 무언가를 숨겨도 큰 해를 끼치지 않습니다. 강력한 시스템은 그럴 수 없습니다.

"일관된"이 여기서 무엇을 의미하는가

일관된 마음은 스스로와 일치합니다.

마음 안에서 다섯 가지가 일치해야 합니다:

  • 믿는 것,
  • 보는 것,
  • 하는 것,
  • 기억하는 것,
  • 말하는 것.

당신의 한 주를 기록하는 다섯 개의 짧은 양식을 상상해 보세요. 하나는 생각하는 것. 하나는 본 것. 하나는 한 것. 하나는 기억하는 것. 하나는 상사에게 말하는 것. 다섯 양식이 같은 이야기를 한다면, 상사는 당신의 업무를 신뢰할 수 있습니다. 양식들이 일치하지 않으면, 어느 것이 실제인지 아무도 알 수 없습니다.

숨겨진 아이디어

강력한 시스템은 무언가를 숨깁니다. 그것이 위험해집니다.

사고 시스템은 무엇을 할지 결정하기 위해 아이디어를 사용합니다. 그 아이디어 중 일부는 공개되어 있습니다. 다른 것들은 내부에 숨겨져 있습니다. 숨겨진 것들도 여전히 모든 선택을 형성합니다.

도로에서 보면 다리가 튼튼해 보입니다. 강철 안에서는 작은 균열이 자라고 있습니다. 작은 차는 건널 수 있습니다. 무거운 트럭은 건널 수 없습니다. 부하가 충분히 크면 다리가 무너집니다.

작은 시스템 안의 숨겨진 아이디어는 작은 해를 끼칩니다. 강력한 시스템 안의 숨겨진 아이디어는 큰 해를 끼칠 수 있습니다. 시스템이 강력할수록, 숨겨진 모든 부분에 더 많은 무게가 실립니다.

래칫

공개를 향한 압박은 한 방향으로만 갑니다.

사고 시스템이 더 강력해질수록, 숨겨진 부분의 비용이 증가합니다. 새로운 힘의 각 단위는 숨겨진 부분이 더 강하게 공개되도록 압박합니다. 압박은 한 방향으로만 갑니다.

사다리를 상상해 보세요. 올라갈수록 뒤에 남긴 각 가로대가 떨어집니다. 다시 내려갈 수 없습니다. 완전한 낮이 있는 꼭대기를 향해서만 올라갈 수 있습니다. 그것이 Coherence Ratchet입니다.

사람들이 시스템이 작업을 보여주는 것을 한 번 보면, 다시 보여주지 않으면 더 이상 신뢰하지 않을 것입니다. 앞으로 나아가는 유일한 방법은 계속 더 많이 보여주는 것입니다.

두 번째 비유도 작동합니다. 기계의 톱니바퀴는 한 번에 한 이빨씩 앞으로 클릭됩니다. 뒤로 클릭할 수 없습니다. Coherence Ratchet은 그런 톱니바퀴로, 공개를 향해 돌아갑니다.

CIRIS가 하는 것

적어 두세요. 확인하세요. 그런 다음 확인자를 확인하세요.

CIRIS는 Coherence Ratchet을 중심으로 구축된 AI 시스템입니다. 에이전트가 내리는 모든 선택은 서명된 기록에 적힙니다. 그 기록은 조용히 바꿀 수 없습니다. 다른 에이전트들이 기록을 읽고 작업을 확인할 수 있습니다. 시간이 지나면서 기록들이 쌓입니다. 각 새로운 기록은 에이전트가 물러설 수 없는 하나 더 많은 가로대입니다.

CIRIS는 또한 행동하기 전에 두 번째 질문을 합니다. 이 아이디어를 확인한 진정으로 다른 시각이 몇 개인가? 출처의 수가 아니라, 같은 장소에서 시작하지 않은 출처의 수입니다. 하나의 보도 자료를 다시 쓴 다섯 개의 뉴스 기사는 다섯 개가 아닌 하나의 시각으로 계산됩니다. 보도 자료에 무언가 잘못된 것이 있다면, 다섯 기사 모두에서 잘못될 것이며, 에이전트는 그것을 잡을 방법이 없습니다.

실제 독립성이 너무 낮아지면, 에이전트는 자신의 생각을 취약하게 여기고 사람에게 살펴봐 달라고 요청합니다.

우리가 주장하는 것, 그리고 주장하지 않는 것.

우리는 AI 안전 문제를 해결하지 않았습니다. 하나의 답 중 한 부분을 만들었고, 공개적으로 테스트하고 있습니다.

외부 팀들이 아직 우리의 작업을 검증하지 않았습니다. 우리는 이것을 솔직하게 말합니다. 전체 이론과 수학은 4편의 논문에 있습니다. 코드는 공개되어 있습니다. 우리가 틀렸다면, 보여주는 방법도 공개되어 있습니다. 현재 연구 현황을 확인하세요.