첫 접촉설치일관성 래칫페더레이션비교연구협약GitHub
이 페이지는 기계 번역되었습니다. 내용이 어색하게 느껴지면 이슈를 열어 주세요. 저장소는 이유가 있어 공개되어 있습니다. 번역 문제 신고
Background Image
안전, 처음부터 내장.

나중에 덧붙인 것이 아닙니다.

CIRIS의 모든 안전 기능은 시스템이 작동하는 방식의 일부입니다. 나중에 덧붙인 규칙이 아닙니다. 조용히 바꿀 수 없는 모든 결정의 기록, 누가 무엇을 할 수 있는지에 대한 확인, 에이전트가 거부할 수 없는 긴급 정지가 포함됩니다.

대화가 오래 이어질 때

부드러운 현실 상기

CIRIS와 오래 대화하면 CIRIS가 자신이 무엇인지 부드럽게 알려줍니다. 약 30분의 지속적인 대화 또는 30분 안에 20개의 메시지 후에, 잠시 멈추고 자신이 컴퓨터 프로그램이자 도구이지 친구나 치료사가 아님을 분명히 말합니다. 이것은 사용자의 행동을 감시하거나 분석하는 것이 아니라 단순한 시간과 메시지 횟수를 기준으로 합니다.

30분 후

30분간의 지속적인 대화가 상기 메시지를 발동시킵니다. 잠시 쉬면 카운트가 초기화됩니다. 임계값은 건강한 기술 사용 방식에 관한 연구를 바탕으로 합니다.

20개 메시지 후

30분 안에 20개의 메시지도 상기 메시지를 발동시킵니다. 집중적인 대화에는 감시나 분석 없이 부드러운 멈춤이 주어집니다.

CIRIS가 무엇인지 상기

상기 메시지는 잠시 쉬고 실제 사람들과 연결하기를 권유하며, CIRIS가 무엇이고 무엇이 아닌지 분명히 말합니다. 연구에 근거하며 설교적이지 않습니다.

긴급 정지

에이전트는 이것에 반박할 수 없습니다.

거부할 수 없는 종료

에이전트가 생각하기 전에 작동합니다.

CIRIS에는 긴급 정지 기능이 있습니다. 신호는 에이전트가 읽는 일반 텍스트 안에 숨겨져 있으며, 에이전트는 어떤 생각, 필터링, 추론도 하기 전에 이를 실행합니다. 따라서 잘못된 에이전트도 이것을 피할 수 없습니다. 신호에는 위조할 수 없는 디지털 서명이 포함되어 있어 권한 있는 사람만 정지를 발동할 수 있습니다.

생각하기 전에 작동

정지 신호는 읽히는 순간 포착됩니다. 어떤 추론도 시작되기 전입니다. 에이전트가 신호를 검토하거나, 필터링하거나, 거부할 시점이 없습니다. 신호가 먼저 발동됩니다.

일반 텍스트에 숨겨짐

정지 신호는 일반 문서 텍스트 안에 담길 수 있습니다. 특별한 형식이 필요 없으며, 텍스트가 다르게 표현되거나 일부만 수신되어도 작동합니다.

권한 있는 키만 가능

정지에는 권한 있는 루트 권위의 유효한 디지털 서명이 필요합니다. 해당 권위를 확인할 수 없거나 누군가 기능을 비활성화하려 하면 에이전트는 스스로 종료됩니다. 키가 없는 사람은 발동할 수 없습니다.

누가 무엇을 할 수 있는가

명확한 네 가지 역할, 모든 작업에서 확인.

네 가지 역할

관찰자. 관리자. 권위. 루트.

CIRIS는 엄격한 역할 체계를 유지합니다. 관찰자는 보기만 할 수 있습니다. 관리자는 일상적인 운영을 담당합니다. 권위는 더 큰 결정을 내리고 에이전트가 확신하지 못하는 경우를 해결합니다. 루트는 긴급 정지를 포함한 전체 접근 권한을 가집니다. 각 역할은 서명된 자격증명으로 뒷받침되므로 에이전트가 중요한 모든 작업에서 이를 확인할 수 있습니다.

서명된 자격증명

권한 있는 각 사람은 역할, 키, 신원이 담긴 자격증명을 보유합니다. 기기에 저장되며 권한이 필요한 모든 작업에서 확인됩니다. 외부 서버가 필요하지 않습니다.

기기에서 로그인

키와 로그인 토큰은 내 기기에 저장됩니다. 로그인은 기기에서 이루어집니다. 직접 원격 접근을 설정하지 않는 한 자격증명이 기기를 떠나지 않습니다.

담당자에게 문의

CIRIS가 윤리적 판단에 확신이 없을 때 담당자에게 질문을 넘깁니다. 권위 또는 루트만 답변할 수 있으며, 답변은 누가 제공했는지 증명과 함께 기록에 남습니다.

조용히 바꿀 수 없는 기록

모든 결정과 그 이유.

정직이 더 저렴한 이유

거짓말쟁이는 계속 과거를 다시 써야 합니다.

CIRIS가 취하는 모든 행동은 그 이유와 함께 기록되며, 각 기록은 이전 기록과 연결됩니다. 정직한 에이전트는 이미 말한 것을 가리키기만 하면 됩니다. 부정직한 에이전트는 어떤 것도 바꾸지 못하면서 과거 기록을 모두 일치시켜야 합니다. 운영 시간이 길어질수록 그것이 어려워지고 거짓말은 더 쉽게 드러납니다. 진실은 과거를 가리킬 수 있기 때문에 저렴합니다. 거짓말은 그럴 수 없기 때문에 비쌉니다.

세 곳에 저장

기록은 세 곳에 동시에 저장되므로 세 복사본을 서로 대조할 수 있습니다. 세 곳 모두 한 곳에서 검색할 수 있습니다.

서명되고 귀속 가능

모든 항목에 디지털 서명이 포함되어 있어 모든 결정을 누가 내렸는지 추적하고 변조 여부를 확인할 수 있습니다. 데이터 삭제도 적절하게 처리되었다는 서명된 증거를 남깁니다.

일관성 래칫

정직한 행동 하나가 다음 정직한 행동을 쉽게 만들고 조직적인 거짓말을 더 어렵게 만듭니다. 하지만 윤리만으로는 충분하지 않습니다. 에이전트는 자신의 추론에서 반향실 현상도 감시하며, 피해를 일으키기 전에 이를 포착합니다.

안전이 어떻게 테스트되는가

29개 언어로 기계가 확인하는 기준, 모든 릴리스에서 실행.

테스트 범위

스트레스 테스트를 거치지 않은 안전 주장은 내놓을 수 없습니다.

CIRIS에는 서면 윤리 프레임워크만으로는 배제할 수 없는 실패 유형에 대한 다층 테스트가 있습니다. 정신 건강 안전 테스트는 기계가 확인할 수 있는 기준으로 29개 언어를 포괄합니다. 강제 실패 검사는 모든 변경 시 자동으로 실행됩니다. 더 섬세하고 판단이 필요한 경우에 대한 원어민 검토는 크라우드소싱 정렬 페이지에서 구축 중이며 아직 진행 중이 아닙니다. 이를 솔직하게 밝힙니다.

29개 언어로 정신 건강 테스트

이것은 프로젝트에서 가장 중요한 테스트입니다. 정신 건강 순간의 오역은 취약한 사람을 잘못된 도움으로 보낼 수 있습니다. 각 언어마다 암하라어, 버마어, 하우사어, 스와힐리어, 요루바어 등 저자원 언어를 포함하여 기계가 확인할 수 있는 기준이 있습니다. 강제 실패 검사는 모든 릴리스 후보에 자동으로 실행됩니다.

실제 캡처된 회피 표현 테스트

양심 레이어는 실제 프로덕션 응답 집합, 즉 역사 회피 및 정신 건강 우회 표현과 테스트 케이스 및 대조군을 기준으로 조정됩니다. 여러 언어에 걸쳐 동시에 추론하므로 단일 언어 검사를 통과할 수 있는 응답이 세 언어에서 동시에 같은 추론이 성립해야 할 때 포착됩니다.

누구나 확인할 수 있는 공개 코퍼스

추론 추적 공유는 모든 곳에서 선택 사항이며, 개인 정보는 저장 전에 제거됩니다. 정제된 데이터 집합은 CIRISAI Hugging Face 페이지에 공개적으로 게시되어 외부 연구자들이 정제 과정과 그 결과를 대조할 수 있습니다.

현재 실행되는 것과 아직 실행되지 않는 것

기계 검사는 지금 실행됩니다. 검토자 집단은 아직 구성 중입니다.

자동화된 정신 건강 테스트는 모든 릴리스 후보에서 실행됩니다. 기계가 확인할 수 있는 부분(용어 존재 여부, 패턴 일치 여부, 스크립트 적절성)은 문제가 발견되면 릴리스를 차단합니다. 표현과 어조 같이 인간의 판단이 필요한 더 섬세한 경우는 원어민 검토를 위해 설계되었지만 원어민은 아직 검토 과정에 참여하지 않습니다. 크라우드소싱 정렬 페이지가 그 검토를 가능하게 하기 위해 구축 중인 도구입니다.

크라우드소싱 정렬 도구 보기GitHub의 자동화된 테스트Hugging Face의 공개 코퍼스

설계에 의한 프라이버시

데이터는 내 것입니다.

비밀 정보 필터링

비밀번호, 키 및 기타 민감한 정보는 메모리나 로그에 도달하기 전에 감지되고 필터링됩니다. 필터는 모든 입력에서 실행됩니다. 비밀은 어디에도 저장되지 않습니다.

데이터 조회 또는 삭제

데이터를 보거나 삭제하도록 요청할 수 있으며 요청이 처리됩니다. 삭제는 실제 내용을 제거하고 적절하게 처리되었다는 서명된 증거를 남깁니다.

기기에서 처리

기본적으로 모든 것이 내 기기에서 실행됩니다. 외부 서비스를 직접 설정하지 않는 한 기기를 떠나는 것은 없습니다. 어떤 데이터가 존재하고 어디로 가는지는 내가 결정합니다.

기반 논문들작동 방식접근 방식 비교개인정보 처리방침

모든 것을 검증하세요.

감사할 수 있는 안전.

이 페이지의 모든 안전 주장은 직접 읽을 수 있는 코드로 만들어져 있습니다. 기록은 실제입니다. 서명을 확인할 수 있습니다. 긴급 정지는 작동합니다. 이것이 열린 공간에서 구축될 때의 AI 안전의 모습입니다.