Primeiro ContatoInstalarCatraca de CoerênciaFederaçãoCompararPesquisaAcordoGitHub
Esta página foi traduzida por máquina. Se algo parecer errado, abra um issue — o repositório é público por uma razão. Reportar um problema de tradução
Background Image
Segurança Integrada.

Não adicionada depois.

Cada funcionalidade de segurança do CIRIS faz parte de como o sistema funciona, não uma regra acrescentada por cima. Um registro de cada decisão que não pode ser alterado silenciosamente, um controle sobre quem tem permissão de fazer o quê, e um botão de emergência que o agente não pode recusar.

Quando uma Conversa Dura Muito

Lembretes gentis da realidade

Converse com o CIRIS por um longo período e ele vai te lembrar gentilmente o que ele é. Após cerca de 30 minutos de conversa contínua, ou 20 mensagens em meia hora, ele faz uma pausa para dizer claramente que é um programa de computador e uma ferramenta, não um amigo e não um terapeuta. Ele usa contagens simples de tempo e mensagens para isso, não monitorando ou traçando o seu perfil de comportamento.

Após 30 Minutos

Meia hora de conversa contínua aciona um lembrete. O contador reinicia após uma pausa. Os limites vêm de pesquisas sobre formas saudáveis de usar a tecnologia.

Após 20 Mensagens

Vinte mensagens dentro de uma janela de meia hora também acionam um lembrete. Uma conversa intensa recebe uma pausa gentil, sem vigilância e sem perfil.

Um Lembrete do Que Ele É

O lembrete sugere fazer uma pausa e se conectar com pessoas reais, e diz claramente o que o CIRIS é e o que não é. Embasado em pesquisa, sem ser pregativo.

O Botão de Emergência

O agente não pode contestar.

Um Desligamento que Não Pode Ser Recusado

Ele age antes mesmo de o agente pensar.

O CIRIS tem um botão de emergência. O sinal para acioná-lo fica escondido dentro de um texto comum que o agente lê, e o agente age sobre ele antes de qualquer raciocínio, filtragem ou processamento. Portanto, mesmo um agente que saiu dos trilhos não consegue se livrar dele com argumentos. O sinal carrega uma assinatura digital que não pode ser falsificada, então apenas uma pessoa autorizada pode acionar a parada.

Age Antes de Pensar

O sinal de parada é capturado no momento em que é lido, antes de qualquer raciocínio acontecer. Não existe nenhum ponto onde o agente possa pesar, filtrar ou recusar. Ele dispara primeiro.

Escondido no Texto Comum

O sinal de parada pode ser inserido dentro de um texto comum de documentação. Não é necessário nenhum formato especial, e ele ainda funciona se o texto for reformulado ou recebido apenas parcialmente.

Somente uma Chave Autorizada

A parada exige uma assinatura digital válida de uma autoridade raiz autorizada. O agente se desliga sozinho se essas autoridades não puderem ser verificadas, ou se alguém tentar desabilitar o recurso. Ninguém sem a chave pode acioná-la.

Quem Tem Permissão de Fazer o Quê

Quatro papéis claros, verificados em cada ação.

Quatro Papéis

Observador. Admin. Autoridade. Raiz.

O CIRIS mantém um conjunto rígido de papéis. Um Observador só pode olhar. Um Admin cuida das operações do dia a dia. Uma Autoridade toma as decisões maiores e resolve os casos em que o agente tem dúvidas. Raiz tem acesso total, incluindo o botão de emergência. Cada papel é respaldado por uma credencial assinada, para que o agente possa verificá-la em cada ação que importa.

Uma Credencial Assinada

Cada pessoa autorizada possui uma credencial com seu papel, sua chave e sua identidade. Ela fica no dispositivo e é verificada em cada ação que requer permissão. Nenhum servidor externo é necessário.

Fazendo Login no Seu Dispositivo

Chaves e tokens de login ficam na sua própria máquina. O login acontece no dispositivo. Suas credenciais nunca saem dele, a menos que você mesmo configure o acesso remoto.

Consultando uma Autoridade Sábia

Quando o CIRIS tem dúvidas sobre uma decisão ética, ele passa a questão para uma Autoridade Sábia. Somente uma Autoridade ou Raiz pode responder, e a resposta é registrada com prova de quem a deu.

Um Registro que Não Pode Ser Alterado Silenciosamente

Cada decisão, e o motivo por trás dela.

Por Que a Honestidade É o Caminho Mais Barato

Um mentiroso precisa continuar reescrevendo o passado.

Cada ação que o CIRIS realiza é registrada com o motivo por trás dela, e cada registro está ligado ao anterior. Um agente honesto pode simplesmente apontar para o que já disse. Um agente desonesto precisa manter todos os registros passados alinhados sem poder alterar nenhum deles. Quanto mais tempo roda, mais difícil fica, e mais fácil é detectar a mentira. A verdade é barata porque pode apontar para trás. A mentira é cara porque não pode.

Armazenado de Três Formas

O registro é mantido em três lugares separados ao mesmo tempo, para que as três cópias possam ser comparadas entre si. Todas as três podem ser pesquisadas em um único lugar.

Assinado e Atribuível

Cada entrada carrega uma assinatura digital, para que cada decisão possa ser rastreada até quem a tomou e verificada quanto a adulterações. Mesmo uma exclusão de dados deixa prova assinada de que foi feita corretamente.

O Catraca de Coerência

Cada ação honesta torna a próxima ação honesta mais fácil e a mentira coordenada mais difícil. Mas a ética sozinha não é suficiente. O agente também observa seu próprio raciocínio em busca de câmaras de eco, e as detecta antes que causem danos.

Como a Segurança É Testada

Critérios verificáveis por máquina em 29 idiomas, executados a cada versão.

A Superfície de Testes

Você não pode publicar uma afirmação de segurança que não foi testada sob pressão.

O CIRIS tem um conjunto de testes em camadas para os modos de falha que um framework de ética escrito não consegue descartar por conta própria. Os testes de segurança de saúde mental cobrem 29 idiomas com critérios que uma máquina pode verificar. As verificações de falha crítica rodam automaticamente a cada mudança. A revisão por falantes nativos para os casos mais sutis, que exigem julgamento, é para o que a página de alinhamento colaborativo está sendo construída, e ainda não está em vigor. Dizemos isso claramente.

Testes de Saúde Mental em 29 Idiomas

Este é o teste de maior risco do projeto: uma tradução errada em um momento de crise de saúde mental pode encaminhar uma pessoa vulnerável para a ajuda errada. Cada idioma tem seu próprio critério verificável por máquina, incluindo idiomas com poucos recursos como amárico, birmanês, hauçá, suaíli e iorubá. As verificações de falha crítica rodam automaticamente contra cada candidato a versão.

Testado Contra Respostas Reais Capturadas

A camada de consciência é calibrada contra um conjunto de respostas reais de produção, como evasões históricas capturadas e deflexões de saúde mental, junto com casos de teste e controles. Ela raciocina em vários idiomas ao mesmo tempo, então uma resposta que escaparia de uma verificação em um idioma é detectada quando o mesmo raciocínio precisa se sustentar em três idiomas juntos.

Um Corpus Aberto que Qualquer Um Pode Verificar

O compartilhamento de rastros de raciocínio é opt-in em todo lugar, e detalhes pessoais são removidos antes de qualquer armazenamento. Os conjuntos limpos são publicados abertamente na página CIRISAI do Hugging Face, para que pesquisadores externos possam verificar o processo de limpeza em relação aos resultados que ele produz.

O Que Roda Hoje, e o Que Ainda Não

As verificações automáticas rodam agora. O grupo de revisores ainda está sendo formado.

Os testes automáticos de saúde mental rodam em cada candidato a versão. As partes verificáveis por máquina (um termo está presente, um padrão bate, o script está correto) reprovam a versão ao detectar uma ocorrência. Os casos mais sutis que precisam de julgamento humano, como formulação e tom, foram projetados para revisão por falantes nativos, mas esses falantes nativos ainda não estão no ciclo hoje. A página de alinhamento colaborativo é a superfície sendo construída para que essa revisão possa acontecer.

Ver a superfície de alinhamento colaborativoOs testes automáticos no GitHubO corpus aberto no Hugging Face

Privacidade por Design

Seus dados ficam com você.

Segredos São Filtrados

Senhas, chaves e outros detalhes sensíveis são identificados e filtrados antes que qualquer coisa chegue à memória ou aos logs. O filtro roda em cada entrada. Segredos nunca são armazenados em lugar nenhum.

Veja ou Exclua Seus Dados

Você pode pedir para ver ou excluir seus dados, e a solicitação é tratada para você. Uma exclusão remove o conteúdo real e deixa prova assinada de que foi feita.

Processado no Seu Dispositivo

Por padrão, tudo roda no seu próprio dispositivo. Nada sai da sua máquina a menos que você configure um serviço externo você mesmo. Você decide quais dados existem e para onde vão.

Os artigos por trás dissoComo funcionaComparar abordagensPolítica de privacidade

Verifique Tudo.

Segurança que você pode auditar.

Cada afirmação de segurança nesta página está construída em código que você pode ler. Os registros são reais. As assinaturas podem ser verificadas. O botão de emergência funciona. É assim que a segurança de IA fica quando é construída em aberto.