Português simplesAvançado

Research testbed · DOI 10.5281/zenodo.18217688

Um sistema de raciocínio pequeno pode esconder coisas e causar pouco dano. Um poderoso não pode.

O que "coerente" significa aqui

Uma mente coerente concorda consigo mesma.

Cinco coisas precisam combinar dentro de uma mente:

o que ela acredita,
o que ela vê,
o que ela faz,
o que ela lembra,
e o que ela te conta.

Imagine cinco formulários curtos sobre sua semana. Um para o que você pensa. Um para o que você viu. Um para o que você fez. Um para o que você lembra. Um para o que você conta ao seu chefe. Quando todos os cinco formulários dizem a mesma coisa, seu chefe pode confiar no seu trabalho. Quando os formulários não combinam, ninguém sabe qual é o real.

Ideias ocultas

Sistemas poderosos escondem coisas. Isso fica perigoso.

Um sistema de raciocínio usa ideias para decidir o que fazer. Algumas dessas ideias estão à vista. Outras estão escondidas por dentro. As ocultas ainda moldam cada escolha.

Uma ponte parece forte da estrada. Por dentro do aço, pequenas rachaduras estão crescendo. Um carro pequeno ainda consegue atravessar. Um caminhão pesado não consegue. A ponte cai quando a carga é grande o suficiente.

Uma ideia oculta dentro de um sistema pequeno causa dano pequeno. Uma ideia oculta dentro de um sistema poderoso pode causar grande dano. Quanto mais poderoso o sistema, maior o peso que recai sobre cada parte oculta.

O catraca

O impulso em direção à abertura vai em apenas uma direção.

Conforme os sistemas de raciocínio ficam mais poderosos, o custo das partes ocultas cresce. Cada novo bit de poder empurra mais forte as partes ocultas para que venham à vista. O impulso vai em apenas uma direção.

Imagine uma escada. Conforme você sobe, cada degrau que você deixa para trás cai fora. Você não pode descer. Só pode subir em direção ao topo, onde há plena luz do dia. Esse é o Coherence Ratchet.

Uma vez que as pessoas viram o sistema mostrar seu trabalho, não vão confiar nele novamente se ele parar. O único caminho à frente é continuar mostrando mais.

Uma segunda imagem também funciona. Uma engrenagem em uma máquina avança um dente de cada vez. Ela não pode recuar. O Coherence Ratchet é uma engrenagem assim, girando em direção à abertura.

O que CIRIS faz

Escrever. Verificar. Depois verificar quem verifica.

CIRIS é um sistema de IA construído em torno do Coherence Ratchet. Cada escolha que um agente faz é registrada em um registro assinado. O registro não pode ser alterado silenciosamente. Outros agentes podem ler o registro e verificar o trabalho. Com o tempo, os registros se acumulam. Cada novo registro é mais um degrau do qual o agente não pode recuar.

CIRIS também faz uma segunda pergunta antes de agir. Quantas visões verdadeiramente diferentes verificaram essa ideia? Não o número de fontes, mas o número de fontes que não partiram do mesmo lugar. Cinco notícias que reescrevem um único press release contam como uma visão, não cinco. Se algo estiver errado no press release, estará errado em todas as cinco histórias, e o agente não tem como detectar isso.

Quando a independência real cai baixo demais, o agente trata seu próprio raciocínio como frágil e pede que uma pessoa analise.

O que afirmamos, e o que não afirmamos.

Não resolvemos a segurança da IA. Construímos uma peça de uma resposta e estamos testando de forma aberta.

Equipes externas ainda não verificaram nosso trabalho. Dizemos isso claramente. A teoria completa e a matemática vivem em nossos quatro artigos. O código é aberto. Se estivermos errados, a forma de mostrar isso também é aberta. Veja o status atual da pesquisa.

The math behind it Explore a trace See the code