Esta página foi traduzida por máquina. Se algo parecer errado, abra um issue — o repositório é público por uma razão. Reportar um problema de tradução

voltar ao lobby

Coherence Collapse Analysis

Quando verificações extras param de ajudar?

Acumular verificações para detectar uma mentira só funciona se as verificações forem verdadeiramente independentes. Se elas secretamente se copiam, adicionar mais não adianta nada. Coherence Collapse Analysis é a peça simples de matemática que mede a diferença. A versão completa, com todas as provas, está no artigo.

A página da matemática

Verificado por software de prova

Cinco verificações que se copiam são, na prática, uma única verificação.

Digamos que cinco pessoas verificam uma resposta e todas as cinco concordam. Isso parece seguro. Mas se todas as cinco aprenderam isso no mesmo lugar, a concordância delas não são cinco opiniões. É uma opinião repetida cinco vezes. O número de verificações parece cinco. O número real é um.

Isso importa para a IA. Um sistema de IA pode rodar muitas verificações sobre seu próprio raciocínio e ainda assim ser enganado, se essas verificações compartilham o mesmo ponto cego. Coherence Collapse Analysis é como CIRIS diferencia verificações reais de ecos.

Contando as verificações que você realmente tem.

Há uma fórmula curta e única no coração disso. Ela vem da estatística de pesquisa, onde é chamada de efeito de desenho de Kish. CIRIS foi o primeiro a usá-la para alinhamento de IA.

real checks = checks / (1 + copying × (checks − 1))

"Checks" é quantas verificações você rodou. "Copying" é o quanto elas se sobrepõem, de 0 (todas independentes) a 1 (todas iguais). O resultado é quantas verificações você realmente tem.

Sem cópia: dez verificações contam como dez. Cada verificação ganha seu lugar.

Cópia total: dez verificações contam como uma. Não importa quantas você adicione.

Não muito parecidas, não muito dispersas.

A mesma forma aparece aqui que aparece em todo lugar que CIRIS olha. Se as verificações se copiam demais, o sistema é rígido demais: uma voz repetida, fácil de enganar. Se elas não têm nada em comum, é disperso demais: não conseguem concordar em nada. A verificação saudável vive na faixa entre os dois, o mesmo corredor em torno do qual o restante do CIRIS é construído.

As bordas exatas dessa faixa dependem do sistema sendo medido. Não há um número mágico único que funcione em todo lugar, e a pesquisa é honesta sobre isso. A ideia do corredor, completa, está na página de visão.

Isso foi medido, não apenas argumentado.

CIRIS mediu a contagem de verificações reais em seu próprio tráfego de agentes ao vivo, ao longo de milhares de decisões registradas. Em tráfego saudável, ficou na faixa de cerca de sete a nove verificações genuinamente independentes. Essa medição, e como foi feita, é o estudo Constrained Reasoning Chains. Você pode acompanhar os números ao vivo na página de pesquisa.

O que esta matemática não consegue fazer.

O artigo prova um limite rígido sobre si mesmo. Alguns tipos de dano não vêm de uma parte desonesta. Vêm de partes honestas que somam um resultado ruim, e cerca de quarenta por cento desse tipo de dano não pode ser capturado por nenhuma verificação, por melhor que seja. CIRIS diz isso claramente em vez de fingir que a matemática captura tudo.

O que a matemática diz é sobre custo ao longo do tempo: executar raciocínio real e honesto por semanas seguidas é mais estável e mais barato do que manter uma mentira consistente ao longo de milhares de decisões registradas. Ela inclina o terreno em direção à honestidade. Não promete capturar cada mentira individualmente.

A matemática é uma parte de um todo maior.

Esta página é a medição. O Coherence Ratchet é como a medição é colocada em prática. A Federação é como ela se torna algo que muitos sistemas compartilham. E as provas completas, escritas para que um computador possa verificá-las linha por linha, estão no artigo e no repositório RATCHET.

CIRISsafe by structure · open by principle · kind by design