Confiar nos pesos ou verificar o comportamento

A linha principal da segurança em IA tenta tornar o modelo bom por dentro: treinar seus valores, estudar seus pensamentos, fazê-lo debater consigo mesmo. Esse trabalho importa. CIRIS aposta no outro caminho. Assume que um modelo capaz pode estar desalinhado e, em vez de confiar na sua mente, torna suas ações consequentes responsáveis perante pessoas e outros sistemas que podem verificá-las.

Nos próprios termos do campo, CIRIS está no ramo institucional e de controle, ao lado do controle de IA e da IA de segurança garantida, não na linha principal de internalização de valores de RLHF, IA Constitucional, debate e interpretabilidade. Sua resposta para a supervisão escalável, como supervisionar algo mais inteligente do que você, é verificar o envelope de responsabilidade, não o raciocínio. Uma assinatura, um quórum, uma auditoria encadeada por hash continuam baratos de verificar mesmo quando a decisão por trás deles é sobre-humana. Alinha sistemas de muitos agentes capazes ao longo do tempo, não os valores de uma única mente.

A linha que mantemos

Não tenta alinhar uma IA todo-poderosa. De propósito.

Responsabilidade precisa de mais de uma parte. Alguém a quem responder. Uma forma de verificação que não pode ser silenciosamente absorvida. Um equilíbrio de poder que nenhum lado pode capturar. Uma super-inteligência única não tem nada disso, então não há forma honesta de responsabilizá-la. CIRIS foi construído para o outro futuro: muitos agentes capazes, pessoas e organizações cujas decisões consequentes são todas verificáveis de forma independente.

Então a posição é explícita. Um ASI singular não é um sistema a ser alinhado, mas uma condição a ser prevenida. Concentrar capacidade sobre-humana em um único lugar sem responsabilização, neste estágio do desenvolvimento institucional humano, é ilegítimo, porque nenhuma instituição está madura o suficiente para responsabilizá-lo, o que é precisamente o perigo. Nos próprios termos do framework, um singleton é o colapso de voz única ρ→1 que o modelo de corredor nomeia como uma falha de coordenação, não um sucesso. Que nossas garantias se mantenham em uma federação e se enfraqueçam contra um singleton não é uma lacuna que estamos corrigindo. É o regime que nos recusamos a legitimar, mantido como um compromisso, não apenas uma previsão.

Trabalho relacionado, com honestidade

Cada vizinho próximo preenche algumas caixas. Uma linha preenche todas.

CIRIS tem pares intelectuais sérios, cada um forte em seu próprio campo. O ponto desta tabela não é que as ideias sejam inéditas. É que quase ninguém construiu e entregou toda a pilha como um sistema responsável. Cada linha abaixo é uma linhagem real que vale a pena ler. Apenas a última linha verifica todas as colunas, e essa integração é a afirmação.

Abordagem	Trabalho mais próximo	Mecanismo	Tempo de execução, não treinamento	Assina a decisão	Constituição em tempo de execução	Verificação federada	Conformidade executável	Em produção
A tese institucional	Gillian Hadfield	Infraestrutura normativa e mercados regulatórios, como teoria e política	Teoria	Não	Teoria	Teoria	Não	Não
Grafos de governança	IA Institucional (Pierucci et al.)	Grafos públicos de estados legais e sanções, como protótipo de pesquisa	Pesquisa	Não	Pesquisa	Não	Não	Não
Governança constitucional na cadeia	AgentCity (Ruan, Zhang)	Separação de poderes como contratos inteligentes, pré-registrados em uma testnet	Pesquisa	Parcial	Pesquisa	Não	Não	Não
Assumir que o modelo está desalinhado	Redwood Research (controle de IA)	Monitoramento e red-teaming dentro de uma única implantação	Sim	Não	Não	Não	Pesquisa	Pesquisa
Comprovadamente seguro, externalizado	davidad, Bengio, a linhagem GS-AI	Provas formais sobre modelos de mundo	Parcial	Não	Teoria	Teoria	Pesquisa	Não
Constituição no momento do treinamento	Anthropic Constitutional AI	Valores treinados nos pesos, uma organização	Não	Não	Não	Não	Não	Sim
Proveniência criptográfica	C2PA, zkML (EZKL, Giza)	Assinar proveniência de mídia, provar que uma inferência foi executada	Sim	Parcial	Não	Parcial	Parcial	Sim
DAG de raciocínio assinado	Proof of Insight (Arclio)	Um grafo assinado de etapas de derivação de IA, como especificação em rascunho	Não	Parcial	Não	Teoria	Teoria	Não
Inferência atestada por hardware	Phala, Marlin, Attestable Audits	Executa inferência em um enclave seguro que assina a saída	Sim	Parcial	Não	Parcial	Não	Parcial
Identidade descentralizada e federação	atproto, Bittensor	Federação social ou de computação, sem camada de consciência	Parcial	Não	Não	Parcial	Parcial	Sim
Protocolos de agente	MCP, A2A	Interoperabilidade de ferramentas e agentes, sem governança	Sim	Não	Não	Não	Parcial	Sim
Suítes de avaliação de segurança e conformidade	MLCommons, METR, HarmBench	Benchmarks executáveis que pontuam o comportamento do modelo, não as decisões	Não	Não	Não	Não	Parcial	Sim
Auditoria terceirizada e federada	AISI Network, GovAI	Institutos independentes testam conjuntamente sistemas implantados	Parcial	Não	Não	Sim	Não	Parcial
CIRIS	Este sistema	Pipeline de consciência para artefatos assinados, constituição em tempo de execução, federação pós-quântica	Sim	Sim	Sim	Sim	Sim	Sim

Mapeado a partir de trabalhos públicos até junho de 2026, cada linha citada abaixo. Se temos um vizinho próximo errado, nos diga e corrigiremos a linha.

Fontes

02IA do Consumidor

Como se compara à IA que você usa de verdade

Os assistentes do dia a dia são poderosos e fáceis de usar. Eles também rodam na nuvem de outra pessoa, não guardam nenhum registro que você possa verificar, e não respondem a ninguém que você possa nomear. Aqui está o mesmo teste de responsabilidade, aplicado à IA que a maioria das pessoas abre todo dia.

Assistente	Princípios publicados	Prova do que fez	Pergunta a um humano quando tem dúvida	Código aberto	Verificação de câmara de eco
ChatGPT	Sim	Não	Não	Não	Não
Gemini	Sim	Não	Não	Não	Não
Claude	Sim	Não	Não	Não	Não
CIRIS	Sim	Sim	Sim	Sim	Sim

Comparado com base no comportamento público do produto em junho de 2026. Cada link de princípios leva à especificação publicada pela própria empresa.

A maior parte do campo está alinhando o modelo. CIRIS está construindo as instituições ao redor dele.

Confiar nos pesos ou verificar o comportamento

Não tenta alinhar uma IA todo-poderosa. De propósito.

Como se compara à IA que você usa de verdade

Experimente Você Mesmo

Veja o Raciocínio em Ação

Verifique a Identidade

Comece Agora