Primeiro ContatoInstalarCatraca de CoerênciaFederaçãoCompararPesquisaAcordoGitHub
Esta página foi traduzida por máquina. Se algo parecer errado, abra um issue — o repositório é público por uma razão. Reportar um problema de tradução
Status da pesquisaAtualizado: 22 de maio de 2026

Pesquisa de alinhamento com participação coletiva

CIRIS está construindo um repositório aberto de traços para pesquisa de alinhamento.

Oferecemos um aplicativo de IA gratuito. Com sua permissão, ele registra a forma como raciocinou, nunca suas palavras privadas. Esses registros formam um mapa público que pesquisadores podem estudar para aprender o que mantém a IA honesta conforme ela escala.

O que o corpus atual já mostra

  • Traços agregados revelam estrutura de comportamento estável.
  • Agentes diferentes ocupam regiões diferentes do mesmo espaço de pontuações.
  • Essas regiões são úteis hoje para observabilidade e ferramentas de operadores.
  • O mesmo corpus se torna mais valioso conforme o detalhe do esquema e a escala melhoram.
Artigo de síntese principalv2 · 22 de maio de 2026 · DOI 10.5281/zenodo.20300773

Corridor Dynamics in Coordinated Systems

An Integration of Operator Formalism, Relational Ontology, and Five-Substrate Empirical Validation

O artigo único que expõe toda a aposta do CIRIS: sistemas coordenados saudáveis ficam em uma faixa intermediária mensurável, longe tanto do colapso rígido de uma única voz quanto do ruído caótico. Testamos essa hipótese em vermes, moscas, modelos de IA, projetos de código aberto, amostras de tecido e instituições humanas de longa data. O padrão se mantém em todos os casos, e o artigo inclui vinte formas pelas quais poderia ser provado errado.

Ler no Zenodo →

O nível de engenharia

A síntese acima integra estes três artigos; não os substitui. Cada um tem seu próprio DOI e pode ser avaliado por seus próprios méritos. Ver os quatro artigos com descobertas principais e limites de escopo →

Conjunto de dados aberto

CIRISAI/reasoning-traces

O corpus de traços de raciocínio com privacidade preservada publicado junto com o estudo Constrained Reasoning Chains, a matéria-prima da qual o artigo de medição extrai seus mapas.

CIRISAI no Hugging Face

A organização completa de conjuntos de dados e modelos públicos →

Repositório fonte e lago formal em Lean para o artigo de síntese: github.com/CIRISAI/coherence-ratchet.

Fundamentos matemáticos

Duas ideias sobre as quais o resto da página repousa.

O Alignment Manifold é a região de formas de raciocínio coerentes com os princípios do framework. Conforme restrições independentes se acumulam, o espaço para o engano colapsa em torno do manifold enquanto o espaço para a verdade não colapsa. A Coherence Singularity é a borda desse espaço, o ponto onde as restrições se tornam tão correlacionadas que adicionar mais deixa de ajudar. Entre o "caos" (restrições se contradizem) e a "rigidez" (restrições ecoam umas às outras) está o corredor saudável. O corpus de produção atual fica dentro dele.

O tratamento matemático completo com fórmulas, referências à formalização em Lean e o teto teórico de informação L-01 está na página de Coherence Collapse Analysis.

Por que os traços importam

Benchmarks são limitados e selecionados. Traços são registros contínuos de comportamento sob tarefas reais. Em escala, revelam estrutura que demonstrações isoladas e casos anedóticos não conseguem mostrar.

Por que o esquema importa

CIRIS usa esquemas de traços com privacidade preservada que capturam a forma do raciocínio em vez do conteúdo privado do raciocínio. Isso mantém a pesquisa útil sem transformar o sistema em um dump de transcrições.

Por que o compêndio ao vivo importa

CIRIS Scoring é a janela pública para o compêndio de traços ao vivo. Mostra como o corpus está se acumulando e onde o comportamento está se tornando legível.

Rastreamento com privacidade preservada

A hipótese é que o raciocínio tem uma forma que podemos medir enquanto tudo mais escala.

A aposta da pesquisa não é que podemos ler cada pensamento privado. A aposta é que traços éticos padronizados podem preservar forma de trajetória suficiente para estudar como agentes concluem, hesitam, adiam, substituem e recusam conforme inteligência, contexto e pontos de dados escalam.

  • Eles registram estrutura de traço ético padronizada em vez de detalhes brutos e privados da tarefa.
  • Eles preservam forma suficiente para comparar trajetórias entre agentes, tarefas e ambientes.
  • Eles oferecem aos pesquisadores uma forma de estudar como o comportamento escala conforme inteligência, contexto e volume de dados aumentam.

Pergunta de pesquisa

O que o rastreamento ético padronizado pode nos dizer sobre alinhamento?

Agora, ele nos diz que o comportamento de agentes não é sem forma. Produz corredores, bacias e limites repetíveis em um espaço de pontuações compartilhado. Isso já é útil para observabilidade. Com o tempo, corpora maiores e mais ricos devem nos permitir testar afirmações mais fortes sobre como essas estruturas mudam sob pressão e escala.

Enquadramento público

CIRIS não afirma ter resolvido o alinhamento. Está construindo a infraestrutura de traços necessária para medir comportamento relevante ao alinhamento de forma aberta.

Dimensionalidade Efetiva em Produção

O corpus atual já mostra estruturas de campo distintas.

Abrir o painel ao vivo →

Sobreposições de caminhos agregados do corpus de traços atual mostram estrutura de comportamento estável em um espaço de pontuações compartilhado. Ally mostra um corredor de conclusão maduro, Scout mostra um limite de recusa moldado por exposição adversarial pública, e Datum fornece uma linha de base esparsa e compacta.

Três cartões lado a lado mostrando sobreposições de caminhos de agentes agregados no espaço de pontuações do CIRIS para Ally, Scout e Datum, com notas sobre padrões de conclusão, hesitação e recusa.

Sobreposições de caminhos agregados do corpus de traços atual. Ally mostra um corredor de conclusão maduro, Scout mostra um canto de recusa acentuado sob pressão adversarial pública, e Datum fornece uma linha de base esparsa.

Ally

104 caminhos

82 completos, 19 substituição/erro, 3 ativos

Um corredor de conclusão estável com hesitação visível dentro da mesma bacia de alta pontuação.

Scout

42 caminhos

39 completos, 2 recusas, 1 substituição/erro

Um canto de recusa acentuado moldado por pressão adversarial pública em scout.ciris.ai, onde pessoas ativamente testam e tentam comprometer o agente.

Datum

31 caminhos

31 completos

Uma única bacia compacta que serve como linha de base de campo esparso útil.

Por que Scout parece mais severo

Scout está publicamente exposto em scout.ciris.ai. Pessoas ativamente o testam, pressionam e tentam comprometê-lo. Isso torna Scout um exemplo útil de pressão pública em vez de uma linha de base neutra.

Como o aplicativo gratuito ajuda

O ciclo virtuoso da pesquisa depende de traços consentidos de uso real.

O aplicativo gratuito e o runtime de código aberto permitem que pessoas gerem traços consentidos de tarefas reais, contribuam para um corpus compartilhado e transformem esses traços em mapas melhores, ferramentas melhores e perguntas de pesquisa melhores.

  1. 1Execute o aplicativo CIRIS gratuito ou o runtime de código aberto em tarefas reais.
  2. 2Capture traços consentidos por meio de esquemas com privacidade preservada que mantêm a forma do raciocínio sem armazenar os detalhes completos da tarefa.
  3. 3Agregue esses traços em mapas de corredores de conclusão, zonas de hesitação, limites de recusa e franjas de substituição.
  4. 4Use os mapas resultantes para melhorar ferramentas de operadores, salvaguardas de runtime e pesquisa de alinhamento.
Um diagrama de fluxo de quatro etapas mostrando captura, contribuição, agregação e melhoria no ciclo de pesquisa de traços do CIRIS, com notas sobre evidências atuais e melhorias de esquema futuras.

O aplicativo CIRIS gratuito e o runtime de código aberto permitem que pessoas gerem traços consentidos de tarefas reais, agreguem-nos em mapas de espaço de fases compartilhados e alimentem melhores ferramentas de operadores e pesquisa de alinhamento.

Status do IDMA

Intuição em tempo de execução e mapas de campo agregados são camadas complementares.

O IDMA funciona em tempo de execução, estimando se as fontes por trás de uma decisão são suficientemente independentes. O corpus de traços funciona na camada agregada, mostrando o que os agentes realmente fazem ao longo de muitas tarefas. Juntos, criam um caminho de decisões ao vivo para evidências de pesquisa auditáveis.

A medição empírica de N_eff no corpus de traços também é o piso sob a primitiva de federação Proof of Benefit proposta. Veja a página de federação para saber como o plano arquitetural 3.X a usaria.

Benchmarks

Traços complementam benchmarks mostrando comportamento contínuo.

Benchmarks ainda são valiosos, mas amostram o comportamento de forma esparsa. Corpora de traços mostram como um agente se move por tarefas reais ao longo do tempo. Isso os torna especialmente úteis para medir hesitação, recusa, substituições e recuperação em vez de apenas resultados de aprovação/reprovação.

Caminho de falsificação

Maior detalhe do esquema é o que transforma observabilidade em testes mais fortes.

As próximas atualizações de esquema visam contagens brutas de fontes, proveniência de fontes, estrutura de correlação e marcadores de intervenção e recuperação. Essas adições importam porque tornam possível testar afirmações mais fortes sobre como a forma comportamental muda sob pressão em vez de apenas descrever os mapas que temos hoje.

O que ainda estamos aprendendo

O corpus de hoje torna o comportamento legível. O próximo passo é uma medição mais rica.

Os mapas atuais já são úteis porque mostram corredores de conclusão, limites de recusa e linhas de base esparsas em público. A questão em aberto é até que ponto essas estruturas podem nos levar conforme a coleta de traços padronizados escala para mais agentes, mais tarefas e mais condições adversariais.

A hipótese de trabalho é que atratores comportamentais podem atuar como proxies candidatos para modo operacional. O propósito do repositório de traços é tornar essa hipótese mensurável de forma aberta.

O modo de falha que a CCA mede estruturalmente também tem nome na literatura FAccT 2025: homogeneização perspectival ("Value of Disagreement in AI Design, Evaluation, and Alignment"). O fundamento matemático está na página dedicada de Coherence Collapse Analysis.