CEVIU Logo
Voltar
Consórcio de quatro LLMs alcança 86,2% de concordância unânime na triagem de vulnerabilidades

Consórcio de quatro LLMs alcança 86,2% de concordância unânime na detecção de vulnerabilidades

Aprofundamento CEVIU

Aprofundamento

O estudo atual não é só sobre 'mais LLMs = melhor'. Ele mostra que, em segurança de software, o equilíbrio entre profundidade de raciocínio e granularidade de entrada define o sucesso, não a capacidade bruta do modelo. Quando o LLM recebe toda a função vulnerável (como no modo function), a taxa de detecção sobe para 99,8% em casos como o freebsd-nfs-vuln. Já com o arquivo inteiro (whole_file), cai para 1,7% no openbsd-sack. Isso confirma o que já apontávamos em abril: modelos não estão falhando por falta de raciocínio, mas por saturação de contexto e ruído estrutural, um problema de engenharia de entrada, não de arquitetura.

A concordância unânime de 86,2% do consórcio de quatro LLMs reforça uma tendência observada na cobertura CEVIU desde abril: a combinação de modelos especializados (ex: Claude para CVEs, GPT-5.5-med para cadeias completas) supera qualquer 'modelo único soberano'. E isso tem impacto direto em DX: o custo de $9.200 para 2080 execuções revela que escalar 'raciocínio pesado' em produção é inviável sem filtragem prévia, exatamente o que os harnesses open-weight testados em 6 de junho (como o Claude Code) já resolvem com pré-processamento estruturado e slicing automático de funções.

O que mudou

Em abril, a CEVIU destacou que LLMs de fronteira haviam cruzado um limiar com 'análise de taint neural emergente' e 'raciocínio em tempo de teste'. Agora, em junho, vemos que esse raciocínio não escala linearmente: gpt-5.5-med superou gpt-5.5-high/xhigh em resoluções completas (6 vs. 0 full solves no freebsd-nfs-vuln), e o próprio Claude 4.7-high foi mais eficaz que o xhigh, invertendo a expectativa de que 'mais raciocínio sempre ajuda'. Também mudou a percepção sobre modelos leves: enquanto em abril citávamos avanços em raciocínio estrutural, agora dados empíricos confirmam que GPT-4o-mini e claude-4.6 entregam melhor custo-benefício que modelos maiores, não por serem 'menos inteligentes', mas por evitarem content filtering e overthinking em cenários reais de triagem.

Por que isso importa

Isso importa porque muda a forma como times de segurança devem integrar IA no fluxo de trabalho. Não basta jogar código no prompt: é preciso segmentar por função, usar harnesses para normalizar entradas (como fez a Mozilla com o Mythos Preview em maio) e adotar consórcios de modelos com papéis definidos, um para identificar padrões, outro para extrair CVEs, outro para validar cadeias. A falha sistemática no openbsd-sack/whole_file mostra que a abordagem 'tudo em um' ainda não funciona. O que funciona é a divisão de responsabilidades técnica, alinhada à experiência do desenvolvedor: menos tokens, menos custo, mais precisão operacional.

Linha do tempo

  1. CEVIU publica análise sobre três capacidades-chave dos LLMs em pesquisa de vulnerabilidades: compreensão estrutural, análise de taint e raciocínio em tempo de teste.

  2. CEVIU detalha como LLMs de fronteira cruzaram um limiar técnico com AST-awareness e chain-of-thought adaptativo.

  3. Avaliação de seis modelos self-hosted em 4.800 testes no Juice Shop mostra que desempenho depende mais de fine-tuning e entrada do que de tamanho bruto.

  4. Mozilla usa Claude Mythos Preview para corrigir bugs latentes no Firefox, validando a abordagem de harnesses com pré-processamento estruturado.

  5. Testes com harness do Claude Code mostram que apenas Opus 4.7 e GLM-5.1 identificam consistentemente a vulnerabilidade crackaddr em quatro variantes.

  6. Estudo com consórcio de quatro LLMs alcança 86,2% de concordância unânime em detecção de vulnerabilidades, com ênfase em granularidade de entrada e custo operacional.

Perguntas frequentes

Por que um consórcio de quatro LLMs funciona melhor que um único modelo?

Porque cada modelo tem viéses diferentes: Claude identifica CVEs com mais frequência, GPT-5.5-med resolve cadeias completas com menos overthinking, e modelos menores como GPT-4o-mini têm menor taxa de content filtering. A votação unânime filtra erros individuais sem exigir que um único modelo seja perfeito em todas as dimensões.

O que é 'modo function' e por que ele melhora tanto a detecção?

É passar apenas a função vulnerável, não o arquivo inteiro, para o LLM. Isso elimina ruído estrutural e reduz a carga cognitiva do modelo. No teste, a detecção subiu de 1,7% para 91% no openbsd-sack, provando que o gargalo não está no raciocínio, mas na forma como o código é apresentado.

Por que modelos mais novos como gpt-5.5-xhigh falharam em encontrar cadeias completas?

Eles geraram respostas mais longas e complexas, mas com maior taxa de content filtering e maior risco de 'overthinking': ao tentar justificar cada passo, perdiam o foco na cadeia real de exploração. O gpt-5.5-med, com esforço médio, manteve concisão e precisão, resultado replicado em testes com harnesses open-weight em junho.

Qual é o impacto prático desses resultados para equipes de segurança?

Priorize engenharia de entrada antes de IA: use ferramentas como Semgrep para isolar funções, integre harnesses que façam slicing automático (como o Claude Code), e substitua 'um modelo para tudo' por pipelines com múltiplos LLMs especializados. Isso reduz custo, aumenta taxa de acerto e evita falsos negativos críticos.

Fontes

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Web Dev
Publicado
18 de junho de 2026
Editoria
CEVIU Web Dev

Quer receber mais sobre CEVIU Web Dev?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser