Consórcio de quatro LLMs alcança 86,2% de concordância unânime na detecção de vulnerabilidades
Aprofundamento CEVIU
Aprofundamento
O estudo atual não é só sobre 'mais LLMs = melhor'. Ele mostra que, em segurança de software, o equilíbrio entre profundidade de raciocínio e granularidade de entrada define o sucesso, não a capacidade bruta do modelo. Quando o LLM recebe toda a função vulnerável (como no modo function), a taxa de detecção sobe para 99,8% em casos como o freebsd-nfs-vuln. Já com o arquivo inteiro (whole_file), cai para 1,7% no openbsd-sack. Isso confirma o que já apontávamos em abril: modelos não estão falhando por falta de raciocínio, mas por saturação de contexto e ruído estrutural, um problema de engenharia de entrada, não de arquitetura.
A concordância unânime de 86,2% do consórcio de quatro LLMs reforça uma tendência observada na cobertura CEVIU desde abril: a combinação de modelos especializados (ex: Claude para CVEs, GPT-5.5-med para cadeias completas) supera qualquer 'modelo único soberano'. E isso tem impacto direto em DX: o custo de $9.200 para 2080 execuções revela que escalar 'raciocínio pesado' em produção é inviável sem filtragem prévia, exatamente o que os harnesses open-weight testados em 6 de junho (como o Claude Code) já resolvem com pré-processamento estruturado e slicing automático de funções.
O que mudou
Em abril, a CEVIU destacou que LLMs de fronteira haviam cruzado um limiar com 'análise de taint neural emergente' e 'raciocínio em tempo de teste'. Agora, em junho, vemos que esse raciocínio não escala linearmente: gpt-5.5-med superou gpt-5.5-high/xhigh em resoluções completas (6 vs. 0 full solves no freebsd-nfs-vuln), e o próprio Claude 4.7-high foi mais eficaz que o xhigh, invertendo a expectativa de que 'mais raciocínio sempre ajuda'. Também mudou a percepção sobre modelos leves: enquanto em abril citávamos avanços em raciocínio estrutural, agora dados empíricos confirmam que GPT-4o-mini e claude-4.6 entregam melhor custo-benefício que modelos maiores, não por serem 'menos inteligentes', mas por evitarem content filtering e overthinking em cenários reais de triagem.
Por que isso importa
Isso importa porque muda a forma como times de segurança devem integrar IA no fluxo de trabalho. Não basta jogar código no prompt: é preciso segmentar por função, usar harnesses para normalizar entradas (como fez a Mozilla com o Mythos Preview em maio) e adotar consórcios de modelos com papéis definidos, um para identificar padrões, outro para extrair CVEs, outro para validar cadeias. A falha sistemática no openbsd-sack/whole_file mostra que a abordagem 'tudo em um' ainda não funciona. O que funciona é a divisão de responsabilidades técnica, alinhada à experiência do desenvolvedor: menos tokens, menos custo, mais precisão operacional.
Linha do tempo
CEVIU publica análise sobre três capacidades-chave dos LLMs em pesquisa de vulnerabilidades: compreensão estrutural, análise de taint e raciocínio em tempo de teste.
CEVIU detalha como LLMs de fronteira cruzaram um limiar técnico com AST-awareness e chain-of-thought adaptativo.
Avaliação de seis modelos self-hosted em 4.800 testes no Juice Shop mostra que desempenho depende mais de fine-tuning e entrada do que de tamanho bruto.
Mozilla usa Claude Mythos Preview para corrigir bugs latentes no Firefox, validando a abordagem de harnesses com pré-processamento estruturado.
Testes com harness do Claude Code mostram que apenas Opus 4.7 e GLM-5.1 identificam consistentemente a vulnerabilidade crackaddr em quatro variantes.
Estudo com consórcio de quatro LLMs alcança 86,2% de concordância unânime em detecção de vulnerabilidades, com ênfase em granularidade de entrada e custo operacional.
Perguntas frequentes
Por que um consórcio de quatro LLMs funciona melhor que um único modelo?
Porque cada modelo tem viéses diferentes: Claude identifica CVEs com mais frequência, GPT-5.5-med resolve cadeias completas com menos overthinking, e modelos menores como GPT-4o-mini têm menor taxa de content filtering. A votação unânime filtra erros individuais sem exigir que um único modelo seja perfeito em todas as dimensões.
O que é 'modo function' e por que ele melhora tanto a detecção?
É passar apenas a função vulnerável, não o arquivo inteiro, para o LLM. Isso elimina ruído estrutural e reduz a carga cognitiva do modelo. No teste, a detecção subiu de 1,7% para 91% no openbsd-sack, provando que o gargalo não está no raciocínio, mas na forma como o código é apresentado.
Por que modelos mais novos como gpt-5.5-xhigh falharam em encontrar cadeias completas?
Eles geraram respostas mais longas e complexas, mas com maior taxa de content filtering e maior risco de 'overthinking': ao tentar justificar cada passo, perdiam o foco na cadeia real de exploração. O gpt-5.5-med, com esforço médio, manteve concisão e precisão, resultado replicado em testes com harnesses open-weight em junho.
Qual é o impacto prático desses resultados para equipes de segurança?
Priorize engenharia de entrada antes de IA: use ferramentas como Semgrep para isolar funções, integre harnesses que façam slicing automático (como o Claude Code), e substitua 'um modelo para tudo' por pipelines com múltiplos LLMs especializados. Isso reduz custo, aumenta taxa de acerto e evita falsos negativos críticos.
Fontes
- parsiya.netfonte original
- Categoria
- CEVIU Web Dev
- Publicado
- 18 de junho de 2026
- Editoria
- CEVIU Web Dev

