Como construir seu próprio harness de vulnerabilidades

18 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O conceito de harness de vulnerabilidades não é novo em segurança da informação, ele existe há décadas em fuzzing, onde um 'harness' é o código que prepara o software em teste (SUT) para receber entradas maliciosas controladas. O que mudou radicalmente em 2025, 2026 é a integração desse padrão com agentes baseados em LLM, exigindo uma arquitetura que gerencie estado, controle de contexto e validação cruzada entre modelos. Diferente de ferramentas tradicionais como CodeQL ou OpenVAS, um harness moderno não opera apenas no nível de sintaxe ou assinatura, mas sim na camada semântica: ele modela atacantes, simula cenários adversariais e reexecuta descobertas com diferentes lentes, por exemplo, usando Claude Opus 4 para reconhecimento inicial e Gemini 3 para validação final. Isso evita o viés de modelo único, um problema confirmado por testes internos da CEVIU com GPT-5.6 e Llama 4, onde cada versão detectou até 37% de vulnerabilidades exclusivas.

O AgentFlow, framework publicado em abril de 2026, mostra essa tendência em ação: ele usa uma DSL de grafo tipado para orquestrar múltiplos agentes especializados (recon, hunt, adversarial validator), com persistência explícita entre execuções e mecanismos nativos de deduplicação por dependência cruzada. Seus resultados práticos, incluindo as CVE-2026-5280 e CVE-2026-6297 no Chrome, provam que um harness bem projetado pode superar limitações de contexto sem depender de aumento artificial de janelas de token, mas sim com compactação inteligente de estado e reescrita de hipóteses em tempo real.

Por que isso importa

Construir um harness próprio não é sobre substituir scanners comerciais. É sobre ter controle sobre a cadeia de decisão: desde quando uma vulnerabilidade é declarada como 'real' até como ela é priorizada com base em contexto de produção real, não só em CVSS. Ferramentas genéricas falham nisso porque não sabem se uma função vulnerável está exposta via API pública, se é chamada por um serviço crítico ou se está em código morto. Um harness personalizado integra dados de CI/CD, inventário de ativos e histórico de incidentes diretamente no ciclo de triagem. Isso reduz falsos positivos em até 60% comparado a fluxos baseados apenas em análise estática, segundo estudo da Tenable com 400 profissionais de segurança, um dado relevante para times que gastam mais de 15 horas semanais revisando alertas manuais.

Impacto para desenvolvedores

Para desenvolvedores, um harness eficaz muda o ponto de inserção da segurança: em vez de esperar relatórios de pentest trimestrais, ele entra no PR flow como um verificador obrigatório, com feedback em menos de 90 segundos. Mas isso exige que o harness seja leve, observável e debugável, não uma caixa preta. A CEVIU recomenda começar com um skill de ~450 linhas (como descrito no post original), rodando localmente contra um repositório único, antes de escalar para pipelines multi-repo. A chave é manter os prompts imutáveis quanto à lógica de ataque (ex.: 'tente contornar auth via header injection'), enquanto a infraestrutura de estado (banco, fila, resumo de contexto) é totalmente separada. Isso permite trocar GPT-6 por Claude Opus 4 ou vice-versa sem reescrever a lógica de detecção, só ajustar o adaptador de API.

Perguntas frequentes

O que é um harness de vulnerabilidades?

Um harness de vulnerabilidades é uma camada de orquestração que coordena múltiplas etapas de detecção, validação e triagem de falhas de segurança, especialmente quando usada com agentes de LLM. Ele não é um scanner isolado, mas um sistema que gerencia estado, elimina falsos positivos com revisão adversarial e opera de forma independente de modelos específicos, como GPT-5.6, Claude Opus 4 ou Gemini 3.

Como eliminar falsos positivos em um harness com LLM?

A CEVIU usa revisão adversarial como etapa obrigatória: após uma vulnerabilidade ser identificada por um agente, outro agente com papel oposto tenta refutar a descoberta. Essa abordagem é complementada por validação mecânica (ex.: parsing de findings.json contra schema) e re-verificação independente contra o código-fonte. Estudos mostram que combinar três dessas camadas reduz falsos positivos em mais de 50% versus análise única.

Como contornar os limites de contexto de LLM em um harness?

O método mais eficaz não é aumentar a janela de contexto, mas externalizar o estado: manter histórico, arquitetura do sistema e hipóteses em banco de dados ou arquivos estruturados, e passar apenas resumos atualizados para o LLM em cada etapa. Frameworks como AgentFlow (abril de 2026) aplicam essa ideia com compactação de memória baseada em relevância semântica, permitindo que agentes mantenham coerência mesmo após centenas de interações.

Qual a diferença entre um harness e um subagente?

Subagentes são úteis para tarefas pontuais dentro de uma sessão, mas não resolvem necessidades de segurança em escala empresarial: falta persistência entre execuções, impossibilidade de deduplicação cruzada entre repositórios e ausência de controle de estado compartilhado. Um harness resolve exatamente isso, é uma infraestrutura de orquestração, não um prompt ou agente isolado.

Fontes

blog.cloudflare.comfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 18 de junho de 2026
Editoria: CEVIU Segurança da Informação