Semgrep reduz em 75% o tempo de análise de taint com otimização multicore no OCaml 5.0

19 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Semgrep não só cortou 75% do tempo de análise de taint, ele resolveu um problema estrutural de segurança que vinha custando, em média, um terço do tempo total de CPU nas varreduras completas desde 2023. Antes da mudança, o motor rodava duas passagens distintas: uma intra-arquivo (rápida, mas limitada) e outra inter-arquivo (lenta, não paralelizável e memória-intensiva), só para garantir compatibilidade com regras antigas. Isso criava um gargalo silencioso: mesmo em ambientes multicore, a primeira passagem ficava presa em um único núcleo. Com o OCaml 5.0.0, cujo runtime multicore estável só foi adotado em larga escala por grandes usuários como Jane Street em 2025, a Semgrep finalmente pôde fundir as duas etapas em um único fluxo paralelizado, sem perda de precisão.

A otimização impacta diretamente a gestão de vulnerabilidades em produção: tempos máximos de varredura caíram de 12 horas fixas para valores variáveis, muitos abaixo de 6 horas, o que reduz drasticamente o risco de timeouts em monorepos e aplicações legadas. E isso não é só velocidade: menos timeouts significa mais dados de fluxo de dados reais, melhor treinamento de modelos de triagem (como o Semgrep Assistant AI Triage, lançado em fevereiro) e maior confiança nas métricas de remediação, algo que equipes de alto desempenho usam para manter taxas de correção 2,4× maiores em SAST, segundo nossa cobertura de abril.

O que mudou

Antes (fevereiro 2023, junho 2026): análise inter-arquivo exigia duas execuções independentes de taint, a primeira gerando assinaturas, a segunda reprocessando tudo em modo intra-arquivo para manter compatibilidade. O primeiro passe consumia ~33% do CPU total e não era paralelizável. Depois da atualização 1.158.0 (18/06/2026): uma única passagem unificada, totalmente paralelizada via Domain.spawn do OCaml 5.0, com ganhos reais de 25% no P95 e até 75% em repositórios pesados como os citados (ex.: 9h → 5h20m; 3h20m → 50m). A mudança não alterou resultados, apenas eliminou redundância técnica herdada de uma decisão de 2023 feita sob pressão de lançamento.

Por que isso importa

Em 2026, o mercado SAST cresce a 22,8% ao ano, impulsionado por regulamentações como a NIS2 e pelo aumento de código gerado por IA, justamente onde taint analysis é crítica para detectar injeções, XSS e deserializações inseguras. Ferramentas lentas são descartadas: se uma varredura demora mais de 10 minutos, 68% dos desenvolvedores ignoram o alerta ou pulam a etapa, segundo estudo da Snyk de maio. Ao reduzir o P99 de 45 para 35 minutos com consistência, o Semgrep evita esse 'desgaste operacional', mantendo o ciclo de feedback entre segurança e dev curto o suficiente para influenciar decisões reais de arquitetura. Isso transforma uma ferramenta de compliance em um mecanismo ativo de defesa corporativa.

Linha do tempo

01/01/2021
Lançamento inicial da análise de taint no Semgrep, com suporte apenas intra-procedural.
01/02/2023
Lançamento do Semgrep Pro com análise inter-arquivo, implementada com duas passagens de taint para garantir compatibilidade.
14/04/2026
CEVIU publica análise sobre remediação em escala, destacando que equipes de alto desempenho dependem de tempos de varredura previsíveis para manter altas taxas de correção.
18/06/2026
Semgrep anuncia otimização de 75% no tempo de análise de taint com adoção do OCaml 5.0 e refatoração para execução única.

Perguntas frequentes

Essa otimização afeta apenas o Semgrep Pro ou também o open source?

Apenas o Semgrep Pro. A análise inter-arquivo (que exigia as duas passagens) é exclusiva da versão paga. O Semgrep OSS continua com taint intra-procedural, sem suporte a rastreamento entre arquivos, e, portanto, sem impacto dessa mudança.

O que mudou no comportamento dos alertas? Houve alteração na precisão?

Não houve mudança funcional nos achados. A equipe validou com centenas de repositórios benchmark e um experimento A/B em produção com 1% das varreduras. Os poucos casos de diferença foram quase todos reduções de timeouts, ou seja, mais alertas, não menos. Nenhum falso negativo foi introduzido.

Por que o OCaml 5.0 foi essencial? Não bastava usar threads ou processos?

Sim, bastava, mas com custo proibitivo. Antes do OCaml 5.0, paralelismo exigia fork de processos, duplicando memória. Como a primeira passagem de taint já consumia muita RAM, escalar isso para dezenas de núcleos tornaria inviável em monorepos. O runtime multicore do OCaml 5.0 permite compartilhamento eficiente de memória entre domínios, o que viabilizou a refatoração.

Essa melhoria se combina com outras recentes, como o Autofix ou o Guardian?

Sim, e de forma estratégica. O Guardian (maio/2026) detecta vulnerabilidades em código gerado por IA, que costuma ter fluxos de dados complexos e pouco documentados, exatamente o cenário onde taint analysis é mais útil. Com a análise 75% mais rápida, o Guardian pode varrer mais contexto em menos tempo, aumentando sua taxa de detecção real sem comprometer o pipeline CI/CD.

Fontes

semgrep.devfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 19 de junho de 2026
Editoria: CEVIU Segurança da Informação