Cognition lança Devin Security Swarm para caçar vulnerabilidades com agentes de IA

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

O Devin Security Swarm não é só mais um scanner: ele opera em cinco fases sequenciais, mapeamento de sinais, fragmentação inteligente do repositório, varredura paralela por agentes especializados, redução consolidada de achados e validação runtime em sandbox isolado, o que permite criar modelos de ameaças editáveis sob medida. Isso é novo na prática: enquanto o Codex Security da OpenAI constrói modelos genéricos de ameaça e o AWS Security Agent depende de workflows rígidos de pentest, o Swarm atualiza seu modelo a cada nova varredura incremental, analisando apenas diffs de código desde a última execução. Em testes com 50 vulnerabilidades reais do GHSA (incluindo Kotlin, Erlang e Swift), ele atingiu 72% de recall, 36 falhas detectadas, ao custo médio de US$ 90,23, superando Claude Security (68%, US$ 131,87) e Codex Security (48%, US$ 118,20). A economia vem do Agentic MapReduce, que reduz o uso de modelos caros só para os trechos críticos identificados na fase de mapeamento.

Isso conecta diretamente com o Devin Fusion lançado dois dias antes: o Fusion já havia provado que misturar modelos de IA de diferentes custos e capacidades é viável para tarefas de engenharia de software. Agora, o Security Swarm aplica essa mesma lógica à segurança, agentes leves fazem triagem inicial, agentes pesados só entram na validação final de vulnerabilidades de alta gravidade. É a primeira vez que a Cognition integra essas duas linhas de otimização: custo (Fusion) e precisão contextual (Swarm).

O que mudou

Em março, o Codex Security da OpenAI focava em detecção + recomendação, mas sem validação runtime. Em maio, o Deepsec da Vercel trouxe sandboxing distribuído, mas com workflow fixo e sem mapeamento prévio de sinais no repositório inteiro. O Security Swarm une os dois: mapeamento dinâmico do código completo (como o MDASH da Microsoft) + sandboxing sob demanda (como o Deepsec), mas com arquitetura escalável por design, não por força bruta de centenas de agentes, como no MDASH, e sim por orquestração inteligente de poucos agentes focados. Também é a primeira solução da Cognition com suporte nativo a 14 linguagens, incluindo Elixir e Dart, algo ausente no Devin Fusion e no Codex Security.

Por que isso importa

Time-to-fix de vulnerabilidades críticas caiu 63% em testes internos com equipes de fintechs: o Swarm gera pull requests de correção automaticamente, integrados ao fluxo do GitHub Actions. Isso muda o jogo para equipes que ainda dependem de relatórios manuais do Snyk ou SonarQube. Além disso, a capacidade de reescanear só diffs reduz o tempo de ciclo de segurança de horas para minutos, crucial em ambientes regulados como saúde e finanças. O preço por verificação também quebra o padrão: US$ 90,23 é 32% mais barato que a média do mercado para ferramentas com recall acima de 70%.

Linha do tempo

2026-03-09
OpenAI lança Codex Security, primeiro agente de segurança com modelo de ameaças específico por repositório
2026-03-31
AWS libera prévia pública do Security Agent com workflow multi-agente para pentest automatizado
2026-05-11
Vercel torna open-source o deepsec, com sandboxing distribuído e baixa taxa de falsos positivos
2026-05-14
Microsoft lança MDASH, sistema com +100 agentes especializados que supera Mythos da Anthropic em benchmark
2026-07-01
Cognition lança Devin Fusion, sistema de mistura de modelos de IA para reduzir custos em desenvolvimento
2026-07-03
Cognition lança Devin Security Swarm com arquitetura Agentic MapReduce e validação runtime em sandbox

Perguntas frequentes

O Devin Security Swarm substitui ferramentas como Snyk ou Semgrep?

Não substitui, complementa. Ele opera depois dessas ferramentas: usa os resultados de scanners tradicionais como entrada para priorizar trechos de código, então aplica raciocínio agente profundo. Funciona melhor em código legado complexo, onde scanners estáticos falham.

Como ele evita falsos positivos melhor que o Codex Security ou o Deepsec?

Codex Security confia em avaliação estática e embeddings. Deepsec valida em sandbox, mas com workflows fixos. O Swarm combina os dois: primeiro mapeia contexto real do repositório inteiro, depois só executa sandbox em vulnerabilidades classificadas como críticas, e só após múltiplas camadas de filtragem agente.

Preciso rodar isso na nuvem da Cognition?

Não. A arquitetura Agentic MapReduce é projetada para execução híbrida: mapeamento e redução rodam localmente ou em CI; agentes focados podem ser executados em sandboxes privados ou na nuvem da Cognition. Documentação detalhada sobre implantação on-prem foi publicada junto ao lançamento.

Quais linguagens têm suporte total de validação em sandbox?

PHP, Python, Java e JavaScript têm sandboxing completo com execução de exploit simulado. Rust, Go e C# têm suporte de sandbox parcial (análise de fluxo de dados + injeção controlada). As demais 7 linguagens são suportadas na fase de mapeamento e varredura, mas ainda dependem de validação manual para agora.

Links relacionados

Fontes

threadreaderapp.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 03 de julho de 2026
Editoria: CEVIU IA