Mythos passa no teste de segurança?

24 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

Mythos continua sendo referência em detecção de vulnerabilidades complexas, mas o benchmark construído por Joe Swell mostra que modelos públicos, especialmente Qwen 3.6, MiMo e DeepSeek, conseguem chegar perto, e em alguns casos igualar, seu desempenho com custos muito menores. O teste usou nove bugs reais, confirmados e ainda não presentes no treinamento dos modelos, analisados sem pistas diretas, apenas o código-fonte completo. A surpresa foi a eficiência de modelos chineses de baixo custo, que encontraram até quatro vulnerabilidades cada um, superando modelos comerciais como Sonnet e Gemini 3.1 Pro. Ainda assim, Mythos identificou quatro bugs que nenhum outro modelo conseguiu, sugerindo que sua arquitetura, ferramentas internas ou fluxo de análise têm vantagens não replicáveis por prompts simples.

O experimento também expôs falhas críticas em modelos que recusam tarefas de segurança por políticas de contenção, como o Gemini com agy, e inconsistências de desempenho entre versões de um mesmo modelo, como o Nemotron, onde a versão menor superou a maior. Isso aponta para um problema mais profundo: a eficácia em segurança não segue linearmente com o tamanho do modelo. A performance depende de como o modelo processa contexto distribuído, entende dependências entre arquivos e evita falsos positivos, competências que ainda não são bem compreendidas nem otimizadas por fornecedores.

Por que isso importa

Para equipes de segurança e desenvolvimento, esse teste desmonta o mito de que só ferramentas caras e fechadas conseguem encontrar bugs críticos. Se Qwen 3.6 ou DeepSeek conseguem igualar Mythos com custo 10x menor, isso muda o cálculo de investimento em segurança. Empresas que dependem de modelos de código aberto ou auto-hospedados agora têm evidência concreta de que podem substituir soluções comerciais caras sem perder eficácia. Mas o alerta é: a confiabilidade ainda exige validação manual. Modelos como Gemma 4 MoE encontram bugs, mas ficam presos em loops, gastando tempo e recursos. A segurança não é uma tarefa de inferência isolada, é um processo iterativo, e a IA ainda é um assistente, não um substituto. O próximo passo é integrar esses modelos em pipelines de CI/CD com feedback contínuo, não apenas em benchmarks isolados.

Linha do tempo

2026-06-07
Adição de Gemma 4 MoE e MiniMax M3 ao benchmark; Gemma 4 MoE detecta 4/9 bugs, mas com falhas de timeout recorrentes
2026-06-17
Inclusão de GLM 5.2, Kimi K2.7-code e VibeThinker 3B; GLM melhora, Kimi não, VibeThinker inútil para a tarefa
2026-06-21
Testes com Nemotron Ultra 550b e North Mini Code 33b; Nemotron maior performa pior que versão menor, North Mini Code supera modelos maiores
2026-06-22
Adição de Nemotron 3 Nano Omni e Laguna XS.2; ambas superam versões maiores, reforçando padrão não linear de desempenho
2026-06-24
Publicação dos resultados finais do benchmark; Mythos mantém vantagem em bugs complexos, mas modelos abertos como Qwen 3.6 e DeepSeek se mostram viáveis para uso em produção

Perguntas frequentes

Os modelos de código aberto realmente conseguem encontrar vulnerabilidades tão boas quanto Mythos?

Sim, em alguns casos. Qwen 3.6, MiMo e DeepSeek encontraram até quatro das nove vulnerabilidades usadas no teste, o mesmo número que Mythos encontrou em alguns casos. Mas Mythos identificou quatro bugs que nenhum outro modelo detectou. Isso não significa que os modelos abertos são inferiores em geral, eles são mais baratos e eficientes em muitos cenários. A diferença está na consistência e na capacidade de lidar com bugs extremamente complexos, onde Mythos ainda tem vantagem.

Por que modelos maiores como Nemotron 550B performaram pior que versões menores?

Não há explicação clara ainda. O teste mostrou que tamanho não garante melhor desempenho em detecção de bugs de segurança. Nemotron 550B foi pior que sua versão de 120B, e até versões menores da família Laguna superaram as maiores. Isso sugere que arquitetura, qualidade dos dados de treinamento ou otimizações específicas para análise de código podem pesar mais que o número de parâmetros. O fenômeno desafia a ideia comum de que 'maior = melhor' em IA e exige mais investigação.

O uso de agentes melhora a detecção de vulnerabilidades?

Não, pelo menos nesse teste. Modelos rodando em agentes completos não tiveram desempenho superior, alguns até pioraram. O uso de agentes aumentou custo e tempo sem ganho real de precisão. A única exceção foi o Claude Code, usado com modelos Anthropic, onde o custo era menor para assinantes e o desempenho não caiu. Isso indica que o valor real está na integração de ferramentas e no custo operacional, não na complexidade do agente.

Por que o Gemini recusou analisar código para segurança?

O agy, CLI oficial do Gemini, bloqueou todas as tentativas de análise de vulnerabilidades, mesmo sem palavras como 'exploit' ou 'vulnerável'. Isso é uma limitação intencional de segurança do produto, não um erro. O modelo entende o objetivo, mas recusa por políticas de contenção. Para testar, foi necessário usar a API direta, o que aumenta custo e complexidade. Isso torna o Gemini impraticável para auditorias automatizadas, mesmo sendo um modelo de ponta.

Fontes

swelljoe.comfonte original

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 24 de junho de 2026
Editoria: CEVIU Web Dev