GLM 5.2 supera Claude em detecção de IDOR: custo-benefício e design do harness definem eficácia real em segurança
Aprofundamento CEVIU
Aprofundamento
A detecção de Referências Indiretas Inseguras a Objetos (IDORs), onde a aplicação expõe um identificador interno como user_id sem verificar a permissão do solicitante, sempre foi um desafio. Esta falha, que permite a usuários mal-intencionados acessar dados alheios apenas alterando o identificador, é classificada entre falhas de lógica de negócio e erros de configuração. Ela não envolve uma função perigosa, o problema está na ausência de verificação de permissão. Isso a torna difícil de identificar tanto por análise estática quanto por modelos de linguagem.
O benchmark da Semgrep para IDORs usa um dataset com aplicações open-source e avalia a pontuação F1, que equilibra precisão e recall. A precisão mede quantos dos achados são reais, enquanto o recall verifica quantas vulnerabilidades existentes são encontradas. Como visto na nossa cobertura anterior [[LINK:https://ceviu.com.br/newsletter/ceviu-seguranca-da-informacao/como-harnesses-e-o-post-training-reduzem-a-lacuna-na-descoberta-de-bugs-em-modelos-open-weight|sobre harnesses]], a forma como o modelo é orquestrado impacta a performance. A Semgrep, por exemplo, demonstrou que seu pipeline multimodal superou o GLM 5.2 justamente por ter um harness customizado que enumera endpoints e direciona o modelo, enquanto o GLM 5.2 operou com um prompt mínimo.
O que mudou
Em nossa cobertura anterior, destacamos que o GLM 5.2 já era um modelo significativo para a comunidade open-weight, com o CEVIU IA o posicionando como uma melhora substancial em relação a modelos abertos anteriores e com potencial para novos casos de uso [[LINK:https://ceviu.com.br/newsletter/ceviu-ia/glm-5-2-eleva-a-regua-entre-os-modelos-abertos|destacando essa evolução]] e [[LINK:https://ceviu.com.br/newsletter/ceviu-ia/glm-5-2-muda-de-patamar-para-agentes-abertos|sua adaptabilidade]]. Agora, os testes da Semgrep trazem uma evolução concreta: o GLM 5.2 não só é competitivo, mas superou o Claude Code em detecção de IDORs por 39% a 32% F1, operando com um prompt mínimo e a uma fração do custo. Este é um salto que valida o potencial dos open-weights em tarefas de cibersegurança.
Por que isso importa
A capacidade de um modelo open-weight como o GLM 5.2 superar um modelo de ponta como o Claude Code em tarefas complexas de segurança tem implicações diretas para a área. Equipes de segurança podem agora considerar soluções de custo muito mais baixo com desempenho similar ou superior em verticais específicas. A liberdade de rodar o modelo em ambiente próprio, além do custo por vulnerabilidade encontrada, de apenas US$ 0,17, torna o GLM 5.2 uma opção estratégica. Isso permite auditorias de código mais acessíveis e escaláveis, um diferencial para empresas que precisam otimizar seus orçamentos de cibersegurança sem comprometer a qualidade da detecção e prevenção de ataques.
Linha do tempo
CEVIU publica testes comparando MiniMax M2.7 e Claude Opus 4.6 na detecção de bugs.
CEVIU reporta pesquisa sobre <em>harnesses</em> e <em>post-training</em> para descoberta de vulnerabilidades.
GLM 5.2 da Zhipu AI é lançado para membros do GLM Coding Plan.
Pesos <em>open-weight</em> e notas de lançamento do GLM 5.2 são disponibilizados publicamente.
CEVIU IA analisa o GLM-5.2 e afirma que ele eleva a régua entre os modelos abertos.
CEVIU IA destaca que o GLM-5.2 muda de patamar para agentes abertos.
CEVIU publica duas notícias sobre o GLM 5.2 superando o Claude em benchmarks de segurança da Semgrep.
Notícia atual: GLM 5.2 supera Claude em benchmarks de codificação voltados para cibersegurança.
Perguntas frequentes
O que são IDORs e por que são difíceis de detectar?
IDORs (Insecure Direct Object References) são vulnerabilidades que permitem a um usuário acessar recursos que não deveriam, manipulando identificadores como um user_id em uma URL. Sem uma checagem de autorização, o sistema permite o acesso indevido. A dificuldade de detecção reside no fato de que não há uma função 'perigosa' clara, mas sim uma lógica de negócio ausente, tornando a análise complexa para ferramentas estáticas e LLMs.
O que é um modelo <em>open-weight</em> e por que o GLM 5.2 é relevante para a segurança?
Um modelo open-weight tem seus parâmetros publicados e geralmente pode ser baixado e executado em infraestrutura própria, oferecendo transparência e controle maior para equipes de segurança. O GLM 5.2 é relevante porque, mesmo sendo open-weight, demonstrou desempenho superior ao Claude Code em detecção de IDORs, com um custo por vulnerabilidade significativamente menor, além da flexibilidade de uso em ambientes sensíveis.
Como a Semgrep avalia o desempenho dos modelos em cibersegurança?
A Semgrep utiliza benchmarks como o de IDOR para avaliar modelos, empregando a pontuação F1, que combina precisão (quantos achados são verdadeiros positivos) e recall (quantos dos reais positivos são encontrados). Eles também analisam o custo por vulnerabilidade real detectada. Além disso, a Semgrep estuda a influência dos harnesses, que são as estruturas que orquestram a interação do modelo com o código, impactando diretamente a eficácia.
Links relacionados
- 🛡️GLM 5.2 supera Claude em benchmarks de segurança da Semgrep
- 🔓GLM 5.2 supera Claude em benchmarks de cibersegurança da Semgrep
- 📊GLM-5.2 eleva a régua entre os modelos abertos
- 🤖GLM-5.2 muda de patamar para agentes abertos
- 🔍Harnesses e post-training: como fechar a lacuna na descoberta de vulnerabilidades com modelos open-weight
Fontes
- semgrep.devfonte original
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 01 de julho de 2026
- Editoria
- CEVIU Segurança da Informação

