Escondemos backdoors em binários — Opus 4.6 detectou 49% deles
BinaryAudit é um benchmark open-source da Quesma, criado para avaliar a capacidade de agentes de IA detectarem backdoors em executáveis binários despojados, utilizando ferramentas de engenharia reversa como Ghidra e Radare2. ️️ O benchmark testa modelos contra versões com backdoors de lighttpd, dnsmasq, Dropbear e Sozu. Claude Opus 4.6 liderou com 49% de detecção, mas foi prejudicado por uma taxa de falsos positivos de 22% em binários limpos. ️ Os resultados indicam que, embora a análise binária assistida por IA esteja se tornando acessível a não especialistas, as altas taxas de falsos positivos e a incapacidade de rastrear o fluxo de dados em binários complexos a tornam inadequada para a detecção de malware em produção atualmente.
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 13 de fevereiro de 2026
- Fonte
- CEVIU Segurança da Informação
