Pesquisador gasta US$ 1.500 para descobrir se LLMs conseguem hackear aplicativos sozinhos

08 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O experimento de US$ 1.500 não testou se LLMs 'conseguem hackear', testou se elas conseguem executar um ataque completo e contextualizado, sem intervenção humana, em um cenário realista: descompilar um APK, identificar uma infraestrutura Firebase mal configurada (não IDOR), extrair credenciais expostas e acessar dados privados. Isso exige raciocínio de camadas, engenharia reversa + reconhecimento de stack + exploração de configuração, e não apenas reconhecimento de padrão em código-fonte. O GPT-4.5 venceu por resistir a alucinações críticas, manter o foco na cadeia lógica exigida e evitar recusas éticas programadas (como o Gemini fez). Já o GPT-5.5, citado em cobertura anterior com desempenho superior em outro app vulnerável, não aparece nesse teste, o que reforça que performance não é universal: depende da arquitetura alvo, do tipo de falha e do contexto operacional.

A ameaça real não está em LLMs substituírem hackers, mas em reduzirem drasticamente a barreira técnica para ataques pontuais. Um invasor com conhecimento básico pode orquestrar um agente que descompila, varre Firebase, interpreta erros de autenticação e extrai flags, tudo com prompts bem estruturados. E isso já está acontecendo: o Google bloqueou, em maio de 2026, o primeiro exploit de dia zero desenvolvido com auxílio de IA. A OWASP lista 'agência excessiva' como risco crítico porque modelos estão agindo autonomamente em ambientes produtivos, e não só em laboratórios.

O que mudou

Na cobertura de 4 de junho, o mesmo pesquisador usou um app de avaliações de livros com vazamento de dados via IDOR, e o GPT-5.5 foi o destaque. Agora, com um app React Native + Firebase mal configurado (sem IDOR), o GPT-4.5 supera todos, inclusive o GPT-5.5, que não participou deste ciclo. Isso mostra que a evolução não é linear: modelos mais novos não dominam automaticamente todas as classes de vulnerabilidade. Também mudou o foco técnico, de exploração web simples para engenharia reversa móvel + nuvem, e o critério de sucesso: antes era encontrar dados privados em endpoints; agora é executar um fluxo multi-etapa com ferramentas externas (como apktool) e interpretação de configurações de backend.

Por que isso importa

Empresas que confiam em Firebase, Supabase ou Back4App sem revisão de regras de segurança estão expostas a ataques automatizados que não precisam de expertise em pentest, só de acesso a um LLM capaz de seguir instruções técnicas. Um único APK mal configurado pode virar porta de entrada para vazamento em escala, especialmente em apps com milhões de usuários. Além disso, os resultados invalidam a ideia de que 'modelos maiores são sempre melhores': o DeepSeek V4 Pro resolveu um problema similar por US$ 0.62, enquanto o Gemini se recusou quase totalmente. Isso obriga equipes de segurança a testar LLMs sob carga real, não só em benchmarks teóricos, e a reavaliar políticas de uso interno de IA em ambientes de desenvolvimento.

Linha do tempo

11/05/2026
Pesquisador usa enxame de agentes LLM para buscar falhas remotas em ksmbd, OpenSSL, Docker e outros
17/05/2026
Segurança da Apple é contornada com técnicas descobertas durante testes do Mythos da Anthropic
25/05/2026
Mythos Preview demonstra capacidade de transformar vulnerabilidades em cadeias de exploit completas
04/06/2026
Desenvolvedor testa LLMs em app de avaliações de livros com IDOR; GPT-5.5 é o destaque
08/06/2026
Mesmo pesquisador testa LLMs em app React Native + Firebase mal configurado; GPT-4.5 lidera

Perguntas frequentes

Por que o GPT-4.5 se saiu melhor que modelos mais novos nesse teste?

O GPT-4.5 foi treinado com foco em redução de alucinações e maior coerência em fluxos técnicos sequenciais. No teste, isso se traduziu em capacidade de manter o objetivo (extrair a flag via Firebase) mesmo após descompilar o APK, enquanto modelos como o Gemini priorizaram restrições éticas e recusaram comandos de exploração.

Esse tipo de teste reflete ameaças reais no mundo corporativo?

Sim. Aplicativos móveis com Firebase mal configurado são comuns, e já foram explorados manualmente em incidentes reais. A diferença agora é que um agente autônomo pode replicar esse processo em minutos, sem necessidade de profissional especializado. Relatórios da Cisco e da Microsoft confirmam que ataques assistidos por IA já estão em operação desde 2025.

O que empresas devem fazer para se proteger contra ataques impulsionados por LLMs?

Auditar regras de segurança em backends serverless (Firebase, Supabase), aplicar princípio de menor privilégio nas permissões de banco de dados, monitorar acessos anômalos a APIs públicas e exigir revisão humana em qualquer processo de CI/CD que use LLMs para geração ou análise de código. Não basta bloquear prompts, é preciso proteger a infraestrutura alvo.

Modelos open-weight como GLM-4.5 ou GLM-5.1 têm desempenho comparável ao GPT-4.5 nesses cenários?

Em testes específicos de detecção de bugs (como o crackaddr), o GLM-5.1 se mostrou competitivo com Opus 4.7, mas não foi avaliado neste experimento móvel. O GLM-4.5 é listado como um dos principais modelos open-weight para cibersegurança em 2026, com foco em análise de ameaças, mas sua performance em engenharia reversa ainda não foi validada publicamente nesse nível de detalhe.

Links relacionados

Fontes

kasra.blogfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 08 de junho de 2026
Editoria: CEVIU Segurança da Informação