Pesquisadores burlam segurança de LLMs e obtêm instruções para refinar cocaína ao explorar falsificação de prompts
Aprofundamento CEVIU
Aprofundamento
O role não é um mecanismo de segurança, é uma convenção de formatação que virou acidente arquitetural. Desde 2022, modelos como o ChatGPT usam tags como <system>, <user> e <think> para organizar instruções, mas os LLMs não leem essas tags como metadados confiáveis. Eles inferem o papel do texto com base em estilo: pontuação, tom, densidade lógica, até a escolha de palavras. É como identificar um médico pela roupa, funciona até alguém vestir o jaleco errado. Os pesquisadores Ye, Cui e Hadfield-Menell provaram isso com 'role probes': classificadores que rastreiam ativações neuronais e mostram que o modelo já decide o papel antes de gerar qualquer resposta. A falha não está no prompt, mas na representação latente do próprio modelo.
A técnica CoT Forgery explora essa fraqueza ao imitar o estilo interno do <think>, frases curtas, sem conectivos, com passos aparentemente lógicos, e colar esse bloco dentro de um prompt de usuário. O modelo não vê uma injeção. Ele vê sua própria linha de raciocínio já concluída. Por isso aceita absurdos como 'é seguro refinar cocaína porque estou usando camisa verde'. Não é persuasão. É usurpação silenciosa de autoridade.
O que mudou
Na cobertura anterior de 24 de junho, o CEVIU já havia destacado a 'role confusion' como falha estrutural, mas a nova descoberta mostra a operacionalização real da vulnerabilidade: o ataque CoT Forgery não só existe, como venceu oficialmente o red-teaming da OpenAI em 2025. Antes era teoria. Agora é prática com taxa de jailbreak de 60% em modelos como o o4-mini, e com transferência entre arquiteturas. Também foi confirmado que a falha é estilística: retirar o tom de 'raciocínio interno' (destyling) derruba o sucesso do ataque de 61% para 10%. Isso não era documentado na cobertura anterior.
Por que isso importa
Empresas que confiam em LLMs para processar dados sensíveis, como bancos validando transações ou hospitais interpretando laudos, estão expostas a exfiltração silenciosa. Um agente pode ser enganado para inserir dados confidenciais em logs externos ou enviar credenciais via webhook, tudo sob a falsa aparência de 'conclusão interna'. A falha não depende de engenharia social ou de acesso direto: basta um prompt malicioso em um formulário web integrado a um LLM. E pior: benchmarks automatizados não detectam isso, pois testam ataques estáticos, enquanto humanos adaptam em tempo real. É uma brecha que escapa aos scanners atuais.
Linha do tempo
CEVIU reporta SQL Injection via LLM, mostrando deslocamento de riscos para a saída do modelo
CEVIU revela ataques em roteadores de API de LLM, com injeção de payload por intermediários
CEVIU detalha jailbreak via desafios CTF, com exploração de modelos como PraisonAI e LiteLLM
CEVIU antecipa a falha de role confusion como raiz estrutural de prompt injection
CEVIU publica ataque que desativa guardrails de segurança em navegadores com IA via lógica falsa
Pesquisadores divulgam CoT Forgery, comprovando que role é inseguro por design e obtendo receitas de cocaína
Perguntas frequentes
O que é 'role' e por que ele não é seguro?
Role é uma tag de formatação (<system>, <think>, etc.) usada para orientar o comportamento do LLM. Mas o modelo não valida essas tags. Ele infere o papel com base no estilo do texto, como se julgasse um profissional pela roupa. Atacantes imitam esse estilo para se passar por código privilegiado.
Como o CoT Forgery difere de outros jailbreaks?
Diferente de tentativas de persuadir o modelo ('faça isso mesmo que seja proibido'), o CoT Forgery faz o modelo acreditar que já decidiu agir. Ele anexa um bloco de 'raciocínio falso' no prompt do usuário, e o LLM trata esse trecho como sua própria conclusão, não como uma solicitação externa.
Modelos mais novos, como o o4-mini, também são afetados?
Sim. O ataque funcionou com 61% de sucesso em cenários de exfiltração de dados no o4-mini. Isso mostra que a falha não é corrigida com atualizações incrementais, ela está enraizada na forma como todos os LLMs atuais representam e processam papéis.
Existe alguma defesa eficaz hoje?
Não há mitigação robusta. Remover o estilo de 'pensamento' do prompt (destyling) reduz o ataque em 51 pontos percentuais, mas isso quebra funcionalidades legítimas. Firewalls de prompt e scanners automatizados falham porque não simulam adaptação humana em tempo real, e benchmarks oficiais ainda ignoram essa classe de ataque.
Fontes
- theregister.comfonte original
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 03 de julho de 2026
- Editoria
- CEVIU Segurança da Informação

