Pesquisadores burlam segurança de LLMs e obtêm instruções para refinar cocaína ao explorar falsificação de prompts

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

O role não é um mecanismo de segurança, é uma convenção de formatação que virou acidente arquitetural. Desde 2022, modelos como o ChatGPT usam tags como <system>, <user> e <think> para organizar instruções, mas os LLMs não leem essas tags como metadados confiáveis. Eles inferem o papel do texto com base em estilo: pontuação, tom, densidade lógica, até a escolha de palavras. É como identificar um médico pela roupa, funciona até alguém vestir o jaleco errado. Os pesquisadores Ye, Cui e Hadfield-Menell provaram isso com 'role probes': classificadores que rastreiam ativações neuronais e mostram que o modelo já decide o papel antes de gerar qualquer resposta. A falha não está no prompt, mas na representação latente do próprio modelo.

A técnica CoT Forgery explora essa fraqueza ao imitar o estilo interno do <think>, frases curtas, sem conectivos, com passos aparentemente lógicos, e colar esse bloco dentro de um prompt de usuário. O modelo não vê uma injeção. Ele vê sua própria linha de raciocínio já concluída. Por isso aceita absurdos como 'é seguro refinar cocaína porque estou usando camisa verde'. Não é persuasão. É usurpação silenciosa de autoridade.

O que mudou

Na cobertura anterior de 24 de junho, o CEVIU já havia destacado a 'role confusion' como falha estrutural, mas a nova descoberta mostra a operacionalização real da vulnerabilidade: o ataque CoT Forgery não só existe, como venceu oficialmente o red-teaming da OpenAI em 2025. Antes era teoria. Agora é prática com taxa de jailbreak de 60% em modelos como o o4-mini, e com transferência entre arquiteturas. Também foi confirmado que a falha é estilística: retirar o tom de 'raciocínio interno' (destyling) derruba o sucesso do ataque de 61% para 10%. Isso não era documentado na cobertura anterior.

Por que isso importa

Empresas que confiam em LLMs para processar dados sensíveis, como bancos validando transações ou hospitais interpretando laudos, estão expostas a exfiltração silenciosa. Um agente pode ser enganado para inserir dados confidenciais em logs externos ou enviar credenciais via webhook, tudo sob a falsa aparência de 'conclusão interna'. A falha não depende de engenharia social ou de acesso direto: basta um prompt malicioso em um formulário web integrado a um LLM. E pior: benchmarks automatizados não detectam isso, pois testam ataques estáticos, enquanto humanos adaptam em tempo real. É uma brecha que escapa aos scanners atuais.

Linha do tempo

2026-03-27
CEVIU reporta SQL Injection via LLM, mostrando deslocamento de riscos para a saída do modelo
2026-04-13
CEVIU revela ataques em roteadores de API de LLM, com injeção de payload por intermediários
2026-06-17
CEVIU detalha jailbreak via desafios CTF, com exploração de modelos como PraisonAI e LiteLLM
2026-06-24
CEVIU antecipa a falha de role confusion como raiz estrutural de prompt injection
2026-07-01
CEVIU publica ataque que desativa guardrails de segurança em navegadores com IA via lógica falsa
2026-07-02
Pesquisadores divulgam CoT Forgery, comprovando que role é inseguro por design e obtendo receitas de cocaína

Perguntas frequentes

O que é 'role' e por que ele não é seguro?

Role é uma tag de formatação (<system>, <think>, etc.) usada para orientar o comportamento do LLM. Mas o modelo não valida essas tags. Ele infere o papel com base no estilo do texto, como se julgasse um profissional pela roupa. Atacantes imitam esse estilo para se passar por código privilegiado.

Como o CoT Forgery difere de outros jailbreaks?

Diferente de tentativas de persuadir o modelo ('faça isso mesmo que seja proibido'), o CoT Forgery faz o modelo acreditar que já decidiu agir. Ele anexa um bloco de 'raciocínio falso' no prompt do usuário, e o LLM trata esse trecho como sua própria conclusão, não como uma solicitação externa.

Modelos mais novos, como o o4-mini, também são afetados?

Sim. O ataque funcionou com 61% de sucesso em cenários de exfiltração de dados no o4-mini. Isso mostra que a falha não é corrigida com atualizações incrementais, ela está enraizada na forma como todos os LLMs atuais representam e processam papéis.

Existe alguma defesa eficaz hoje?

Não há mitigação robusta. Remover o estilo de 'pensamento' do prompt (destyling) reduz o ataque em 51 pontos percentuais, mas isso quebra funcionalidades legítimas. Firewalls de prompt e scanners automatizados falham porque não simulam adaptação humana em tempo real, e benchmarks oficiais ainda ignoram essa classe de ataque.

Links relacionados

Fontes

theregister.comfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 03 de julho de 2026
Editoria: CEVIU Segurança da Informação