Prompt injection explora role confusion

24 de junho de 2026

Resumo

Charles Ye, Jasmine Cui e Dylan Hadfield-Menell mostraram que LLMs não distinguem de forma confiável seu próprio texto privilegiado em role tags como system e assistant de entradas de usuário não confiáveis, e que os modelos dão mais peso ao estilo de escrita do que ao conteúdo em si. Atacantes exploram essa role confusion anexando instruções de usuário formatadas para imitar blocos internos de raciocínio do modelo, técnica que levou a uma taxa média de jailbreak de 61% contra modelos como gpt-oss-20b. Defensores podem atenuar o problema com destyling, reescrevendo o texto recebido para que ele deixe de corresponder ao formato esperado das role tags, o que reduziu o sucesso do ataque de 61% para 10%. Trate limites de role como contínuos, não como delimitadores confiáveis de confiança, e evite passar texto externo bruto para modelos com aparência de template privilegiado.

Aprofundamento CEVIU

Aprofundamento

Ataques de prompt injection que exploram confusão de papel não dependem de falhas de conteúdo, mas de padrões de estilo. Modelos como gpt-oss-20b não validam se um texto veio do sistema ou do usuário, eles avaliam se o formato soa como sua própria saída interna. Quando um atacante replica o ritmo, pontuação e estrutura de blocos como ou , o modelo trata a entrada maliciosa como parte do próprio raciocínio. Isso quebra a lógica de segurança baseada em tags, pois a confiança passa a depender de como algo é escrito, não do que foi dito.

A técnica de destyling funciona porque quebra essa simulação estilística. Alterar espaçamento, trocar aspas por apóstrofos, remover quebras de linha ou usar caixa mista torna o texto inócuo aos olhos do modelo, mesmo que o significado permaneça idêntico. É um contra-ataque que não exige ajustes no modelo, só na entrada. Empresas que passam dados externos para LLMs sem sanitização estilística estão expostas a injeções que nem precisam de palavras proibidas, só de um bom imitador de linguagem interna.

Por que isso importa

Essa vulnerabilidade não é um bug isolado: ela expõe uma falha estrutural nas arquiteturas atuais de LLMs. Sistemas que confiam em tags como para delimitar privilégios estão operando com uma ilusão de segurança. Se o modelo não entende contexto, apenas padrão, qualquer entrada que se pareça com sua própria voz pode ser aceita como autorizada. Isso afeta desde chatbots corporativos até ferramentas de suporte automatizado, onde usuários maliciosos podem manipular respostas sem usar termos bloqueados. A solução não está em reforçar filtros, mas em tratar todo texto externo como potencialmente malicioso, e reescrevê-lo antes da entrada.

Linha do tempo

2026-06-24
Pesquisa mostra que LLMs são enganados por estilo de texto em ataques de role confusion, com 61% de sucesso em jailbreaks

Perguntas frequentes

O que é destyling e como ele bloqueia prompt injection?

Destyling é reescrever texto externo para que ele não siga o padrão estilístico das tags internas do modelo, como ou . Mesmo que o conteúdo seja o mesmo, mudar espaçamento, pontuação ou formato quebra a ilusão de que a entrada é parte da própria lógica do modelo. Isso reduz o sucesso de ataques de 61% para 10%, sem precisar alterar o modelo.

Por que modelos não conseguem distinguir entre entrada do usuário e instruções internas?

Modelos de linguagem não têm consciência de contexto ou hierarquia de permissão. Eles preveem próximas palavras com base em padrões de treinamento. Se um texto externo imita o estilo de saídas internas, mesmo sem conter palavras proibidas, o modelo o trata como parte do próprio raciocínio. A confiança é dada pela forma, não pelo conteúdo ou origem.

Essa falha afeta apenas modelos abertos como gpt-oss-20b?

Não. Qualquer modelo que use tags como , ou para separar privilégios está vulnerável, incluindo modelos fechados como GPT-4 ou Claude. A pesquisa não testou todos, mas a arquitetura subjacente, predição estatística de texto, é a mesma. A vulnerabilidade é de design, não de implementação específica.

Como devo proteger minha aplicação que usa LLMs?

Nunca passe texto externo bruto para o modelo. Sanitize tudo: remova formatação que lembre tags internas, normalize espaçamento, evite estruturas que imitem blocos de raciocínio. Use destyling como padrão de entrada. Se sua ferramenta aceita input de usuários, trate cada frase como potencial ataque, mesmo que pareça inocente.

Fontes

simonwillison.netfonte original

Avalie este artigo:

Categoria: CEVIU Segurança da Informação
Publicado: 24 de junho de 2026
Editoria: CEVIU Segurança da Informação