Prompt injection explora role confusion
Aprofundamento CEVIU
Aprofundamento
Ataques de prompt injection que exploram confusão de papel não dependem de falhas de conteúdo, mas de padrões de estilo. Modelos como gpt-oss-20b não validam se um texto veio do sistema ou do usuário, eles avaliam se o formato soa como sua própria saída interna. Quando um atacante replica o ritmo, pontuação e estrutura de blocos como ou , o modelo trata a entrada maliciosa como parte do próprio raciocínio. Isso quebra a lógica de segurança baseada em tags, pois a confiança passa a depender de como algo é escrito, não do que foi dito.
A técnica de destyling funciona porque quebra essa simulação estilística. Alterar espaçamento, trocar aspas por apóstrofos, remover quebras de linha ou usar caixa mista torna o texto inócuo aos olhos do modelo, mesmo que o significado permaneça idêntico. É um contra-ataque que não exige ajustes no modelo, só na entrada. Empresas que passam dados externos para LLMs sem sanitização estilística estão expostas a injeções que nem precisam de palavras proibidas, só de um bom imitador de linguagem interna.
Por que isso importa
Essa vulnerabilidade não é um bug isolado: ela expõe uma falha estrutural nas arquiteturas atuais de LLMs. Sistemas que confiam em tags como para delimitar privilégios estão operando com uma ilusão de segurança. Se o modelo não entende contexto, apenas padrão, qualquer entrada que se pareça com sua própria voz pode ser aceita como autorizada. Isso afeta desde chatbots corporativos até ferramentas de suporte automatizado, onde usuários maliciosos podem manipular respostas sem usar termos bloqueados. A solução não está em reforçar filtros, mas em tratar todo texto externo como potencialmente malicioso, e reescrevê-lo antes da entrada.
Linha do tempo
Pesquisa mostra que LLMs são enganados por estilo de texto em ataques de role confusion, com 61% de sucesso em jailbreaks
Perguntas frequentes
O que é destyling e como ele bloqueia prompt injection?
Destyling é reescrever texto externo para que ele não siga o padrão estilístico das tags internas do modelo, como ou . Mesmo que o conteúdo seja o mesmo, mudar espaçamento, pontuação ou formato quebra a ilusão de que a entrada é parte da própria lógica do modelo. Isso reduz o sucesso de ataques de 61% para 10%, sem precisar alterar o modelo.
Por que modelos não conseguem distinguir entre entrada do usuário e instruções internas?
Modelos de linguagem não têm consciência de contexto ou hierarquia de permissão. Eles preveem próximas palavras com base em padrões de treinamento. Se um texto externo imita o estilo de saídas internas, mesmo sem conter palavras proibidas, o modelo o trata como parte do próprio raciocínio. A confiança é dada pela forma, não pelo conteúdo ou origem.
Essa falha afeta apenas modelos abertos como gpt-oss-20b?
Não. Qualquer modelo que use tags como , ou para separar privilégios está vulnerável, incluindo modelos fechados como GPT-4 ou Claude. A pesquisa não testou todos, mas a arquitetura subjacente, predição estatística de texto, é a mesma. A vulnerabilidade é de design, não de implementação específica.
Como devo proteger minha aplicação que usa LLMs?
Nunca passe texto externo bruto para o modelo. Sanitize tudo: remova formatação que lembre tags internas, normalize espaçamento, evite estruturas que imitem blocos de raciocínio. Use destyling como padrão de entrada. Se sua ferramenta aceita input de usuários, trate cada frase como potencial ataque, mesmo que pareça inocente.
Fontes
- simonwillison.netfonte original
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 24 de junho de 2026
- Editoria
- CEVIU Segurança da Informação
