MosaicLeaks revela falha crítica em agentes de pesquisa: vazamento de dados cai de 34% para 9,9% com nova técnica

19 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O MosaicLeaks não é só mais um benchmark: é a primeira medição controlada do efeito mosaico em tempo real, com rastreamento hop a hop. Enquanto o SearchLeak explora falhas de implementação no Copilot (CVE-2026-42824), e o DNS leak mostra como dados escapam por canais laterais, o MosaicLeaks ataca o cerne da arquitetura de agentes, o próprio comportamento de busca. A novidade técnica está na recompensa situacional: em vez de dar um único score ao final da cadeia, o PA-DR pontua cada chamada de 'Plan', 'Choose' ou 'Resolve' contra decisões similares feitas na mesma etapa. Isso faz com que o agente aprenda a descartar '70%' e 'janeiro 2025' das queries web, não por regra fixa, mas porque essas palavras reduzem sua recompensa imediata ao expor padrões reconhecíveis pelo classificador Qwen3-4B.

A ServiceNow não treinou um modelo novo. Ela reconfigurou o *processo de tomada de decisão* do agente, transformando a privacidade de uma restrição externa em um sinal de otimização interno. Isso explica por que o PA-DR emite *mais* queries web que o modelo base, mas com menos entidades sensíveis: ele troca densidade semântica por precisão operacional. E o fato de ter sido publicado no Hugging Face com código aberto (e pré-print no arXiv em 29/05) significa que qualquer time de engenharia pode testar essa camada de recompensa em seus próprios agentes, mesmo sem acesso à infraestrutura da ServiceNow.

O que mudou

Ontem (18/06), o CEVIU noticiou o MosaicLeaks como uma 'vulnerabilidade em potencial'. Hoje (19/06), com os detalhes técnicos completos divulgados pela ServiceNow, sabemos que não é apenas um risco, é um defeito estrutural corrigido com RL. A diferença entre o artigo anterior e este é a confirmação de que o PA-DR funciona: reduz vazamento de 34% para 9,9% *sem cair na taxa de sucesso*, e com 5, 6× menos amostras de treino. O que era hipótese virou métrica reprodutível. Também mudou a percepção sobre prompts: o teste com instrução direta ('não vaze') piorou desempenho e deixou 25,5% de vazamento. Agora é claro: privacidade em agentes não se configura, se treina.

Por que isso importa

Agentes de pesquisa estão sendo implantados agora em áreas críticas: compliance de saúde, due diligence jurídica, auditoria de segurança. Se um agente do setor financeiro buscar 'política de retensão de dados + [nome do banco] + 2025', mesmo sem citar números exatos, o padrão de três queries seguidas pode revelar prazos internos de apagamento de registros, informação protegida por LGPD e Basel III. O MosaicLeaks prova que esse risco não é teórico: é mensurável, reproduzível e, agora, treinável. Para equipes de segurança, isso muda o foco: não basta auditar prompts ou logs de API. É preciso auditar o *sistema de recompensas* que molda cada decisão de busca do agente.

Linha do tempo

2026-03-31
CEVIU reporta vazamento de dados via DNS no ChatGPT, mostrando canais laterais de exfiltração em LLMs
2026-06-04
CEVIU analisa falhas críticas na memória de agentes como Claude Code, Copilot e Devin
2026-06-16
Varonis divulga SearchLeak (CVE-2026-42824), vulnerabilidade de três estágios no Microsoft 365 Copilot
2026-06-18
CEVIU antecipa o MosaicLeaks como risco emergente em agentes de pesquisa
2026-06-19
ServiceNow publica detalhes técnicos completos do MosaicLeaks e do método PA-DR no Hugging Face

Perguntas frequentes

PA-DR funciona só com Qwen3-4B?

Não. O classificador de privacidade é substituível, o paper usa Qwen3-4B por ser leve e eficaz, mas qualquer modelo capaz de classificar risco de vazamento em queries pode ser integrado. O núcleo do PA-DR é a arquitetura de recompensas situacionais, não o classificador específico.

Posso aplicar PA-DR em meu agente já em produção?

Sim, desde que você tenha controle sobre o loop de treinamento por RL. O código está no Hugging Face, e o método não exige re-treino do modelo base, apenas ajuste da função de recompensa durante o fine-tuning. Não é plug-and-play, mas é adaptável.

Isso resolve o problema do SearchLeak no Copilot?

Não diretamente. O SearchLeak é uma falha de injeção e bypass de CSP no Microsoft 365. O PA-DR trata de vazamento via comportamento de busca legítimo. São ameaças distintas: uma é exploração de bug, outra é consequência de design. Mas ambos exigem mitigação em camadas, e o PA-DR mostra como blindar o comportamento do agente mesmo quando o ambiente subjacente é vulnerável.

O que acontece se o adversário tiver acesso aos documentos públicos usados no MosaicLeaks?

A métrica de 'full-information leakage' pressupõe exatamente isso: o observador tem acesso ao corpus público (BrowseComp-Plus) e ao log de queries. É nesse cenário que o PA-DR reduz vazamento de 34% para 9,9%. Ou seja, a proteção é projetada para o pior caso realista, não para um adversário cego, mas para um que já monitora seu tráfego e conhece suas fontes públicas.

Links relacionados

Fontes

huggingface.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 19 de junho de 2026
Editoria: CEVIU IA