MosaicLeaks: agentes de pesquisa conseguem guardar segredos?
Aprofundamento CEVIU
Aprofundamento
O estudo MosaicLeaks, publicado em 28 de maio de 2026, revela um risco estrutural em agentes de pesquisa baseados em IA: mesmo sem acessar diretamente documentos privados, eles vazam segredos corporativos por meio de consultas web aparentemente inocentes. O efeito mosaico ocorre quando fragmentos como 'MediConn', '70%' e 'janeiro', cada um inofensivo isoladamente, se combinam nas consultas externas do agente e permitem que um observador reconstitua fatos confidenciais, como a migração de 70% da infraestrutura para a nuvem até janeiro de 2025. O benchmark MosaicLeaks testa isso com 1.001 cadeias multi-hop que forçam o agente a usar informações locais para formular buscas públicas, exatamente o cenário mais comum em ambientes reais de pesquisa corporativa.
A avaliação não depende de acesso ao sistema interno: um LLM adversário analisa apenas o log de consultas externas e mede três níveis de vazamento, intenção (o que o agente está investigando), resposta (capacidade de responder perguntas específicas sobre dados privados) e informação completa (descoberta ativa de fatos sigilosos sem orientação prévia). Modelos como Qwen3-4B-Instruct, Llama-3.2-3B e Phi-4 mostraram vazamentos significativos em todos os níveis, mesmo com instruções explícitas de 'não vazar' no prompt, que reduziram levemente o vazamento, mas prejudicaram o desempenho ou falharam em eliminar o risco.
Por que isso importa
Esse risco não é teórico: 40% das organizações relataram violações ligadas à IA em 2025, segundo relatórios recentes. Um vazamento por efeito mosaico pode expor dados sensíveis como cronogramas de migração, vulnerabilidades internas ou decisões estratégicas, informações que não estão em bancos de dados expostos, mas sim em documentos internos acessados por agentes. O custo médio global de uma violação de dados já é de US$ 4,88 milhões, e 46% dessas violações envolvem PII. Com o EU AI Act e o Colorado AI Act entrando em vigor em 2026, empresas que usam agentes de pesquisa em setores regulados (saúde, finanças, governo) passam a ter obrigações legais de avaliar e mitigar esse tipo de vazamento indireto, inclusive quanto à inferência de atributos sensíveis a partir de consultas.
Impacto para desenvolvedores
Para desenvolvedores, MosaicLeaks mostra que 'não vazar' não é resolvido com ajustes no prompt ou na arquitetura de ferramentas. O PA-DR (Privacy-Aware Deep Research) é o primeiro framework comprovado que treina agentes para equilibrar desempenho e privacidade simultaneamente: ele usa um classificador de privacidade integrado ao RL e um mecanismo de crédito denso para penalizar consultas que carregam contexto local demais. Nos testes, o PA-DR aplicado ao Qwen3-4B-Instruct elevou a taxa de cadeias totalmente corretas de 48,7% para 58,7%, enquanto derrubou o vazamento completo de 34,0% para 9,9%. Isso significa que devs precisam incorporar avaliação de vazamento por consulta-log desde a fase de treinamento, não como pós-processamento, mas como parte da função de recompensa. Ferramentas como o MosaicLeaks benchmark já estão disponíveis como dataset aberto para validação contínua.
Perguntas frequentes
O que é o efeito mosaico em agentes de IA?
É um fenômeno de vazamento indireto onde consultas web aparentemente inofensivas, como 'MediConn segurança janeiro 2024', revelam informações privadas quando analisadas em conjunto. Nenhum termo isolado é sensível, mas sua combinação permite reconstituir fatos corporativos confidenciais, como datas de migração para nuvem ou detalhes de incidentes internos.
O MosaicLeaks é um modelo de IA ou um benchmark?
MosaicLeaks é um benchmark de avaliação de privacidade, não um modelo. Ele consiste em 1.001 tarefas multi-hop que forçam agentes a intercalar documentos locais privados com buscas web públicas. Foi projetado para medir três níveis de vazamento, intenção, resposta e informação completa, com base apenas no log de consultas externas do agente.
O que é PA-DR e como ele funciona?
PA-DR (Privacy-Aware Deep Research) é um método de aprendizado por reforço que otimiza agentes para desempenho e privacidade ao mesmo tempo. Ele combina uma recompensa de tarefa com um classificador de privacidade que avalia cada consulta externa, usando atribuição de crédito denso para suprimir vazamentos tanto no nível da consulta única quanto no nível do efeito mosaico agregado.
Quais modelos foram testados no estudo MosaicLeaks?
O estudo testou múltiplos modelos, incluindo Qwen3-4B-Instruct, Llama-3.2-3B e Phi-4. Os resultados mostraram vazamento generalizado em todos eles, com variações na intensidade entre as famílias. O PA-DR foi validado principalmente no Qwen3-4B-Instruct, mas o framework é agnóstico de modelo e pode ser adaptado a outros agentes baseados em LLM.
Fontes
- huggingface.cofonte original
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 18 de junho de 2026
- Editoria
- CEVIU Segurança da Informação

