Detecção e Prevenção de Ataques de Distilação em Modelos de IA
A Anthropic identificou campanhas de distilação em escala industrial conduzidas por DeepSeek, Moonshot e MiniMax. Essas campanhas geraram mais de 16 milhões de interações em aproximadamente 24.000 contas fraudulentas, com o objetivo de extrair as capacidades de raciocínio agentic, uso de ferramentas e codificação do Claude para treinar seus próprios modelos. Os laboratórios empregaram serviços de proxy operando arquiteturas de "hydra cluster" com milhares de contas coordenadas para contornar restrições de acesso regionais. A MiniMax, por exemplo, adaptou suas operações em 24 horas para visar novos lançamentos de modelos, enquanto a DeepSeek focou especificamente na extração de dados de chain-of-thought e alternativas seguras contra censura para consultas politicamente sensíveis. Em resposta, a Anthropic implementou classificadores de fingerprinting comportamental, fortaleceu a verificação de contas e está compartilhando indicadores técnicos com outros laboratórios e autoridades, alertando que modelos ilicitamente destilados removem os safety guardrails de segurança e comprometem os controles de exportação.
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 25 de fevereiro de 2026
- Fonte
- CEVIU Segurança da Informação
