Recriando PDFs de Epstein não censurados a partir de anexos codificados brutos
Um pesquisador de segurança descobriu que a última divulgação de documentos de Epstein pelo DoJ incluiu, inadvertidamente, anexos de e-mail não editados como conteúdo raw base64-encoded. Isso ocorreu porque o estagiário responsável não reconheceu a importância de páginas de dados codificados embutidos em e-mails impressos e digitalizados. A reconstrução dos PDFs originais foi extremamente difícil devido à baixa qualidade do OCR na renderização da fonte Courier New (onde "1" e "l" são quase indistinguíveis). Múltiplas ferramentas de OCR comerciais e de código aberto falharam, até que uma abordagem de template-matching em nível de pixel, desenvolvida pela comunidade, atingiu 99,96% de precisão de linha e descompactou com sucesso 39 de 40 streams FlateDecode. O incidente destaca como artefatos de codificação e pipelines de processamento de documentos podem preservar conteúdo sensível que os workflows de redação ignoram, servindo como um alerta para o manuseio forense de documentos e os processos de verificação de redação.
- Categoria
- CEVIU Segurança da Informação
- Publicado
- 11 de fevereiro de 2026
- Fonte
- CEVIU Segurança da Informação
