Quando 36 mil Arquivos Minúsculos Quebram Seu Pipeline Spark: Um Mergulho Profundo na Exaustão de DNS do S3 e o Problema de Arquivos Pequenos
Milhares de arquivos Parquet minúsculos no S3 podem quebrar leituras do Spark com UnknownHostException, mesmo quando a rede está funcionando, sobrecarregando DNS, chamadas LIST/GET do S3 e metadados de driver/task. O ajuste de partições do Spark pode ajudar a estabilizar leituras, mas a solução real é compactação e formatos de tabela como Delta Lake ou Iceberg.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 14 de maio de 2026
- Fonte
- CEVIU Dados
