Voltar

Quando 36 mil Arquivos Minúsculos Quebram Seu Pipeline Spark: Um Mergulho Profundo na Exaustão de DNS do S3 e o Problema de Arquivos Pequenos

Milhares de arquivos Parquet minúsculos no S3 podem quebrar leituras do Spark com UnknownHostException, mesmo quando a rede está funcionando, sobrecarregando DNS, chamadas LIST/GET do S3 e metadados de driver/task. O ajuste de partições do Spark pode ajudar a estabilizar leituras, mas a solução real é compactação e formatos de tabela como Delta Lake ou Iceberg.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Dados
Publicado
14 de maio de 2026
Fonte
CEVIU Dados

Quer receber mais sobre CEVIU Dados?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Quando 36 mil Arquivos Minúsculos Quebram Seu Pipeline Spark: Um Mergulho Profundo na Exaustão de DNS do S3 e o Problema de Arquivos Pequenos — CEVIU News