Reduzindo Drasticamente Erros de Out-of-Memory no Apache Spark no Pinterest
O Pinterest desenvolveu a funcionalidade Auto Memory Retries, que automaticamente retenta tarefas com falha por Out-of-Memory (OOM). O processo começa aumentando a alocação de CPU para reduzir a contenção e, subsequentemente, lança executors maiores com perfis de recursos escalados em 2x/3x/4x, ajustando memória, overhead e off-heap para jobs do Gluten. Essa abordagem resultou em uma redução de 96% nas falhas de OOM, com economia de custos de compute e diminuição significativa dos esforços de tuning manual em casos como data skew severo ou picos imprevisíveis de memória por tarefa. ️
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 19 de fevereiro de 2026
- Fonte
- CEVIU Dados
