Expedia utiliza LLMs para analisar planos do Spark SQL e acelerar depuração de jobs

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

A Expedia não está apenas usando LLMs como assistentes genéricos para ler planos do Spark SQL. Ela construiu um fluxo de trabalho operacional com três pilares técnicos concretos: (1) integração com o MCP (Model Context Protocol) Server, ferramenta de código aberto da Kubeflow que extrai metadados estruturados diretamente do Spark History Server; (2) engenharia de prompt baseada em antipadrões com limiares métricos objetivos, por exemplo, skew é declarado quando uma partição ultrapassa 5 GB *e* é 5× maior que a média; (3) validação cruzada com dados reais de execução, como volumes de shuffle, spill em disco e leitura bruta de tabelas (ex.: 23,5 TB lidos sem filtro em Vrbo). Isso transforma a análise de planos físicos de um exercício manual de adivinhação em um diagnóstico automatizado com critérios de engenharia de dados.

O sistema opera sobre o plano físico gerado pelo Catalyst Optimizer, mas vai além dele: correlaciona cada operador com métricas de tempo real coletadas no cluster, como tamanho de partição, bytes escritos em shuffle, e latência de tarefa. Não é só 'explicar o plano', é mapear cada linha do EXPLAIN ANALYZE em um risco mensurável de custo ou desempenho.

O que mudou

Em abril de 2026, o Service Telemetry Analyzer já usava LLMs com telemetria do Datadog, mas focava em serviços REST e incidentes de API. Agora, em julho de 2026, a Expedia estendeu a mesma filosofia de IA-assistida para o nível mais baixo da infraestrutura de dados: o plano de execução do Spark. A mudança não é só de escopo, mas de granularidade técnica. Antes, a IA interpretava logs e métricas agregadas. Agora, ela analisa DAGs de tarefas, estatísticas de stage, e até o conteúdo de partições, com regras de detecção codificadas (não heurísticas), como 'transmissão > 1 GB' ou 'explosão de linhas > 2×'. Isso representa uma migração de IA como 'analista de sintomas' para IA como 'engenheiro de performance de execução distribuída'.

Por que isso importa

Jobs do Spark que demoram horas não são só um problema de tempo: são um problema de governança de custo. Um único job mal otimizado pode consumir centenas de dólares em recursos computacionais por execução. Ao automatizar a detecção de antipadrões com limiares objetivos, e não com interpretações subjetivas, a Expedia converte diagnóstico técnico em ação operacional imediata: ajuste de broadcast join, reescrita de filtro de partição, redistribuição de dados. Isso reduz o tempo médio de resolução de falhas de horas para minutos e corta custos em até 90% por job. Para equipes que operam milhares de pipelines diários, essa não é uma melhoria incremental, é a diferença entre manter ou descartar um pipeline crítico por inviabilidade econômica.

Linha do tempo

2026-02-16
CEVIU publica análise sobre Pipelines Declarativos Lakeflow como alternativa estruturada ao Spark imperativo
2026-03-04
CEVIU destaca agentes de compreensão de código que analisam semântica sem executar programas
2026-03-09
CEVIU cobre embeddings unificados para Text-to-SQL no Pinterest, integrando metadata e histórico de queries
2026-04-30
CEVIU reporta lançamento do Service Telemetry Analyzer da Expedia, com LLMs + Datadog para diagnóstico de serviços
2026-07-01
CEVIU noticia lançamento do DSpark pela DeepSeek, framework para acelerar inferência de LLMs
2026-07-02
CEVIU publica aprofundamento sobre uso de LLMs pela Expedia para análise automatizada de planos físicos do Spark SQL

Perguntas frequentes

Essa solução funciona apenas com Spark SQL ou também com PySpark e RDDs?

Apenas com Spark SQL. O sistema depende do Catalyst Optimizer para gerar os planos físicos estruturados que alimentam o MCP Server. PySpark e RDDs não produzem esse tipo de plano padronizado, eles fogem ao escopo da implementação atual.

Os LLMs usados são modelos proprietários ou open source? Eles rodam localmente ou na nuvem?

A Expedia não revelou o modelo exato, mas a arquitetura descrita requer baixa latência e acesso direto a metadados sensíveis. Fontes técnicas indicam uso de LLMs finetunados localmente em clusters Kubernetes, com inferência via vLLM, evitando dependência de APIs externas e garantindo conformidade com políticas de dados internas.

Como a equipe evita alucinações ao pedir para a IA 'explicar o plano'?

Não há explicação livre. Cada chamada ao LLM é um prompt estruturado com template fixo: 'Verifique se [antipadrão X] ocorre. Se sim, liste: (a) stage ID, (b) valor observado, (c) limite violado, (d) sugestão técnica baseada em documentação oficial do Spark'. Nada de narrativa, só triagem binária com evidência numérica.

Essa abordagem substitui ferramentas como Spark UI ou Grafana?

Não substitui, complementa. Spark UI ainda é essencial para inspeção interativa. Mas a IA atua como um 'filtro inteligente': ela varre centenas de jobs diários, prioriza os 5% mais críticos com base em métricas objetivas e gera relatórios acionáveis com links diretos para os stages problemáticos. Reduz a necessidade de caça manual no UI.

Links relacionados

🔍Service Telemetry Analyzer da Expedia

Fontes

medium.comfonte original

Avalie este artigo:

Categoria: CEVIU Dados
Publicado: 03 de julho de 2026
Editoria: CEVIU Dados