Ray Data vs. Daft: quem vence na prática com data lakes multimodais?

04 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O teste com oito casos de uso em produção revela um padrão técnico claro: Ray Data se impõe quando a carga envolve orquestração pesada de tarefas heterogêneas, como inferência simultânea de múltiplos LLMs com pré-processamento multimodal, reagindo a eventos de data lake em tempo real. Sua estabilidade vem da granularidade do scheduler e da capacidade de recuperar sub-tarefas sem reiniciar pipelines inteiros, algo crítico em ambientes que já usam Kafka + Spark Structured Streaming, onde falhas pontuais costumam propagar latência ou perda de SLA. Já o Daft prioriza expressividade: sua API unifica leitura de imagens, áudio e texto com operadores nativos (ex: df.audio.trim(), df.text.embed('llama3')), reduzindo boilerplate em etapas de feature engineering, mas exige mais cuidado na gestão de memória sob pressão contínua de GPU.

A comparação ganha peso ao cruzar com a abstração de 'model units' da Databricks: enquanto o Daft simplifica a construção do input para LLMs, o Ray Data se integra melhor com sistemas que já adotam unidades de alocação baseadas em custo e QoS, como os descritos no artigo de 2026-05-28. Isso não é só sobre desempenho bruto, é sobre como cada framework lida com a fricção entre dados brutos, recursos físicos e contratos operacionais.

O que mudou

Em maio, o CEVIU destacou que o Daft ainda estava em versão 0.4.1 e seu suporte a operações multimodais era limitado a formatos parquet/arrow com extensões experimentais. Agora, na versão 0.5.0 (lançada em 2026-06-02), ele traz operadores nativos estáveis para áudio e imagem, além de otimizações de cache por modality, o que explica sua vantagem atual em sintaxe e primitivas. Já o Ray Data, que em 2026-05-28 era citado apenas como opção emergente para pipelines de ML, agora demonstra maturidade operacional real: 99,97% de uptime em workloads de inferência contínua por 72h, com fallback automático para CPU em falhas de GPU, algo que não constava nos testes anteriores.

Por que isso importa

Escolher entre Ray Data e Daft hoje não é só decidir por velocidade ou conveniência. É escolher um modelo operacional: Ray Data exige mais engenharia de infraestrutura, mas entrega previsibilidade em cenários de compliance e multi-tenant; Daft reduz tempo de desenvolvimento, mas transfere complexidade para o time de MLOps na hora de garantir escalabilidade estável. Em ambientes que já usam Liquid Clustering (como os da Databricks), o Daft se beneficia da organização dinâmica dos dados, mas o Ray Data aproveita melhor os metadados de clustering para rotear tarefas de forma inteligente, evitando leituras desnecessárias.

Linha do tempo

28/05/2026
Databricks lança abstração de 'model units' para gerenciar inferência multi-tenant de LLMs
01/06/2026
CEVIU publica guia sobre tradeoffs em índices vetoriais no Postgres, destacando necessidade de arquiteturas que suportem consultas multimodais eficientes
04/06/2026
Teste comparativo em produção mostra Ray Data com maior estabilidade e Daft com vantagem em primitivas multimodais nativas

Perguntas frequentes

Posso usar Daft para inferência de LLM em produção?

Pode, mas com ressalvas. O Daft lida bem com o pré-processamento multimodal e embedding, mas não tem mecanismos nativos de fallback de GPU ou controle fino de recursos por requisição, o que aumenta risco de timeouts em picos. Time de MLOps precisa complementar com orquestração externa.

Ray Data substitui Spark Structured Streaming?

Não substitui, mas complementa. Ray Data é mais adequado para processamento stateful com baixa latência e dependências complexas entre tarefas. Spark Structured Streaming ainda lidera em ingestão contínua com garantia exatamente uma vez (EOS) e integração nativa com Kafka em ambientes regulatórios.

O que significa 'data lakes multimodais' nesse contexto?

São data lakes que armazenam e processam juntos dados estruturados (tabelas), semiestruturados (JSON, XML), não estruturados (imagens, áudio, PDFs) e vetoriais, sem precisar converter tudo para um formato único antes do processamento. A diferença entre Ray Data e Daft aparece justamente na forma como cada um organiza e executa operações cruzadas entre esses tipos.

Liquid Clustering afeta a performance desses frameworks?

Sim, e de forma distinta. O Daft usa os metadados de Liquid Clustering para acelerar filtros em colunas de texto e embeddings, mas não otimiza travessias entre modos. Já o Ray Data pode usar esses mesmos metadados para agendar tarefas de inferência diretamente nos nós que já têm os blocos de dados relevantes em cache, reduzindo movimentação de rede.

Links relacionados

🧊Liquid Clustering vs. Particionamento: A Databricks desmonta 8 mitos sobre layout de dados

Fontes

mehulbatra.medium.comfonte original

Avalie este artigo:

Categoria: CEVIU Dados
Publicado: 04 de junho de 2026
Editoria: CEVIU Dados