CEVIU News

CEVIU News - CEVIU Dados - 14 de maio de 2026

14 notícias14 de maio de 2026CEVIU Dados
Compartilhar:

🎬 CEVIU Dados

A Netflix introduziu Data Projects para substituir ACLs frágeis e identidades de workflow controladas por humanos em milhões de tabelas e milhares de jobs. Os projetos agrupam tabelas, workflows, secrets e ativos sob identidades de aplicação duráveis pertencentes a equipes, com roles e tokens com escopo definido para reduzir a rotatividade de permissões.

Milhares de arquivos Parquet minúsculos no S3 podem quebrar leituras do Spark com UnknownHostException, mesmo quando a rede está funcionando, sobrecarregando DNS, chamadas LIST/GET do S3 e metadados de driver/task. O ajuste de partições do Spark pode ajudar a estabilizar leituras, mas a solução real é compactação e formatos de tabela como Delta Lake ou Iceberg.

A Meta migrou seu sistema massivo de ingestão de dados de pipelines legados mantidos pelos clientes para um serviço autogerenciado mais simples, usando um ciclo de vida faseado Shadow → Reverse Shadow → Cleanup, verificações de contagem de linhas e checksum, ferramentas de promoção automatizada, infraestrutura de debugging customizada e mecanismos de rollback para prevenir propagação de dados CDC ruins.

Engines de consulta em lakehouse frequentemente enfrentam dificuldades porque os metadados estatísticos necessários para planejar consultas, pular dados irrelevantes, dimensionar joins e lidar com skew são opcionais, inconsistentes ou ausentes em formatos como Iceberg, Delta Lake e Parquet. Sem estatísticas confiáveis, as engines são forçadas a adivinhar, resultando em planos de consulta ruins, leituras desnecessárias, custos mais altos, problemas de memória e consultas lentas ou com falhas.

Uma pesquisa com 334 respostas em abril de 2026 mostra que as dores da modelagem de dados são predominantemente organizacionais, não de ferramentas: 28,1% querem treinamento, 24,6% requisitos mais claros, 21,6% mais tempo, 21,0% ownership dedicado, e apenas 4,8% melhores ferramentas. A modelagem frequentemente fica com quem constrói pipelines (42,5%), enquanto só 19,2% têm um modelador ou arquiteto dedicado, e 68,3% refatoram apenas ocasionalmente ou raramente. Equipes com padrões obrigatórios têm cerca de 5x mais chances de dizer que seus modelos se sustentam.

O crescimento do dbt criou tensão entre suas raízes voltadas aos profissionais e ambições empresariais. A ferramenta precisa proteger melhor a confiança da comunidade, melhorar o dbt Core, fortalecer integrações, corrigir a ergonomia para desenvolvedores e fazer o dbt Cloud funcionar como uma IDE real. O risco não é a adoção, mas alienar os usuários que tornaram o dbt valioso.

Quack é um novo protocolo cliente-servidor que permite que instâncias separadas do DuckDB se comuniquem via HTTP, em vez de executar apenas em processo. Utiliza um modelo request/response com serialização personalizada application/duckdb, autenticação baseada em token por padrão, binding para localhost e sem SSL por padrão para uso local, enquanto suporta conexões remotas através da infraestrutura HTTP padrão.

VIEWs são apenas regras de reescrita armazenadas (macros) que se expandem no momento da consulta. Elas se comportam como tabelas em casos simples, mas criam complexidade oculta através de espirais aninhadas, dependências frágeis em números de atributos, mudanças de schema dolorosas e capacidade limitada de escrita, frequentemente levando ao conselho clássico: "use-as, mas não as trate como tabelas".

Kafka Queues (Share Groups) se destacam quando o processamento de consumers envolve delays ou I/O externo que causa Head-Of-Line Blocking. Ao permitir mais instâncias de consumer do que partições, share groups possibilitam escalonamento linear do throughput (testado até 8x com 32 instâncias) sem overhead perceptível por instância, tornando-os muito eficazes para workloads limitados por I/O.

Modelos agentic de busca estão emergindo para orquestrar todo o workflow de recuperação, substituindo o stack atual frágil de embeddings, rerankers, classificadores de query e BM25 por primitivas de backend mais simples. Diferente dos LLMs frontier que lidam com o "caso dos 80%", modelos treinados especificamente para busca podem codificar intenções específicas de domínio e os "20% finais" das nuances de retrieval, melhorando a relevância em contextos específicos como e-commerce ou busca de empregos. Exemplos iniciais como SID-1 e Waldo enfatizam menor tamanho e menor latência.

Muitos projetos de dados falham não por questões técnicas, mas porque engenheiros partem direto para a construção sem entender adequadamente as necessidades e processos reais dos stakeholders. Em vez disso, comece pedindo ao stakeholder para explicar seu workflow atual, crie uma Definição de Pronto em uma frase, entregue um MVP simples e itere sobre ele para transformar solicitações vagas em trabalho entregue e adotado, reduzindo drasticamente o esforço desperdiçado.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
CEVIU News - CEVIU Dados - 14 de maio de 2026 — CEVIU News