A Netflix introduziu Data Projects para substituir ACLs frágeis e identidades de workflow controladas por humanos em milhões de tabelas e milhares de jobs. Os projetos agrupam tabelas, workflows, secrets e ativos sob identidades de aplicação duráveis pertencentes a equipes, com roles e tokens com escopo definido para reduzir a rotatividade de permissões.

CEVIU News - CEVIU Dados - 14 de maio de 2026
🎬 CEVIU Dados
Milhares de arquivos Parquet minúsculos no S3 podem quebrar leituras do Spark com UnknownHostException, mesmo quando a rede está funcionando, sobrecarregando DNS, chamadas LIST/GET do S3 e metadados de driver/task. O ajuste de partições do Spark pode ajudar a estabilizar leituras, mas a solução real é compactação e formatos de tabela como Delta Lake ou Iceberg.
Agentes de IA corporativos falham em workflows longos porque resetam, perdem contexto e dependem de prompts inchados ou busca vector simples. A arquitetura de memória da Microsoft usa consolidação, esquecimento e maturação atrasada para manter eventos de alto valor, alcançando 97,2% de precisão na retenção e estabilizando em torno de 400 a 500 memórias.
A Meta migrou seu sistema massivo de ingestão de dados de pipelines legados mantidos pelos clientes para um serviço autogerenciado mais simples, usando um ciclo de vida faseado Shadow → Reverse Shadow → Cleanup, verificações de contagem de linhas e checksum, ferramentas de promoção automatizada, infraestrutura de debugging customizada e mecanismos de rollback para prevenir propagação de dados CDC ruins.
Engines de consulta em lakehouse frequentemente enfrentam dificuldades porque os metadados estatísticos necessários para planejar consultas, pular dados irrelevantes, dimensionar joins e lidar com skew são opcionais, inconsistentes ou ausentes em formatos como Iceberg, Delta Lake e Parquet. Sem estatísticas confiáveis, as engines são forçadas a adivinhar, resultando em planos de consulta ruins, leituras desnecessárias, custos mais altos, problemas de memória e consultas lentas ou com falhas.
Uma pesquisa com 334 respostas em abril de 2026 mostra que as dores da modelagem de dados são predominantemente organizacionais, não de ferramentas: 28,1% querem treinamento, 24,6% requisitos mais claros, 21,6% mais tempo, 21,0% ownership dedicado, e apenas 4,8% melhores ferramentas. A modelagem frequentemente fica com quem constrói pipelines (42,5%), enquanto só 19,2% têm um modelador ou arquiteto dedicado, e 68,3% refatoram apenas ocasionalmente ou raramente. Equipes com padrões obrigatórios têm cerca de 5x mais chances de dizer que seus modelos se sustentam.
O crescimento do dbt criou tensão entre suas raízes voltadas aos profissionais e ambições empresariais. A ferramenta precisa proteger melhor a confiança da comunidade, melhorar o dbt Core, fortalecer integrações, corrigir a ergonomia para desenvolvedores e fazer o dbt Cloud funcionar como uma IDE real. O risco não é a adoção, mas alienar os usuários que tornaram o dbt valioso.
Quack é um novo protocolo cliente-servidor que permite que instâncias separadas do DuckDB se comuniquem via HTTP, em vez de executar apenas em processo. Utiliza um modelo request/response com serialização personalizada application/duckdb, autenticação baseada em token por padrão, binding para localhost e sem SSL por padrão para uso local, enquanto suporta conexões remotas através da infraestrutura HTTP padrão.
VIEWs são apenas regras de reescrita armazenadas (macros) que se expandem no momento da consulta. Elas se comportam como tabelas em casos simples, mas criam complexidade oculta através de espirais aninhadas, dependências frágeis em números de atributos, mudanças de schema dolorosas e capacidade limitada de escrita, frequentemente levando ao conselho clássico: "use-as, mas não as trate como tabelas".
Kafka Queues (Share Groups) se destacam quando o processamento de consumers envolve delays ou I/O externo que causa Head-Of-Line Blocking. Ao permitir mais instâncias de consumer do que partições, share groups possibilitam escalonamento linear do throughput (testado até 8x com 32 instâncias) sem overhead perceptível por instância, tornando-os muito eficazes para workloads limitados por I/O.
Modelos agentic de busca estão emergindo para orquestrar todo o workflow de recuperação, substituindo o stack atual frágil de embeddings, rerankers, classificadores de query e BM25 por primitivas de backend mais simples. Diferente dos LLMs frontier que lidam com o "caso dos 80%", modelos treinados especificamente para busca podem codificar intenções específicas de domínio e os "20% finais" das nuances de retrieval, melhorando a relevância em contextos específicos como e-commerce ou busca de empregos. Exemplos iniciais como SID-1 e Waldo enfatizam menor tamanho e menor latência.
Muitos projetos de dados falham não por questões técnicas, mas porque engenheiros partem direto para a construção sem entender adequadamente as necessidades e processos reais dos stakeholders. Em vez disso, comece pedindo ao stakeholder para explicar seu workflow atual, crie uma Definição de Pronto em uma frase, entregue um MVP simples e itere sobre ele para transformar solicitações vagas em trabalho entregue e adotado, reduzindo drasticamente o esforço desperdiçado.
O DuckDB não é mais apenas um banco de dados de analytics embarcado.
Um padrão reutilizável de ETL na AWS é construído com ECS Fargate, DuckDB, ECR, EventBridge, CloudWatch, Secrets Manager e Terraform, focando em jobs de nó único em vez de Glue com Spark pesado.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
