CEVIU News - CEVIU Dados - 14 de maio de 2026

14 notícias14 de maio de 2026CEVIU Dados

🎬 CEVIU Dados

14 de mai. de 2026

🎬

Data Projects: Gerenciando Ativos de Dados na Escala da Netflix

A Netflix introduziu Data Projects para substituir ACLs frágeis e identidades de workflow controladas por humanos em milhões de tabelas e milhares de jobs. Os projetos agrupam tabelas, workflows, secrets e ativos sob identidades de aplicação duráveis pertencentes a equipes, com roles e tokens com escopo definido para reduzir a rotatividade de permissões.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

⚡

Quando 36 mil Arquivos Minúsculos Quebram Seu Pipeline Spark: Um Mergulho Profundo na Exaustão de DNS do S3 e o Problema de Arquivos Pequenos

Milhares de arquivos Parquet minúsculos no S3 podem quebrar leituras do Spark com UnknownHostException, mesmo quando a rede está funcionando, sobrecarregando DNS, chamadas LIST/GET do S3 e metadados de driver/task. O ajuste de partições do Spark pode ajudar a estabilizar leituras, mas a solução real é compactação e formatos de tabela como Delta Lake ou Iceberg.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🧠

Por que seu agente de IA tem amnésia e por que esquecer é a solução

Agentes de IA corporativos falham em workflows longos porque resetam, perdem contexto e dependem de prompts inchados ou busca vector simples. A arquitetura de memória da Microsoft usa consolidação, esquecimento e maturação atrasada para manter eventos de alto valor, alcançando 97,2% de precisão na retenção e estabilizando em torno de 400 a 500 memórias.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

⚙

Meta Migra Sistemas de Ingestão de Dados em Escala Massiva

A Meta migrou seu sistema massivo de ingestão de dados de pipelines legados mantidos pelos clientes para um serviço autogerenciado mais simples, usando um ciclo de vida faseado Shadow → Reverse Shadow → Cleanup, verificações de contagem de linhas e checksum, ferramentas de promoção automatizada, infraestrutura de debugging customizada e mecanismos de rollback para prevenir propagação de dados CDC ruins.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

📊

Estatísticas em Lakehouse e por que engines de consulta se perdem

Engines de consulta em lakehouse frequentemente enfrentam dificuldades porque os metadados estatísticos necessários para planejar consultas, pular dados irrelevantes, dimensionar joins e lidar com skew são opcionais, inconsistentes ou ausentes em formatos como Iceberg, Delta Lake e Parquet. Sem estatísticas confiáveis, as engines são forçadas a adivinhar, resultando em planos de consulta ruins, leituras desnecessárias, custos mais altos, problemas de memória e consultas lentas ou com falhas.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

📊

Resultados da Pesquisa Estado da Modelagem de Dados PDC de Abril de 2026 Estão Disponíveis!

Uma pesquisa com 334 respostas em abril de 2026 mostra que as dores da modelagem de dados são predominantemente organizacionais, não de ferramentas: 28,1% querem treinamento, 24,6% requisitos mais claros, 21,6% mais tempo, 21,0% ownership dedicado, e apenas 4,8% melhores ferramentas. A modelagem frequentemente fica com quem constrói pipelines (42,5%), enquanto só 19,2% têm um modelador ou arquiteto dedicado, e 68,3% refatoram apenas ocasionalmente ou raramente. Equipes com padrões obrigatórios têm cerca de 5x mais chances de dizer que seus modelos se sustentam.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

⚠

Precisamos falar sobre o dbt

O crescimento do dbt criou tensão entre suas raízes voltadas aos profissionais e ambições empresariais. A ferramenta precisa proteger melhor a confiança da comunidade, melhorar o dbt Core, fortalecer integrações, corrigir a ergonomia para desenvolvedores e fazer o dbt Cloud funcionar como uma IDE real. O risco não é a adoção, mas alienar os usuários que tornaram o dbt valioso.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🦆

Quack: O Protocolo Cliente-Servidor do DuckDB

Quack é um novo protocolo cliente-servidor que permite que instâncias separadas do DuckDB se comuniquem via HTTP, em vez de executar apenas em processo. Utiliza um modelo request/response com serialização personalizada application/duckdb, autenticação baseada em token por padrão, binding para localhost e sem SSL por padrão para uso local, enquanto suporta conexões remotas através da infraestrutura HTTP padrão.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🗂

Opiniões Firmes sobre VIEWs do PostgreSQL

VIEWs são apenas regras de reescrita armazenadas (macros) que se expandem no momento da consulta. Elas se comportam como tabelas em casos simples, mas criam complexidade oculta através de espirais aninhadas, dependências frágeis em números de atributos, mudanças de schema dolorosas e capacidade limitada de escrita, frequentemente levando ao conselho clássico: "use-as, mas não as trate como tabelas".

Ler mais Original

CEVIU Dados

14 de mai. de 2026

⚡

Kafka Queues podem acelerar consumers? Parte 2: Head-Of-Line Blocking

Kafka Queues (Share Groups) se destacam quando o processamento de consumers envolve delays ou I/O externo que causa Head-Of-Line Blocking. Ao permitir mais instâncias de consumer do que partições, share groups possibilitam escalonamento linear do throughput (testado até 8x com 32 instâncias) sem overhead perceptível por instância, tornando-os muito eficazes para workloads limitados por I/O.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🔍

Modelos agentic de busca

Modelos agentic de busca estão emergindo para orquestrar todo o workflow de recuperação, substituindo o stack atual frágil de embeddings, rerankers, classificadores de query e BM25 por primitivas de backend mais simples. Diferente dos LLMs frontier que lidam com o "caso dos 80%", modelos treinados especificamente para busca podem codificar intenções específicas de domínio e os "20% finais" das nuances de retrieval, melhorando a relevância em contextos específicos como e-commerce ou busca de empregos. Exemplos iniciais como SID-1 e Waldo enfatizam menor tamanho e menor latência.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🛑

Pare de Iniciar Projetos de Dados

Muitos projetos de dados falham não por questões técnicas, mas porque engenheiros partem direto para a construção sem entender adequadamente as necessidades e processos reais dos stakeholders. Em vez disso, comece pedindo ao stakeholder para explicar seu workflow atual, crie uma Definição de Pronto em uma frase, entregue um MVP simples e itere sobre ele para transformar solicitações vagas em trabalho entregue e adotado, reduzindo drasticamente o esforço desperdiçado.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🦆

Postgres teve uma boa trajetória de 30 anos – será que o DuckDB vem atrás da coroa?

O DuckDB não é mais apenas um banco de dados de analytics embarcado.

Ler mais Original

CEVIU Dados

14 de mai. de 2026

🔧

Build Completo de Pipeline ETL de Ponta a Ponta na AWS

Um padrão reutilizável de ETL na AWS é construído com ECS Fargate, DuckDB, ECR, EventBridge, CloudWatch, Secrets Manager e Terraform, focando em jobs de nó único em vez de Glue com Spark pesado.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser