Todas as notícias

CEVIU Dados

Big data, ciência de dados e engenharia de dados

373 notícias

28 de mai. de 2026

⚙

Kafka Share Groups e Consumo Paralelo: Ajustando max.poll.records

Com Kafka Share Groups, o principal gargalo muda da contagem de partições para a combinação de max.record.locks e max.poll.records. O valor padrão de 500 geralmente é muito alto e causa uma "captura gananciosa", onde alguns consumidores monopolizam grandes lotes. A configuração recomendada é aproximadamente max.record.locks / consumidores-por-partição (e depois ajustar um pouco para baixo) para um throughput stable e alto.

Ler mais Original

28 de mai. de 2026

📊

Desconstruindo Data Sketches: Estimativas Eficientes para Métricas Complexas

Data sketches permitem estimar métricas custosas, como contagens distintas, armazenando uma pequena amostra probabilística (por exemplo, os K menores valores hashed) em vez de varrer cada linha. Eles trocam a precisão perfeita por ganhos significativos em velocidade e economia de compute, tornando-os valiosos para dashboards, relatórios e agregação distribuída em larga escala.

Ler mais Original

28 de mai. de 2026

📈

Escalando Processos de Marketing Orientados por IA com PostgreSQL

Equipes de marketing podem escalar workflows de IA de forma confiável usando PostgreSQL como camada central de dados. Isso é possível através do gerenciamento de estado de workflow (com ENUMs), combinando tabelas relacionais com JSONB para flexibilidade, conectando dados de campanhas, ativos e performance, e aproveitando a busca full-text e pgvector para contexto semântico.

Ler mais Original

28 de mai. de 2026

💾

Projetando Armazenamento de Objetos S3 como um Engenheiro Sênior

O armazenamento de objetos em escala S3 depende de um namespace plano e imutável: buckets contêm objetos identificados por chaves, enquanto os metadados são separados dos bytes do payload para que o sistema possa escalar independentemente. Em escalas de aproximadamente 100 PB e centenas de milhões de objetos, o design exige sharding distribuído de metadados, arquivos de segmento mesclados em disco para evitar exaustão de inodes, e o chunking de objetos grandes para leituras paralelas e solicitações de range.

Ler mais Original

28 de mai. de 2026

🤖

Teste de Batalha: 5 Agentes de Analytics Open Source

Agentes de analytics open source são frequentemente agrupados, mas LangChain, Wren AI, nao, LibreChat e o template da Vercel resolvem problemas distintos, e apenas alguns são realmente construídos para analytics. Respostas confiáveis dependem menos da interface do agente e mais de onde o contexto de negócio reside, seja em prompts, modelos semânticos, arquivos markdown ou na camada subjacente de MCP/tooling.

Ler mais Original

28 de mai. de 2026

🧠

RushDB 2.0: Infraestrutura de Memória para a Era Agentic

O RushDB 2.0 é uma infraestrutura de memória para sistemas agentic, integrando armazenamento em grafo, semantic search, descoberta de ontologia/esquema, acesso MCP, habilidades e queries analíticas, além de permitir o uso do Neo4j. A proposta é oferecer uma solução unificada para a necessidade de memória estruturada e contexto confiável para agentes, eliminando a complexidade de gerenciar e integrar manualmente múltiplos sistemas como vector stores, bancos de dados de grafo e workflows de descoberta de esquema.

Ler mais Original

28 de mai. de 2026

🚧

O Risco da IA é um Problema de Arquitetura

O risco da IA deve ser avaliado no nível do sistema, e não apenas no nível do modelo. Os três riscos de mecanismo — exposição de dados, saída incorreta e ação não intencional — se conectam a cinco danos comerciais: risco de marca, conformidade, responsabilidade, operacional e comercial. O controle mais importante é a arquitetura: o que a IA pode ver, para onde sua saída é direcionada e o que ela pode fazer sem verificações. Adicionar revisão humana, validações determinísticas e permissões delimitadas pode reduzir drasticamente o risco de ação sem alterar o modelo.

Ler mais Original

28 de mai. de 2026

🧮

Como o CockroachDB Construiu Indexação de Vector em Escala

O CockroachDB desenvolveu seu próprio sistema de indexação de vector, chamado C-SPANN, para suportar buscas de vector escaláveis. Isso ocorreu porque abordagens existentes como HNSW e IVF não se adequavam à sua arquitetura distribuída. O C-SPANN utiliza uma árvore hierárquica K-means armazenada como dados de tabela regulares, suporta inserções e exclusões em tempo real, e integra-se nativamente com o sharding e rebalanceamento do CockroachDB.

Ler mais Original

28 de mai. de 2026

📦

SDK Open Data Product: Transformando Ideias de Produtos de Dados em YAML Padrão com Modelos de IA

O SDK Open Data Product agora permite a conversão assistida por IA de texto livre e Markdown em YAML pronto para padrões, visando catálogos de produtos de dados, especificações de itens e contexto de grafo ODPG. Este workflow capta descrições de produtos, casos de uso, objetivos de negócio e sinais, gerando YAML de Catálogo ODPC e metadados de portfólio conectados. O objetivo é substituir a edição manual de metadados por um caminho focado em padrões, da linguagem dos stakeholders às definições de produtos de dados legíveis por máquina.

Ler mais Original

28 de mai. de 2026

❄

Herdei uma Fatura de US$ 140K do Snowflake — Três Meses Depois Era US$ 38K. Tudo o que Aprendi

Os custos e o desempenho do Snowflake dependem de três camadas distintas: armazenamento, compute e serviços de cloud. As maiores economias vêm do dimensionamento correto dos warehouses, auto-suspensão agressiva e redução do inchaço de armazenamento causado por configurações de retenção. As alavancas de otimização mais eficazes são o layout físico dos dados e o design das queries: use clustering apenas quando os predicados corresponderem, evite SELECT *, filtros envolvidos em funções e recarregamentos completos, e prefira pipelines incrementais e pré-agregação antes de joins.

Ler mais Original

28 de mai. de 2026

📊

Anunciado Polars 1.41 com Melhorias para Workloads Analíticos

O Polars 1.41 apresenta três aprimoramentos práticos para workloads analíticos: decodificação mais rápida de footers Parquet para tabelas largas, eliminação mais profunda de subplanos comuns em branches de query aninhadas, e novo suporte a LazyFrame.gather() para seleção de linhas baseada em inteiros sem materialização de dados.

Ler mais Original

28 de mai. de 2026

📊

Auditando Vieses de Modelo com Conjuntos de Dados Balanceados usando Mimesis

A biblioteca Mimesis pode criar conjuntos de dados sintéticos, contrafactuais e balanceados para testar se um modelo contém vieses ocultos, como gênero, idade ou etnia, mantendo outras características consistentes. Isso ajuda as equipes a medir mudanças nas previsões e detectar vieses indesejados de forma segura e com preservação da privacidade.

Ler mais Original

25 de mai. de 2026

☕

Mesmos buffers, mesmas instruções, mesmo hardware. Onde está o “imposto” da JVM?

Para desafiar a alegação comum de que a JVM impõe uma penalidade significativa de performance em cargas de trabalho analíticas, kernels aritméticos vetorizados simples, executados diretamente sobre buffers Apache Arrow em Java puro, foram comparados com o arrow-rs nativo. Os resultados demonstraram performance comparável, provando que, com o mesmo layout de memória colunar e hardware, uma JVM “aquecida” não impõe nenhum “imposto” misterioso em kernels de compute brutos.

Ler mais Original

25 de mai. de 2026

💾

Pg_infer 1.0.0 lançado – conhecimento de modelos transformer como relações SQL

O pg_infer é uma extensão para PostgreSQL 18+ que torna os componentes internos dos modelos transformer consultáveis em SQL. Isso permite que a inference do modelo seja precificada, paralelizada, combinada e filtrada como qualquer outra operação de banco de dados. Ele opera eficientemente em CPU, suporta modelos BitNet e pode descarregar a inference para réplicas ou hosts de recuperação de desastres.

Ler mais Original

25 de mai. de 2026

⚙

A evolução Hugo: Engenharia da plataforma unificada de ingestão de dados one-click da Grab com Apache Flink

A Grab unificou sua ingestão de dados self-service em um workflow automatizado baseado em Flink, abrangendo CDC de RDS e pipelines Kafka. A nova plataforma reduz o tempo de integração de dias para minutos, mitiga problemas de esquema e governança precocemente, e diminui o overhead operacional.

Ler mais Original

25 de mai. de 2026

🦆

Modo Plano o Tempo Todo, Substrait sobre SQL e o Fim do Papel de Engenheiro de Dados

A IA já é robusta o suficiente para lidar com grande parte da engenharia de dados, especialmente com fluxos de trabalho declarativos e fortes "quality gates". Para gerenciar o não determinismo dos LLMs, deve-se usar o “plan mode”, redefinições de contexto frequentes e testes externos. Formatos como o Substrait podem ser mais adequados que o SQL para agentes expressarem transformações, pois comunicam operações físicas. O papel de engenheiro de dados pode se integrar a uma função de "dados" mais ampla, à medida que a ergonomia dos agentes se torna mais relevante que a humana.

Ler mais Original

25 de mai. de 2026

📈

Apresentando Dimster, uma ferramenta de benchmarking de performance para Apache Kafka

Dimster é uma ferramenta de benchmarking open-source para Kafka, projetada para simplificar testes de performance em diversas cargas de trabalho e configurações. A ferramenta suporta testes de throughput, taxa de pico, escoamento de backlog e correção, apresentando os resultados em gráficos e dashboards Grafana.

Ler mais Original

25 de mai. de 2026

🕸

A Escolha do Grafo Certo para o seu Projeto

Grafos RDF/OWL são mais adequados para dados governados e interoperáveis, oferecendo significado formal, raciocínio, proveniência e publicação de linked-data. Por outro lado, labeled property graphs são superiores para travessia rápida, propriedades ricas de arestas e análises de grafos amigáveis ao desenvolvedor, embora o RDF 1.2 esteja diminuindo essa diferença com anotações de statement nativas.

Ler mais Original

25 de mai. de 2026

📈

Cloud Native Computing Foundation anuncia graduação do OpenTelemetry, solidificando seu status como padrão de observability de fato

OpenTelemetry alcança o status de projeto graduado na CNCF, indicando sua maturidade para uso em produção como um padrão agnóstico de fornecedor para métricas, logs e traces.

Ler mais Original

25 de mai. de 2026

🧊

O Congelamento de 58 Milhões de Chaves: O Que um Redimensionamento de HashMap Ensinou Sobre Alocação de Memória em Escala

O LinkedIn enfrentou um incidente de produção onde seu serviço FishDB, baseado em Rust, congelava completamente por 10-15 segundos, violando os SLOs de disponibilidade. A causa raiz foi o redimensionamento de um HashMap da biblioteca padrão em exatamente 58.720.256 chaves, o que disparou uma alocação massiva de memória via mmap. Isso adquiriu o mmap_lock em modo de escrita, bloqueando todas as outras threads em chamadas madvise e page faults, congelando todo o runtime assíncrono.

Ler mais Original

Outras categorias

CEVIU IA1167 CEVIU1014 CEVIU Segurança da Informação962 CEVIU Web Dev874 CEVIU Cripto869 CEVIU TI773 CEVIU Design755 CEVIU Marketing578