CEVIU News - CEVIU Dados - 18 de junho de 2026

12 notícias18 de junho de 2026CEVIU Dados

⚡ CEVIU Dados

18 de jun. de 2026

⚡

Databricks lança Lakehouse//RT: data warehouse em tempo real diretamente no lakehouse

O Databricks Lakehouse//RT é um novo data warehouse em tempo real baseado no motor Reyden, capaz de executar consultas em milissegundos diretamente sobre dados armazenados no lakehouse, sem necessidade de replicação, movimentação ou camadas intermediárias. A solução visa simplificar analítica em tempo real, BI, aplicações e observability, mantendo governança robusta, formatos de dados abertos (como Delta Lake) e integração nativa com o ecossistema Databricks.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

🤖

OpenAI lança simulação de deployment para prever comportamento de modelos antes do lançamento

A OpenAI introduziu uma técnica pré-release que replica, com dados anonimizados, prefixos reais de conversas de usuários para testar modelos candidatos. Ao processar essas interações simuladas, a abordagem permite antecipar comportamentos em produção com maior fidelidade, gerando estimativas mais precisas de taxas de respostas indesejadas do que avaliações tradicionais.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

📊

Rippling migra operações GTM para um banco de dados de IA em lakehouse

A Rippling substituiu seus armazéns de dados fragmentados e processos manuais por um banco de dados de IA implantado em lakehouse, otimizado para operações GTM baseadas em agentes. A nova arquitetura adota medallion architecture, resolução de entidades com ML entre fontes externas, semantic search em conversas enriquecidas e uma interface Genie com linguagem natural, usada diretamente por agentes de IA para ações autônomas.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

🔍

Do scoring ao spelling: como o Instacart reconstruiu seu sistema de retrieval de anúncios com IA generativa

O Instacart substituiu seu antigo sistema de retrieval de anúncios, baseado em BERT e scoring individualizado por ID de produto, por uma abordagem generativa que opera token por token. A nova arquitetura usa os 'Instacart Semantic IDs', permitindo geração direta de recomendações mais contextualizadas e eficientes, com ganhos significativos em precisão e escalabilidade. A mudança reflete uma migração estratégica de modelos discriminativos para gerativos no core do sistema de anúncios.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

🔍

Como a Guidewire construiu uma plataforma federada de queries para ML em escala, e onde a governança de dados ficou exposta

A Guidewire adotou o Apache Trino para executar queries SQL federadas entre Iceberg, Redshift, OpenSearch e buckets S3 de clientes, acelerando workflows exploratórios de ML. O isolamento multi-tenant foi viabilizado com catálogos por domínio, ABAC via Lake Formation e RBAC no Trino, mas a camada S3 do Trino revelou uma lacuna crítica na governança de dados, especialmente no controle de acesso granular a objetos armazenados.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

❄

Por que trocamos o data lake estilo Hive pelo Apache Iceberg

Após a expansão do suporte da AWS ao Apache Iceberg, incluindo integração com S3 Tables, uma equipe migrou seu data lake baseado em Parquet no S3 e AWS Glue Catalog (estilo Hive) para o Iceberg. A mudança resolveu gargalos crônicos: pruning de consultas mais eficiente, evolução contínua de schema e partições, time travel nativo e planejamento de queries com desempenho superior.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

📊

Processamento de dados migra da CPU para a GPU: novos pipelines exigem arquitetura híbrida

O processamento de dados está deixando os fluxos ETL tradicionais baseados em SQL e CPU para adotar pipelines orientados a inference em GPU, essenciais para lidar com vídeos, áudio, PDFs, dados do Slack e sensores. Hoje, modelos de IA realizam a curadoria inicial: geram embeddings, labels, resumos e registros estruturados, alimentando sistemas SQL e buscadores vetoriais. Essa mudança impulsiona a adoção de arquiteturas com computação mista (CPU+GPU), processamento em streaming e concorrência gerenciada por API.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

🔍

A crise de identidade: por que resolver entidades é o alicerce de qualquer stack de dados

Entity Resolution e MDM nativo em data warehouse são pilares para confiabilidade de produtos de dados, IA e conformidade regulatória. Em ambientes corporativos, validações pontuais falham, gerando duplicação de clientes, entidades fantasmas e risco de contaminação de modelos de IA. A abordagem eficaz combina bloqueio, matching por regras e ML, agrupamento em grafos e revisão humana, tudo orquestrado diretamente no data warehouse.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

🔒

Pg_kpart 1.0: extensão para evitar varreduras acidentais em tabelas particionadas do PostgreSQL

Foi lançada a versão 1.0 da extensão pg_kpart para PostgreSQL, que impede execução de consultas em tabelas particionadas quando não há uso explícito da chave de partição no plano, evitando assim varreduras completas e sobrecargas de I/O. A ferramenta oferece recursos de auditoria, listas de permissão ou bloqueio por consulta e tratamento personalizado de códigos SQLSTATE. Disponível apenas para sistemas Linux.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

📊

Data 360 da Salesforce processa 1 quatrilhão de registros/mês com arquitetura flexível, mas metadados viraram gargalo

O sistema Data 360 da Salesforce lida com um quatrilhão de registros mensais, adaptando-se a esquemas de dados variados de clientes, grafos de relacionamento e múltiplos sistemas de armazenamento. São cerca de 3 milhões de jobs Spark executados por mês. O principal desafio técnico emergente é a gestão de metadados: em ambientes grandes, há de 3.000 a 6.000 tabelas, payloads superiores a 500 MB e bilhões de planos de consulta candidatos, o que transformou essa camada na principal restrição arquitetural.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

⚕

Heidi AI ajusta modelo clínico menor para igualar desempenho de modelos de ponta com feedback real de médicos

A Heidi AI conseguiu equalizar o desempenho de um modelo clínico menor ao de modelos de fronteira por meio de fine-tuning, validado em testes cegos de preferência clínica. O diferencial está no uso de feedback clínico proprietário, verificações rigorosas de safety e um loop de produto alinhado ao julgamento prático de profissionais de saúde, reduzindo dependência de infraestrutura pesada sem comprometer precisão ou confiabilidade.

Ler mais Original

CEVIU Dados

18 de jun. de 2026

⚠

Cuidado com NULL em NOT IN: o erro silencioso que quebra suas consultas no PostgreSQL

Usar NOT IN no PostgreSQL é uma armadilha frequente para engenheiros de dados: se houver ao menos um valor NULL na subconsulta ou na lista de comparação, toda a cláusula retorna NULL, e, por consequência, zero linhas. Isso ocorre pela lógica de três valores (TRUE/FALSE/UNKNOWN) do SQL, onde qualquer comparação com NULL resulta em UNKNOWN, fazendo a condição falhar silenciosamente. A solução? Substituir NOT IN por NOT EXISTS ou tratar explicitamente os NULLs com COALESCE ou IS NOT NULL.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser