O Databricks Lakehouse//RT é um novo data warehouse em tempo real baseado no motor Reyden, capaz de executar consultas em milissegundos diretamente sobre dados armazenados no lakehouse, sem necessidade de replicação, movimentação ou camadas intermediárias. A solução visa simplificar analítica em tempo real, BI, aplicações e observability, mantendo governança robusta, formatos de dados abertos (como Delta Lake) e integração nativa com o ecossistema Databricks.

CEVIU News - CEVIU Dados - 18 de junho de 2026
⚡ CEVIU Dados
A OpenAI introduziu uma técnica pré-release que replica, com dados anonimizados, prefixos reais de conversas de usuários para testar modelos candidatos. Ao processar essas interações simuladas, a abordagem permite antecipar comportamentos em produção com maior fidelidade, gerando estimativas mais precisas de taxas de respostas indesejadas do que avaliações tradicionais.
A Rippling substituiu seus armazéns de dados fragmentados e processos manuais por um banco de dados de IA implantado em lakehouse, otimizado para operações GTM baseadas em agentes. A nova arquitetura adota medallion architecture, resolução de entidades com ML entre fontes externas, semantic search em conversas enriquecidas e uma interface Genie com linguagem natural, usada diretamente por agentes de IA para ações autônomas.
O Instacart substituiu seu antigo sistema de retrieval de anúncios, baseado em BERT e scoring individualizado por ID de produto, por uma abordagem generativa que opera token por token. A nova arquitetura usa os 'Instacart Semantic IDs', permitindo geração direta de recomendações mais contextualizadas e eficientes, com ganhos significativos em precisão e escalabilidade. A mudança reflete uma migração estratégica de modelos discriminativos para gerativos no core do sistema de anúncios.
A Guidewire adotou o Apache Trino para executar queries SQL federadas entre Iceberg, Redshift, OpenSearch e buckets S3 de clientes, acelerando workflows exploratórios de ML. O isolamento multi-tenant foi viabilizado com catálogos por domínio, ABAC via Lake Formation e RBAC no Trino, mas a camada S3 do Trino revelou uma lacuna crítica na governança de dados, especialmente no controle de acesso granular a objetos armazenados.
Após a expansão do suporte da AWS ao Apache Iceberg, incluindo integração com S3 Tables, uma equipe migrou seu data lake baseado em Parquet no S3 e AWS Glue Catalog (estilo Hive) para o Iceberg. A mudança resolveu gargalos crônicos: pruning de consultas mais eficiente, evolução contínua de schema e partições, time travel nativo e planejamento de queries com desempenho superior.
O processamento de dados está deixando os fluxos ETL tradicionais baseados em SQL e CPU para adotar pipelines orientados a inference em GPU, essenciais para lidar com vídeos, áudio, PDFs, dados do Slack e sensores. Hoje, modelos de IA realizam a curadoria inicial: geram embeddings, labels, resumos e registros estruturados, alimentando sistemas SQL e buscadores vetoriais. Essa mudança impulsiona a adoção de arquiteturas com computação mista (CPU+GPU), processamento em streaming e concorrência gerenciada por API.
Entity Resolution e MDM nativo em data warehouse são pilares para confiabilidade de produtos de dados, IA e conformidade regulatória. Em ambientes corporativos, validações pontuais falham, gerando duplicação de clientes, entidades fantasmas e risco de contaminação de modelos de IA. A abordagem eficaz combina bloqueio, matching por regras e ML, agrupamento em grafos e revisão humana, tudo orquestrado diretamente no data warehouse.
Foi lançada a versão 1.0 da extensão pg_kpart para PostgreSQL, que impede execução de consultas em tabelas particionadas quando não há uso explícito da chave de partição no plano, evitando assim varreduras completas e sobrecargas de I/O. A ferramenta oferece recursos de auditoria, listas de permissão ou bloqueio por consulta e tratamento personalizado de códigos SQLSTATE. Disponível apenas para sistemas Linux.
O sistema Data 360 da Salesforce lida com um quatrilhão de registros mensais, adaptando-se a esquemas de dados variados de clientes, grafos de relacionamento e múltiplos sistemas de armazenamento. São cerca de 3 milhões de jobs Spark executados por mês. O principal desafio técnico emergente é a gestão de metadados: em ambientes grandes, há de 3.000 a 6.000 tabelas, payloads superiores a 500 MB e bilhões de planos de consulta candidatos, o que transformou essa camada na principal restrição arquitetural.
A Heidi AI conseguiu equalizar o desempenho de um modelo clínico menor ao de modelos de fronteira por meio de fine-tuning, validado em testes cegos de preferência clínica. O diferencial está no uso de feedback clínico proprietário, verificações rigorosas de safety e um loop de produto alinhado ao julgamento prático de profissionais de saúde, reduzindo dependência de infraestrutura pesada sem comprometer precisão ou confiabilidade.
Usar NOT IN no PostgreSQL é uma armadilha frequente para engenheiros de dados: se houver ao menos um valor NULL na subconsulta ou na lista de comparação, toda a cláusula retorna NULL, e, por consequência, zero linhas. Isso ocorre pela lógica de três valores (TRUE/FALSE/UNKNOWN) do SQL, onde qualquer comparação com NULL resulta em UNKNOWN, fazendo a condição falhar silenciosamente. A solução? Substituir NOT IN por NOT EXISTS ou tratar explicitamente os NULLs com COALESCE ou IS NOT NULL.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
