O dbt Core v2.0 alpha abre o código do runtime baseado em Rust do Fusion engine sob a licença Apache 2.0. A atualização unifica Core e Fusion em uma base compartilhada, entregando parsing mais rápido, suporte a artefatos em Parquet, documentação local aprimorada, instalação simplificada e especificação de linguagem mais rigorosa. O Fusion segue como CLI gratuita recomendada para a maioria dos usuários, enquanto o Core v2 serve times que exigem código totalmente aberto ou builds OSS customizados.

CEVIU News - CEVIU Dados - 4 de junho de 2026
⚙️ CEVIU Dados
Depois de rodar oito casos de uso em produção, o Ray Data saiu na frente do Daft pela maior estabilidade e resiliência em escala — especialmente em operações complexas de inferência com LLMs. O Daft, porém, não fica sem crédito: leva vantagem em primitivas multimodais nativas e oferece sintaxe mais limpa em diversas operações.
A Zepto desenvolveu um modelo de contexto de carrinho que trata compras como sentenças, usando um modelo de linguagem mascarado baseado em Transformer para inferir a intenção do usuário em tempo real. Treinado com padrões históricos de carrinhos — incluindo sinais temporais, geográficos e de produto —, além de mascaramento de frequência inversa para itens de cauda longa, o sistema prevê com precisão quais produtos o usuário provavelmente adicionará a seguir.
O Manticore Search defende que a busca vetorial precisa ser tratada como um sistema real de retrieval — não como simples funcionalidade de embedding. A recomendação é alinhar métricas de similaridade aos modelos utilizados, fazer tuning do HNSW com foco em recall, latência e memória, e adotar técnicas de batching, otimização de chunks e backups físicos para garantir consistência dos índices.
Agentes de IA estão gerando volumes crescentes de consultas pequenas e intermitentes, tornando o custo de um único data warehouse cada vez mais difícil de controlar. O roteamento por múltiplas engines surge como solução: cada consulta é direcionada ao motor mais adequado, reduzindo despesas sem quebrar os fluxos de trabalho já estabelecidos.
A Databricks refuta oito mitos comuns sobre layout de dados em lakehouses modernos, defendendo que o Liquid Clustering supera o particionamento tradicional estilo Hive. Ao contrário da abordagem rígida, o Liquid Clustering organiza dados de forma dinâmica com chaves de agrupamento que evoluem no tempo, suporta concorrência em nível de linha, operações baseadas em metadados e integração nativa com diferentes formatos de tabela abertos.
O Redis Array é um novo tipo de dado nativo lançado na versão 8.8, projetado para acesso posicional por índice em tempo constante. A novidade preenche uma lacuna histórica na plataforma, permitindo que posição e índice carreguem significado semântico. A estrutura suporta arrays densos e esparsos com eficiência, usando modelo hierárquico baseado em grupos — viabilizando acesso aleatório rápido, consultas de intervalo, semântica de ring-buffer, correspondência de padrões e uso fixo de memória.
O QueryFlux é um proxy SQL open-source escrito em Rust que roteia consultas de forma inteligente entre engines como Trino, Spark, DuckDB, Snowflake, Athena e Flink, usando tabelas Iceberg compartilhadas. A ferramenta cuida de tradução de protocolos, conversão de dialetos via SQLGlot, roteamento baseado em custo, controle de concorrência e failover automático com base na saúde das instâncias.
O MongoDB consegue executar lógica transacional de baixa latência sem recorrer a stored procedures. A combinação de transações ACID, bulkWrite, validação de esquema, índices e atualizações via pipeline resolve casos complexos diretamente no banco. Um exemplo prático demonstra o processamento de pagamentos — com verificação de cartões, checagem de fornecedores, controle de limites de crédito, prevenção de duplicidade e registro em ledger.
O OpenTelemetry apresentou a iniciativa Blueprints, voltada a simplificar a implementação de observability com padrões consolidados e implementações de referência. A iniciativa cobre os principais pilares do ecossistema: Kubernetes, infraestrutura, aplicações e plataformas centralizadas de telemetria — reduzindo a curva de adoção para equipes de engenharia.
Com o prazo do EU AI Act se aproximando, equipes de dados e engenharia precisam implementar padrões sólidos de identidade, políticas e auditoria em seus agentes de IA. O foco está no princípio de privilégio mínimo aplicado às chamadas entre agentes — garantindo que cada componente acesse apenas o que precisa, com rastreabilidade completa para fins de conformidade regulatória.
DltHub lança toolkit de qualidade de dados com verificações baseadas em schema e correção automática
O dltHub apresenta uma versão prévia do seu toolkit de qualidade de dados para IA, com decoradores persistentes baseados em metadados. A solução foi projetada para falhar rapidamente (fail-fast) e realizar roteamento automático de remediações diretamente nos pipelines dlt, trazendo mais controle e confiabilidade ao fluxo de dados.
O Pluto 1.0 marca a maturidade do ambiente de notebooks para a linguagem Julia. A versão estável traz avanços em reprodutibilidade, reatividade e compartilhamento de código, além de melhorias em acessibilidade, suporte educacional, documentação aprimorada e novas ferramentas de edição — consolidando o Pluto como referência para ciência de dados e computação científica no ecossistema Julia.
Receba as melhores notícias de tech
Conteúdo curado diariamente, direto no seu e-mail.
