CEVIU News - CEVIU Dados - 15 de junho de 2026

13 notícias15 de junho de 2026CEVIU Dados

🔍 CEVIU Dados

15 de jun. de 2026

🔍

LinkedIn lança MUSE para busca semântica em escala no Hiring Assistant

O LinkedIn desenvolveu o MUSE (Member Understanding Semantic Embeddings), um sistema de busca semântica para seu Hiring Assistant. Baseado em um modelo de embedding Matryoshka dual-tower, ele é treinado com milhões de rótulos de alta qualidade gerados por um LLM Teacher alinhado às políticas do produto. O MUSE combina retrieval via embeddings com um ranker downstream otimizado para engajamento, solução crítica para agentes de IA que operam em larga escala com dados de membros.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🎧

Como o Spotify construiu o Vedder: um assistente de dados com camada de contexto curada por especialistas

O Spotify lançou o Vedder, assistente de dados baseado em IA usado por mais de 2.100 usuários em 177 clusters, superando soluções RAG puramente esquemáticas em mais de 70.000 datasets. Cada cluster é cuidadosamente curado por especialistas de domínio, que fornecem datasets, pares validados de pergunta-SQL e documentação de negócio. Apenas 12,5% dos pares minerados foram aprovados; o sistema usa uma pontuação de saúde para monitorar drift, validade, cobertura e reprodutibilidade, assegurando confiabilidade contínua do contexto.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

⚡

Como um motor de SQL contínuo usa atualizações incrementais para otimizar pipelines de dados

O Feldera processa fluxos de dados como visões SQL incrementais, com base no DBSP: em vez de recalcular joins e agregações a cada nova entrada, ele propaga apenas os deltas, inserções, deleções e atualizações, representados como mudanças em Z-sets. Assim, só as linhas efetivamente afetadas são modificadas. O resultado é uma semântica SQL consistente em ambientes contínuos, com menor uso de CPU, redução da pressão sobre memória e latência previsível.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🌍

Frontier models sozinhos não bastam: ecossistema interno é o verdadeiro diferencial

Empresas precisam integrar expertise humana com capacidade de IA, não apostar apenas no modelo mais avançado. Dominar fluxos de trabalho próprios, metodologias de avaliação e conhecimento institucional é essencial para evolução contínua. Sem esse ecossistema interno, o valor fica concentrado nas poucas empresas que detêm os frontier models, limitando inovação e autonomia estratégica.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🤖

O 'Mês do Agente' é mito: IA acelera codificação, mas não substitui engenharia de software

Agentes de codificação com IA aliviam tarefas repetitivas, mas não resolvem os desafios centrais do desenvolvimento: julgamento de arquitetura, controle de escopo, testes robustos e manutenibilidade. Ao reduzir a complexidade acidental, podem, paradoxalmente, gerar dívida técnica, desvios arquiteturais e bases de código infladas, e rápido. A vantagem competitiva continua com engenheiros especializados, capazes de orientar modelos, estabelecer guardrails e garantir sistemas prontos para produção.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

💰

Conta chegou: como controlar custos reais de IA agente em produção

O caso da Uber mostra que escalar IA agente vai além do preço por token: o uso do Claude Code atingiu 84% dos 5.000 engenheiros e estourou o orçamento anual já em abril. Custos ocultos, como reenvio de contexto, retrieval, orquestração, governança e retries, exigem métricas por tarefa, controle rigoroso de contexto e infraestrutura de agentes com estado persistente. A economia de IA agora depende de engenharia de custo, não só de escolha de modelo.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🤖

Databricks lança meta-harness open-source para orquestrar, controlar e compartilhar agentes de IA

A Databricks anunciou o Omnigent, um meta-harness open-source que integra agentes como Claude Code, Codex, Pi e soluções personalizadas sob uma camada unificada. A ferramenta permite compor agentes de forma ágil, aplicar controles de segurança e custos, compartilhar sessões em tempo real e garantir a portabilidade de workflows à medida que novas ferramentas surgem, tudo voltado para equipes de dados e engenharia de IA.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

✈

MotherDuck lança Flights: pipeline nativo para agentes de IA com execução segura no DuckDB

A MotherDuck anunciou o Flights, nova funcionalidade de ingestão e transformação de dados nativa para agentes de IA. Ele permite criar, executar e agendar pipelines diretamente na plataforma, com runtime Python seguro e integrado ao DuckDB. Suporta nativamente dlt, logging, agendamento, versionamento e pode ser acionado via servidor MCP, funções de tabela SQL ou interface web. A proposta é simplificar a construção de fluxos de dados orientados por agentes, mantendo controle, auditabilidade e desempenho.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

📊

Apache DataFusion 54.0.0 chega com avanços em SQL, desempenho e suporte a dados aninhados

O Apache DataFusion 54.0.0 foi lançado com melhorias robustas em SQL: agora suporta joins LATERAL, funções lambda para arrays e um novo leitor Avro nativo baseado em Arrow. O spill-to-disk foi implementado para nested loop joins intensivos em memória, evitando estouros. Em desempenho, sort-merge joins de LEFT/FULL alcançam ganhos de 20x a 50x, enquanto operações de repartition em alto volume melhoraram até 50%. Tudo isso reforça o papel do DataFusion como motor analítico leve e altamente extensível no ecossistema de dados.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

📄

O custo oculto de usar ai_parse_document em produção: desafios de confiabilidade, custo e auditabilidade

As funções ai_parse_document e ai_query do Databricks simplificam a extração de PDFs não estruturados para JSON com poucas linhas de SQL, mas em produção, revelam custos ocultos: cada reexecução acarreta novos gastos com processamento e chamadas a LLMs; correções manuais geram duplicatas; e mesmo com temperatura 0, a saída não é determinística, prejudicando a auditabilidade. Soluções como pipelines com checkpoints, prompts versionados e deduplicação reduzem reprocessamento e melhoram reprodutibilidade. Para documentos com estrutura estável, parsers determinísticos, como o OpenDataLoader PDF, são mais robustos.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🚀

Linux Foundation lança OpenSharing para padronizar troca de dados e ativos de IA entre nuvens e plataformas

A Linux Foundation anunciou o projeto OpenSharing, que amplia o protocolo Delta Sharing, agora sob sua governança após transferência da Databricks. O novo padrão suporta não só dados estruturados, mas também modelos de IA, habilidades de agentes e dados não estruturados, com APIs abertas para descoberta, autorização e acesso. Ele integra destinatários do Delta Sharing e clientes de catálogos Apache Iceberg/REST, visando substituir marketplaces proprietários por uma única camada interoperável para distribuição de ativos de IA empresarial.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🔍

Google lança framework para auditar machine unlearning com maior rigor técnico

O Google Research apresentou os testes de Kernel de f-Divergência Regularizada, um novo framework para auditoria de machine unlearning que detecta vazamentos de privacidade com precisão superior aos tradicionais testes de duas amostras. A abordagem melhora a confiabilidade na verificação de se um modelo realmente esqueceu dados sensíveis após solicitação de exclusão, requisito crítico para conformidade com regulamentações como LGPD e GDPR.

Ler mais Original

CEVIU Dados

15 de jun. de 2026

🔍

Feature Store do zero: DuckDB + Redis resolvem o skew entre treino e inferência

Uma implementação funcional mínima de feature store, com apenas cinco componentes, usa DuckDB para processamento analítico e Redis para baixa latência, alinhando efetivamente os dados de treinamento e servimento em pipelines de ML e RAG em tempo real. A abordagem reduz o risco de data skew sem depender de plataformas complexas ou custosas.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser