CEVIU News - CEVIU Dados - 21 de maio de 2026

11 notícias21 de maio de 2026CEVIU Dados

🧪 CEVIU Dados

21 de mai. de 2026

🧪

Melhores Experimentos com Evals de LLM, Um funil, não um fork

Artigo da Spotify Engineering propõe tratar as avaliações de LLM (LLM evals) e experimentos A/B online como um funil. A ideia é usar LLM judges (avaliadores baseados em LLM) no início do processo para verificar a qualidade (relevância, tom e coerência) e filtrar ideias fracas antes que consumam recursos de experimentos. Essa abordagem visa aumentar a taxa de sucesso dos experimentos. A execução de evals sobre os resultados dos experimentos cria um ciclo de feedback que calibra e aprimora continuamente os próprios LLM judges.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

📊

Como Cortamos em 90% o Uso de Slots do BigQuery em um de Nossos Serviços Mais Demandantes Após uma Interrupção de Produção

A Teads reduziu drasticamente em mais de 90% o uso de slots do BigQuery em seu serviço Audience Planning através de correções na aplicação e otimizações no modelo de dados. As correções incluíram coalescência de requisições com locks distribuídos Redis para eliminar queries duplicadas, validação fail-fast para filtros grandes e reescrita de grandes cláusulas IN como semi-joins. As otimizações de dados envolveram compressão de tipos de dados, pré-cálculo de trabalhos repetidos e uma estratégia de particionamento aprimorada, resultando na redução efetiva da pegada da tabela em aproximadamente 95%.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

⚙

A Evolução da Movimentação de Dados do Cassandra na Netflix

A Netflix substituiu seu motor de movimentação de dados Cassandra para Iceberg por uma plataforma em camadas que lê backups diretamente do S3, os converte em Spark DataFrames e permite que cada abstração de dados construa seu próprio conector otimizado. O motor movimenta aproximadamente 3 PB/dia, e a migração utiliza shadow validation, observability aprimorada e um fallback Maestro Decider para a solução anterior. Isso possibilitou uma transição transparente sem alterações no código downstream.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

💾

MondayDB 3 – Resolvendo HTAP para um Sistema com Trilhões de Tabelas

O mondayDB 3 é um sistema HTAP projetado para gerenciar mais de um trilhão de tabelas dinâmicas, em constante evolução e com schemas altamente flexíveis. A solução substituiu a arquitetura anterior baseada em MySQL + JSON por uma arquitetura Lambda baseada em CQRS, impulsionada por DuckDB. Essa nova abordagem utiliza snapshots imutáveis em object storage, um WAL externo para alterações em tempo real, e uma camada de serviço soft-stateful que sincroniza e consulta arquivos DuckDB locais a cada leitura.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

⚖

A Promessa Conflitante da IA na Ciência de Dados

A IA é genuinamente capacitadora para a ciência de dados, tornando a programação, tradução, entrada de voz e o aprendizado mais acessíveis. No entanto, ela também é prejudicial devido ao custo ambiental, questões de direitos autorais, concentração de riqueza, pensamento superficial e acesso desigual. Essa tensão não pode ser resolvida de forma simples, mas líderes de ciência de dados ainda precisam se engajar seriamente com a IA para ajudar as pessoas a usá-la bem.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

🤔

O que é fácil agora? O que é difícil agora?

As capacidades de longo prazo dos agentes de codificação serão mais determinadas pela qualidade dos ciclos de feedback do que pela inteligência bruta do modelo. Tarefas com feedback rápido, preciso e automatizado (como a construção de bancos de dados de alta performance com especificações formais) se tornarão surpreendentemente “fáceis” para os agentes, enquanto tarefas que dependem de feedback humano lento e subjetivo permanecerão relativamente “difíceis”.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

💸

A 'pipeline tax' está prejudicando a IA empresarial em escala de agente

A IA empresarial enfrenta uma "pipeline tax": a movimentação de dados através de data warehouses, lakehouses, bancos de dados vector, camadas RAG e stacks de orquestração adiciona latência, desvio de governança e desafios de auditoria. Dados são copiados até quatro vezes, e respostas regulamentadas levam semanas para serem reconstruídas. A solução emergente é levar os agentes até os dados e tornar a governança nativa da camada de dados, com SQL databases, MCP e Iceberg como peças centrais. Essa mesma mudança está redefinindo a migração como uma capacidade contínua orientada por IA, em vez de um projeto pontual.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

📊

Monitorando o Desempenho de Agentes Cortex com Dados de Rastreamento

Ao consultar eventos estruturados de observability e rastrear métricas chave no nível do span, como consumo de token, duração/latency e taxas de erro (planejamento, chamadas de ferramentas e geração de resposta), as equipes podem monitorar eficazmente os agentes em produção para detectar problemas como inchaço de contexto em conversas multi-turno, picos de token, chamadas de ferramentas lentas ou mudanças na complexidade das perguntas.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

💾

Protocolos para o uso transacional de object storage

Object storage pode suportar OLTP serializável se construído com três primitivos de escrita (PUTs atômicos, PUT If-Match/If-None-Match condicionais e LISTs fortemente consistentes) e três primitivos de leitura (GETs atômicos, GET If-None-Match condicional e listagem consistente). A principal troca é entre safety e o custo de contenção, sendo necessária uma coleta de lixo segura para evitar o crescimento indefinido do armazenamento.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

📊

O que os benchmarks de agentes de dados nos dizem e o que não dizem

O Conselho de IA mostrou que a divisão entre dados e IA está diminuindo, com a maioria dos fornecedores se posicionando como camadas de infraestrutura de IA para retrieval de contexto, orquestração ou inference. Novos sistemas, como o LanceDB, estão sendo construídos nativamente para workloads de LLM e multimodais. A avaliação de desempenho também está mudando: testes com dbt Semantic Layer, ADE-bench e simulações de 90 dias indicam que agentes operam melhor em tarefas bem especificadas e com contexto rico. Eles melhoram ainda mais quando há acesso a contexto cross-system e stateful de plataformas como GitHub, Slack, Notion e dbt. A próxima barreira significativa é a eficiência de token e compute.

Ler mais Original

CEVIU Dados

21 de mai. de 2026

📊

Grafos de contexto e traces de decisão vêm ao resgate

O logging de contexto baseado em grafos está emergindo como a camada de proveniência que faltava para os fluxos de trabalho de RAG e sistemas baseados em agentes.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser