CEVIU News

CEVIU News - CEVIU Dados - 21 de maio de 2026

11 notícias21 de maio de 2026CEVIU Dados
Compartilhar:

🧪 CEVIU Dados

Artigo da Spotify Engineering propõe tratar as avaliações de LLM (LLM evals) e experimentos A/B online como um funil. A ideia é usar LLM judges (avaliadores baseados em LLM) no início do processo para verificar a qualidade (relevância, tom e coerência) e filtrar ideias fracas antes que consumam recursos de experimentos. Essa abordagem visa aumentar a taxa de sucesso dos experimentos. A execução de evals sobre os resultados dos experimentos cria um ciclo de feedback que calibra e aprimora continuamente os próprios LLM judges.

A Teads reduziu drasticamente em mais de 90% o uso de slots do BigQuery em seu serviço Audience Planning através de correções na aplicação e otimizações no modelo de dados. As correções incluíram coalescência de requisições com locks distribuídos Redis para eliminar queries duplicadas, validação fail-fast para filtros grandes e reescrita de grandes cláusulas IN como semi-joins. As otimizações de dados envolveram compressão de tipos de dados, pré-cálculo de trabalhos repetidos e uma estratégia de particionamento aprimorada, resultando na redução efetiva da pegada da tabela em aproximadamente 95%.

A Netflix substituiu seu motor de movimentação de dados Cassandra para Iceberg por uma plataforma em camadas que lê backups diretamente do S3, os converte em Spark DataFrames e permite que cada abstração de dados construa seu próprio conector otimizado. O motor movimenta aproximadamente 3 PB/dia, e a migração utiliza shadow validation, observability aprimorada e um fallback Maestro Decider para a solução anterior. Isso possibilitou uma transição transparente sem alterações no código downstream.

O mondayDB 3 é um sistema HTAP projetado para gerenciar mais de um trilhão de tabelas dinâmicas, em constante evolução e com schemas altamente flexíveis. A solução substituiu a arquitetura anterior baseada em MySQL + JSON por uma arquitetura Lambda baseada em CQRS, impulsionada por DuckDB. Essa nova abordagem utiliza snapshots imutáveis em object storage, um WAL externo para alterações em tempo real, e uma camada de serviço soft-stateful que sincroniza e consulta arquivos DuckDB locais a cada leitura.

A IA é genuinamente capacitadora para a ciência de dados, tornando a programação, tradução, entrada de voz e o aprendizado mais acessíveis. No entanto, ela também é prejudicial devido ao custo ambiental, questões de direitos autorais, concentração de riqueza, pensamento superficial e acesso desigual. Essa tensão não pode ser resolvida de forma simples, mas líderes de ciência de dados ainda precisam se engajar seriamente com a IA para ajudar as pessoas a usá-la bem.

As capacidades de longo prazo dos agentes de codificação serão mais determinadas pela qualidade dos ciclos de feedback do que pela inteligência bruta do modelo. Tarefas com feedback rápido, preciso e automatizado (como a construção de bancos de dados de alta performance com especificações formais) se tornarão surpreendentemente “fáceis” para os agentes, enquanto tarefas que dependem de feedback humano lento e subjetivo permanecerão relativamente “difíceis”.

A IA empresarial enfrenta uma "pipeline tax": a movimentação de dados através de data warehouses, lakehouses, bancos de dados vector, camadas RAG e stacks de orquestração adiciona latência, desvio de governança e desafios de auditoria. Dados são copiados até quatro vezes, e respostas regulamentadas levam semanas para serem reconstruídas. A solução emergente é levar os agentes até os dados e tornar a governança nativa da camada de dados, com SQL databases, MCP e Iceberg como peças centrais. Essa mesma mudança está redefinindo a migração como uma capacidade contínua orientada por IA, em vez de um projeto pontual.

Ao consultar eventos estruturados de observability e rastrear métricas chave no nível do span, como consumo de token, duração/latency e taxas de erro (planejamento, chamadas de ferramentas e geração de resposta), as equipes podem monitorar eficazmente os agentes em produção para detectar problemas como inchaço de contexto em conversas multi-turno, picos de token, chamadas de ferramentas lentas ou mudanças na complexidade das perguntas.

Object storage pode suportar OLTP serializável se construído com três primitivos de escrita (PUTs atômicos, PUT If-Match/If-None-Match condicionais e LISTs fortemente consistentes) e três primitivos de leitura (GETs atômicos, GET If-None-Match condicional e listagem consistente). A principal troca é entre safety e o custo de contenção, sendo necessária uma coleta de lixo segura para evitar o crescimento indefinido do armazenamento.

O Conselho de IA mostrou que a divisão entre dados e IA está diminuindo, com a maioria dos fornecedores se posicionando como camadas de infraestrutura de IA para retrieval de contexto, orquestração ou inference. Novos sistemas, como o LanceDB, estão sendo construídos nativamente para workloads de LLM e multimodais. A avaliação de desempenho também está mudando: testes com dbt Semantic Layer, ADE-bench e simulações de 90 dias indicam que agentes operam melhor em tarefas bem especificadas e com contexto rico. Eles melhoram ainda mais quando há acesso a contexto cross-system e stateful de plataformas como GitHub, Slack, Notion e dbt. A próxima barreira significativa é a eficiência de token e compute.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser