CEVIU News - CEVIU Dados - 16 de abril de 2026

13 notícias16 de abril de 2026CEVIU Dados

🧪 CEVIU Dados

16 de abr. de 2026

🧪

Deixamos Agentes de IA Orquestrar Nossos Experimentos de ML

A Teads desenvolveu um sistema multi-agente para orquestrar autonomamente todo o ciclo de vida de experimentação de ML. Agentes especializados gerenciam a geração de ideias, escrita de código, execução de experimentos, análise de resultados e tomada de decisões. Esta abordagem reduziu os ciclos de experimentação de dias para horas, aumentou o número de experimentos significativos em 4,5 vezes e melhorou o desempenho dos modelos em produção entre 8% e 12%.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

📄

Como realizamos OCR em 30.000 artigos usando Codex, modelos de OCR abertos e Jobs

A Hugging Face utilizou um modelo de OCR aberto (Chandra-OCR-2) e scripts gerados pelo Codex, executados em GPUs serverless, para converter aproximadamente 27.000 artigos em Markdown. O objetivo é possibilitar a funcionalidade de 'conversar com o artigo'. A execução paralela dos jobs tornou o processo rápido, levando cerca de 30 horas, e relativamente eficiente em termos de custo, com um total aproximado de US$ 850.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

📈

Dimensionando Sistemas de Recomendação com Deduplicação em Nível de Requisição

A equipe de Engenharia do Pinterest introduziu a deduplicação em nível de requisição para escalar eficientemente seus sistemas de recomendação. A estratégia envolve a ordenação de dados por usuário + ID da requisição no Apache Iceberg, permitindo uma compressão massiva para processar e armazenar os dados em nível de requisição apenas uma vez por requisição única. Adicionalmente, eles utilizam um transformer de contexto separado com KV caching no estágio de ranking e aplicam correções direcionadas, como SyncBatchNorm e mascaramento em nível de usuário, durante o treinamento dos modelos.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🛠

Upgrade sem Downtime: A História da Atualização do Cassandra 4.x do Yelp

O Yelp realizou a atualização de mais de 1.000 nós Cassandra, das versões 3.11 para 4.1, em diversos clusters com zero downtime. Esta conquista foi possível através de uma estratégia cuidadosa de rolling upgrade, utilizando init containers do Kubernetes, estágios automatizados de pre-flight, flight e post-flight, imagens específicas por versão, e um monitoramento rigoroso durante o período de versões mistas. A atualização entregou melhorias de latência entre 21% e 60% no geral, streaming mais rápido, melhor observability, novos guardrails, e preparou a infraestrutura para futuras versões do Cassandra 5.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

⚙

Como Configurar Sua Data Stack para 2026 – Infraestrutura de Dados para IA

Construir uma infraestrutura de dados bem-sucedida e preparada para IA começa com simplicidade e fundamentos sólidos, em vez de perseguir o hype mais recente da IA. Em vez disso, o foco deve ser em ferramentas robustas de ingestão, transformações baseadas em SQL (como dbt), a escolha da camada correta de armazenamento/compute (warehouse ou lakehouse), e uma forte qualidade de dados, governança e propriedade.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🧠

Não Trate a Memória de IA Como um Problema de Busca

A memória de IA confiável exige mais do que abordagens simples de armazenamento e recuperação; ela deve gerenciar ativamente o decaimento, contradição, confiança, compressão e expiração de informações. Um design proposto, baseado em SQLite, armazena memórias em texto simples localmente e as pontua conforme sua importância, confiança e taxa de decaimento, impedindo que fatos desatualizados ou com pouco suporte dominem o processo de retrieval. Essa abordagem permite que novas memórias substituam as mais antigas, itens expirados sejam arquivados, e crenças duplicadas sejam consolidadas em resumos de maior relevância.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

📊

Power BI e o Suporte para Modelos Semânticos de Terceiros

Power BI não oferece suporte adequado a modelos semânticos de terceiros, principalmente devido a limitações técnicas relacionadas ao comportamento de query, agregação e arquitetura, e não por intenção competitiva. Como resultado, a Microsoft recomenda manter todas as métricas e a lógica de negócios dentro do próprio modelo semântico do Power BI para garantir confiabilidade e desempenho.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🦆

DuckLake v1.0: O Formato Lakehouse Construído em SQL Atinge Prontidão para Produção

O lançamento do DuckLake v1.0 marca a versão pronta para produção deste formato lakehouse nativo em SQL. Diferente de formatos tradicionais que armazenam metadados como arquivos no object storage, o DuckLake mantém todos os metadados em um catálogo de banco de dados real (SQLite, PostgreSQL, ou o próprio DuckDB), fazendo com que o lakehouse se comporte como um banco de dados comum.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🚀

Apresentando o Common AI Provider: Suporte a LLM e Agentes de IA para Apache Airflow

O novo pacote apache-airflow-providers-common-ai do Apache Airflow adiciona suporte nativo a LLMs e agentes de IA, com 6 operadores e mais de 20 provedores de modelos, exigindo o Airflow 3.0+. Ele inclui tarefas estruturadas como @task.llm, @task.agent, @task.llm_sql, análise de arquivos, branching e comparação de esquemas, além de acesso direto a mais de 350 Airflow hooks existentes como ferramentas de IA tipadas. O pacote apresenta também fluxos de aprovação humana integrados, execução durável com replay em nível de etapa a partir do armazenamento de objetos, e observability de ponta a ponta para tokens e ferramentas.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🔮

KumoRFM-2: O Mais Poderoso Modelo Preditivo, para Humanos e Agentes

KumoRFM-2 é o modelo fundacional relacional da Kumo para previsões, capaz de inferir diretamente a partir de tabelas de banco de dados, chaves e histórico temporal, sem a necessidade do pipeline usual de feature-engineering. A Kumo afirma que o modelo supera o ML supervisionado em benchmarks relacionais comuns em cenários few-shot, indicando uma abordagem mais simples para transformar dados de data warehouse em aplicações preditivas e prontas para agentes.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🧠

Gerenciamento de contexto em aplicações agentic de longa duração

Agentes de longa duração rapidamente atingem os limites da janela de contexto e sofrem de "deterioração do contexto", perdendo informações importantes anteriores. Para mitigar isso, o Slack emprega estratégias de pruning inteligente de contexto e sumarização, incluindo etapas periódicas de "reflexão" onde o agente revisa e condensa seu próprio histórico. Essa abordagem visa aprimorar a confiabilidade e a coerência do agente ao longo de extensos períodos de operação.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

📈

Escalonando Prometheus em 2026: O Guia de Comparação Completo

O armazenamento de longo prazo compatível com Prometheus amadureceu, oferecendo opções claras no mercado. VictoriaMetrics é indicado para a maioria das equipes que precisam de 4-5x menos RAM e baixa carga operacional. Thanos se destaca pela migração de menor atrito a partir de instalações Prometheus existentes, enquanto OpenObserve oferece observability full-stack a um custo reduzido. GreptimeDB unifica métricas, logs e traces com uma abordagem SQL-first, e Mimir é a solução para grandes empresas com mais de 500 desenvolvedores e SREs dedicados. O fator chave de decisão não se limita ao custo de infraestrutura, mas também considera o “Ops Tax”.

Ler mais Original

CEVIU Dados

16 de abr. de 2026

🧑

O Papel do Cientista de Dados Staff+ em 2026

Cientistas de Dados Staff+ dedicam menos tempo à análise pura e mais ao alinhamento com stakeholders, comunicação e à navegação pela ambiguidade entre equipes.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser