CEVIU News - CEVIU Dados - 7 de maio de 2026

14 notícias7 de maio de 2026CEVIU Dados

🧬 CEVIU Dados

07 de mai. de 2026

🧬

Democratizando Machine Learning na Netflix: Construindo o Model Lifecycle Graph

O Model Lifecycle Graph da Netflix é um Serviço de Metadados (MDS) centralizado que conecta ativos de ML fragmentados (modelos, features, pipelines, datasets e experimentos) de toda a empresa em um único grafo consultável. Ao ingerir eventos em tempo real, normalizá-los com um modelo unificado baseado em URI, enriquecer relacionamentos e armazená-los em Datomic + Elasticsearch, a Netflix facilita a descoberta, o rastreamento de linhagem, a análise de impacto e a reutilização de modelos entre diferentes domínios.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🦆

Detalhes Internos do DuckDB: Por Que o DuckDB é Rápido?

O DuckDB é rápido porque executa in-process, evitando a movimentação de dados entre servidor e cliente. Ele combina armazenamento colunar, otimização de queries, predicate pushdown, execução vetorizada e row-group pruning para escanear apenas os dados necessários. Este artigo detalha como o DuckDB transforma SQL em um plano executável e explora as razões pelas quais seu modelo de armazenamento e leitura de arquivos Parquet proporciona uma experiência de análise de dados excepcionalmente rápida em uma única máquina.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🔒

Do SSH ao REST: Uma Modernização Orientada à Segurança dos Pipelines de Dados EMR do Slack

A Slack modernizou seus pipelines de dados, migrando mais de 700 operadores baseados em SSH no AWS EMR para uma arquitetura segura baseada em REST, com zero downtime em oito regiões. A equipe substituiu o acesso direto via SSH por Quarry, o gateway interno de submissão de jobs via REST, e utilizou o Distributed Shell do YARN para executar comandos arbitrários, o que permitiu gerenciamento adequado de recursos, rastreamento confiável, cancelamento limpo e manipulação do ciclo de vida no lado do servidor.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🩹

Construindo Data Pipelines de Auto-Cura na Halodoc

A Halodoc implementou camadas de auto-cura direcionadas para mitigar falhas recorrentes em seus pipelines de dados. As estratégias incluem reinícios automáticos de CDC com retrocesso seguro de checkpoints, verificações de consistência entre sistemas de origem e data lake, mini-batching adaptado ao tamanho dos dados, escalonamento de memória de retry para Spark, limpeza de locks em data warehouses usando watermarks de query e backfills com reconhecimento de dependência. O design pattern adotado segue um fluxo claro: primeiro alerta, depois valida a elegibilidade para recuperação, executa a recuperação de forma segura e, por fim, mede o impacto da intervenção. Os resultados foram significativos, reduzindo o tempo de recuperação de CDC de mais de 45 minutos para menos de 5 minutos e simplificando a configuração de backfills de 4-8 horas para menos de 15 minutos.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🔍

Agentes Podem Substituir o Search Stack?

Um agente LLM leve, munido de ferramentas básicas de retrieval (BM25 e/ou embeddings), pode superar backends de busca complexos e pipelines de reranking, simplificando a arquitetura de busca. Em experimentos com dados do Amazon ESCI, configurações baseadas em agentes apresentaram ganhos significativos (NDCG de uma linha de base de ~0.29 para 0.41-0.45), com os agentes reescrevendo consultas, explorando e avaliando resultados de forma inteligente.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

⚙

Além do Hype: A Arquitetura de IA Corporativa Que Realmente Precisamos

A IA corporativa está caminhando para um stack federado, que inclui IA nativa em sistemas de registro como SAP, Salesforce, Workday e ServiceNow, além de modelos privados soberanos hospedados em infraestrutura interna. Este stack integra data lakes curados e camadas de analytics de IA capazes de federar consultas entre diferentes domínios. A orquestração de agentes atua como camada superior, garantindo rastreabilidade completa, timestamps e auditabilidade para atender a exigências de conformidade como o EU AI Act. Duas capacidades ainda ausentes são um marketplace confiável para agentes externos com identidades verificáveis e uma camada de inteligência para funcionários que incorpore IA diretamente nos ambientes de trabalho, permitindo que os usuários consultem dados operacionais sem precisar trocar de ferramentas.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🧩

Estamos Perdendo Dados: A Outra Metade da Transformação por IA

As organizações de dados e engenharia focadas em IA estão excessivamente concentradas em ferramentas e subinvestidas no modelo operacional necessário para absorvê-las. Ganhos técnicos com agentes de codificação, infraestrutura de avaliação e assistentes internos são reais, mas sem o redesenho da gestão, planos de carreira, composição de equipes, mecânicas de confiança e normas de comunicação, a produtividade tipicamente aumenta por cerca de 6 meses e depois se estabiliza. A transformação por IA é multiplicativa, não aditiva: é fundamental investir tanto no stack técnico quanto no stack operacional, ou o investimento não entregará o esperado.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🔎

S3 é o lugar perfeito para armazenar dados, até que você tente pesquisá-los

Firn é uma API open-source para busca rápida de vector e full-text search em dados armazenados no S3, utilizando Lance e caching para tornar as consultas repetidas extremamente rápidas. É útil para equipes que buscam armazenamento de objetos pesquisável sem o custo ou a complexidade de operar OpenSearch.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

⚙

Integrando IA em Arquiteturas Apache Kafka: Padrões e Melhores Práticas

Ao integrar LLMs com Apache Kafka, utilize o Kafka estritamente como um backbone de eventos durável e mantenha toda a inference do modelo fora do broker. Adote um dos três principais padrões de inference (RPC externo, modelos embarcados como ONNX/TFLite ou sidecar), e siga as melhores práticas para o design de tópicos (raw-events → enriched-context → model-outputs), replayability, dead-letter queues, idempotency, e considerações de custo, latency e governança.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🚀

Como Aceleramos a Transpilação Compilando o SQLGlot com mypyc

A Fivetran acelerou significativamente o SQLGlot, o popular parser, transpiler e otimizador de SQL em Python puro, ao compilá-lo com mypyc. O mypyc é uma ferramenta que transforma código Python bem tipado em extensões C rápidas. A Fivetran distribui a versão compilada como um pacote opcional, proporcionando um parsing aproximadamente 5x mais rápido, geração de SQL cerca de 2.5x mais veloz e otimização 2-2.5x mais rápida. A versão original em Python puro é mantida como padrão para garantir máxima compatibilidade.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🚧

Implementando Guardrails Estatísticos para Agentes Não Determinísticos

Guardrails estatísticos, como a detecção de drift semântico utilizando z-scores de distância de cosseno contra um embedding de linha de base segura e o estabelecimento de limiares de confiança por meio da entropia de Shannon nas probabilidades de token, oferecem uma camada de safety automatizada para agentes não determinísticos.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🔢

Tipo Redis Array: A Breve História de um Longo Desenvolvimento

O Redis Array é um novo tipo de dado proposto, atualmente em revisão em um pull request, que suporta nativamente a indexação numérica como parte de sua semântica. Ele combina representações eficientes, tanto esparsas quanto densas, com reestruturação interna automática para otimização do uso de memória e performance. Essa estrutura poderosa é ideal para casos de uso como ring buffers, grandes coleções indexadas e armazenamento de documentos/arquivos com capacidades rápidas de acesso, escaneamento e busca.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

🤝

SAP Adquire Dremio em Movimento Estratégico para Dados Corporativos Prontos para IA

A aquisição da Dremio pela SAP representa uma aposta pragmática em dados corporativos prontos para IA, utilizando acesso federado nativo de Iceberg para unificar dados SAP e não-SAP sem a necessidade de grandes migrações.

Ler mais Original

CEVIU Dados

07 de mai. de 2026

✅

Validação Inteligente no Nível da Linha: Uma Abordagem de Quatro Camadas

Um guia prático para aplicar seletivamente verificações de esquema, formato, regras de negócio e métricas específicas utilizando Pydantic.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser