CEVIU News

CEVIU News - CEVIU Dados - 4 de maio de 2026

12 notícias4 de maio de 2026CEVIU Dados
Compartilhar:

✂️ CEVIU Dados

O Pinterest desenvolveu o Feature Trimmer para remover dinamicamente features de baixo valor ou redundantes de requisições de treinamento e inference de ML em larga escala. Essa ferramenta reduz drasticamente o uso e o custo da largura de banda da rede, enquanto mantém o desempenho do modelo. O Feature Trimmer combina uma análise offline de importância de features com uma lógica de trimming online, resultando em uma redução substancial da largura de banda da rede e melhoria na latency do lado do cliente.

A Grab está operacionalizando a certificação de data mesh por meio de um grafo de metadados event-driven, construído sobre o DataHub. Essa abordagem é suportada por eventos de metadados baseados em Kafka, que alimentam o DataHub Actions para certificação contínua. Para os fluxos de trabalho de validação, a empresa utiliza o Temporal, enquanto eventos de conclusão de pipeline do Airflow e Lighthouse são empregados para acionar verificações de qualidade automatizadas. A premissa fundamental é que a confiança não é atribuída manualmente, mas sim calculada a partir de dados em tempo real sobre propriedade, linhagem, contratos, SLAs e a saúde dos testes. Além disso, as regras de contrato são diretamente vinculadas a endpoints de saúde concretos, garantindo uma validação contínua e automatizada.

A Faire reconstruiu seu stack de ranqueamento de busca, migrando do XGBoost para deep learning, a fim de otimizar melhor objetivos concorrentes como relevância, atualidade, descoberta de marcas e consistência entre superfícies. Essa migração exigiu a reestruturação dos pipelines de dados, da observability e do serviço em produção, incluindo uma infraestrutura customizada baseada em Docker, embeddings em memória compartilhada e sandboxing de CPU. Essas mudanças reduziram a latência de startup de 20-30 minutos para apenas alguns minutos. O novo stack resultou em ganhos mensuráveis, como um aumento de aproximadamente 2% no volume de pedidos na Busca de Produtos.

A IA está se tornando útil para a engenharia de analytics não substituindo o julgamento humano, mas eliminando o trabalho de auditoria repetitivo em torno da validação. O melhor padrão são os workflows assistidos por agentes, com foco em evidências, onde a IA executa verificações, investiga mudanças, demonstra seu trabalho, e os humanos ainda decidem o que é aceitável.

Frequentemente, o aconselhamento em engenharia de dados falha porque é concebido para um de cinco modelos operacionais distintos: equipes de analytics em estilo startup, ambientes corporativos legados, sistemas de produto/dados críticos para resultados, negócios regulados ou organizações de plataforma/data mesh. Cada um desses modelos possui prioridades diferentes — como velocidade, estabilidade, impacto, auditabilidade ou adoção —, e práticas que são consideradas "melhores" em um contexto podem se mostrar perigosas em outro. É crucial classificar seu ambiente antes de aplicar qualquer orientação, garantindo que as práticas de arquitetura, governança e entrega estejam alinhadas às restrições reais de cada cenário.

A Meta desenvolveu um "Segundo Cérebro" de IA interno para auxiliar seus profissionais do conhecimento a encontrar, sintetizar e raciocinar rapidamente sobre grandes volumes de informações e documentos internos da empresa. O sistema combina Geração Aumentada por Recuperação (RAG), busca avançada e capacidades baseadas em agentes, com atenção cuidadosa à privacidade, precisão e controles de nível empresarial.

A maioria dos sistemas RAG falha em produção porque as equipes implementam de forma rígida um vector DB, um modelo de embedding e uma estratégia de chunking sem observability ou avaliações repetíveis. O Weave CLI soluciona esse problema ao unificar 11 databases de vector, 5 provedores de embedding e agentes intercambiáveis em uma única interface configurável. Além disso, OpenTelemetry e Opik tracing são incorporados desde o primeiro dia.

O Polars oferece suporte robusto e integrado para a evolução de schema, lidando com alterações como a adição ou remoção de colunas, desvios de tipo (type drifts) e modificações que podem causar quebras (breaking changes). Para garantir que os pipelines não sejam interrompidos por mudanças nos schemas a montante (upstream), é possível configurar o Polars, dependendo do formato de dados, utilizando parâmetros específicos como `missing_columns="insert"`, `schema_mode="merge"`, `ScanCastOptions` e a concatenação `diagonal_relaxed`.

Apache Fluss é um "Kafka indexável" que combina ingestão de streaming horizontalmente escalável com armazenamento colunar, tabelas com chave primária, CDC e tiering opcional para S3 ou formatos de lakehouse como Iceberg e Paimon. Ele promete simplificar significativamente as cargas de trabalho de streaming com estado e lookup. Em produção no EKS, a integração com Flink requer a resolução de várias questões, como a ausência de JARs de conector, problemas de credencial/delegation-token do S3 e dependências adicionais. Apesar de seu potencial, o uso em produção da versão 0.9 ainda exige ajustes operacionais cuidadosos.

TurboQuant é um algoritmo de quantization e compressão projetado para caches Key-Value (KV) em grandes modelos de linguagem e sistemas de busca vector. Ele emprega o PolarQuant para inicialmente mapear vectors em coordenadas polares. Em seguida, aplica o QJL (Quantized Johnson-Lindenstrauss), que realiza uma correção mínima de 1 bit para eliminar vieses ocultos. Este processo permite uma compressão de até aproximadamente 3 bits por valor, com perda de precisão praticamente inexistente.

Plataformas de dados em nuvem como Snowflake, BigQuery, Redshift e Databricks tornaram o ELT o padrão, pois é mais simples, mais rápido para iterar e permite que as equipes utilizem o poder computacional escalável do data warehouse para as transformações.

A Neo4j lançou uma primeira leva de Agent Skills para manter agentes de codificação atualizados com o Cypher 25 e a sintaxe recente alinhada ao GQL, incluindo SHORTEST 3, REPEATABLE ELEMENTS, quantified path patterns e path projections.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser