CEVIU News - CEVIU Dados - 1 de junho de 2026

13 notícias1 de junho de 2026CEVIU Dados

🦆 CEVIU Dados

01 de jun. de 2026

🦆

Como criar uma aplicação de dados com custo zero usando DuckDB e Astro

Uma stack enxuta pode entregar aplicações de dados sem gastar nada: dados abertos, transformações com DuckDB, interface em Astro, Leaflet e SVG, e deploys automatizados via GitHub Actions em hospedagem estática. Com o desenvolvimento assistido por IA, criar produtos de dados personalizados ficou mais barato e flexível do que depender de ferramentas de BI tradicionais, especialmente quando o projeto não exige governança, métricas compartilhadas ou pipelines complexos de analytics.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🔍

A Meta unifica retrieval de recomendações em um único modelo PyTorch

A Meta apresentou o SilverTorch, novo sistema de retrieval para engines de recomendação como feeds e Reels. O projeto introduz o paradigma Index as Model, consolidando todo o pipeline, user embedding, busca ANN, filtragem de elegibilidade, neural reranking e pontuação multitarefa, em um único modelo PyTorch. A execução acontece de ponta a ponta em GPUs, com filtros de Bloom e kernels ANN Int8 fundidos para máxima eficiência.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🔍

Halodoc constrói framework de data profiling nativo no Airflow para escalar governança de dados

A Halodoc desenvolveu um framework de data profiling integrado ao Airflow para eliminar processos manuais de SQL repetitivos em centenas de tabelas. A solução cobre profiling em nível de coluna, inteligência de joins e análise de tabelas de origem, com processamento distribuído no Redshift ou Athena. Para escalar com segurança, cada tabela é isolada em pods do Kubernetes com escritas idempotentes via run_id. O resultado é uma interface de autoatendimento que entrega visibilidade sobre qualidade dos dados e relacionamentos entre tabelas.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🗂

Guia para desenvolvedores Postgres: tradeoffs em índices vetoriais

A busca vetorial no Postgres vira um desafio de design de índice quando tabelas atingem milhões de vetores e filtros entram no fluxo da query. A busca exata é ideal para datasets menores e benchmarks de recall. O HNSW é o padrão para workloads de leitura intensiva com dados em memória; o IVFFlat reduz custo de manutenção com mais ajustes. Para índices que excedem a RAM, o StreamingDiskANN via pgvectorscale é a indicação. Hybrid search com BM25 e vetores melhora o recall ao combinar semântica com relevância de palavras-chave.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

⚡

Arquiteturas Event-Driven vs. Polling: como projetar gatilhos confiáveis para agentes de IA

A escolha entre webhooks e polling para gatilhos de agentes vai além de preferência técnica, exige contratos de entrega bem definidos. Webhooks operam com entrega at-least-once, sem ordenação garantida, enquanto polling pode estourar limites de taxa. CDC e message buses oferecem maior durabilidade e replay, mas exigem idempotência rigorosa. Sistemas maduros combinam eventos de caminho rápido, reconciliação via polling, chaves de idempotência estruturais e runtimes duráveis para agentes resilientes a falhas, duplicatas e esperas externas.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🗃

SQLite é tudo o que você precisa para workflows duráveis

Workflows de IA duráveis podem rodar com SQLite local e backups via Litestream, dispensando orquestradores ou bancos de dados mais pesados. A troca vale a pena quando o objetivo é um estado simples, barato e inspecionável para agentes, com exceção de cenários que exigem alta disponibilidade ou escalabilidade compartilhada, onde o Postgres ainda é a escolha mais adequada.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🏗

MOR não é otimização de armazenamento, é uma mudança arquitetural

Ao contrário do Copy-On-Write, que reescreve arquivos a cada mutação, o Merge-On-Read anexa alterações em logs e adia merge e compactação para processos em segundo plano. Isso transfere o custo do tempo de escrita para um cronograma controlável, com suporte superior a streaming de alta frequência e cargas de CDC, mas exige atenção à amplificação de leitura e ao gerenciamento de compactação.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

📊

O benchmark open-source que mede custo-performance em Data Warehouses na nuvem

A ClickHouse lançou o CostBench, benchmark open-source que avalia data warehouses em nuvem pela relação custo-performance, ou seja, o desempenho obtido por dólar investido, não apenas velocidade bruta. O projeto testa performance de consultas e ingestão de dados em workloads analíticas realistas, comparando ClickHouse Cloud com Snowflake, Databricks, BigQuery e Redshift.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🧊

Apache Iceberg 1.11.0 traz registerView e resolve lacuna crítica em migrações de catálogo

O Apache Iceberg 1.11.0 introduz o registerView, primitiva de migração que preserva metadados e permite registrar views Iceberg existentes a partir de arquivos de metadados, sem recriar via SQL. A release inclui ainda um endpoint dedicado ao REST Catalog, simplificando autorização, sinalização de capacidades e compatibilidade retroativa. A atualização resolve lacunas em fluxos entre catálogos, recuperação de desastres, upgrades blue-green e ferramentas como o Apache Polaris Iceberg Catalog Migrator.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🔐

CPDP 2026: os grandes temas de privacidade e governança de dados que dominaram a conferência

A conferência Computers, Privacy & Data Protection 2026 colocou em evidência os principais pontos de pressão regulatória da atualidade: verificação de idade, proteção de dados de saúde, direitos digitais de crianças e privacidade em chatbots. Os painéis expuseram o abismo crescente entre conformidade formal e aplicação prática. Especialistas alertaram para riscos concretos, como limitações no processamento biométrico e o volume de consultas de saúde no ChatGPT, e defenderam o uso de tecnologias de preservação de privacidade (PETs), mais transparência e controles mais rígidos sobre IA generativa.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🧪

Como a Hex construiu um laboratório para avaliar agentes de dados

A Hex criou o Shoebox, uma bancada de testes interna para agentes de dados que permite comparar execuções candidatas com baselines de produção e avaliar melhorias em prompts, modelos, memória, busca e contexto de workspace. Para tornar os testes mais realistas, a empresa também desenvolveu a Shorelane Commerce, uma empresa fictícia com dados de estoque desorganizados , , já que benchmarks simples de text-to-SQL não capturam a ambiguidade e a dívida técnica que agentes de analytics reais enfrentam no dia a dia.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🔐

Google lança sistema de analytics privado com arquitetura zero-trust

O Google apresentou um sistema de analytics privado baseado em arquitetura zero-trust que combina agregação segura, Trusted Execution Environments (TEEs) e atestação criptográfica. A solução garante que apenas insights anonimizados em nível populacional sejam acessíveis, eliminando a exposição de dados individuais, mesmo para os operadores do sistema.

Ler mais Original

CEVIU Dados

01 de jun. de 2026

🕸

Neo4j Virtual Graph: análise de grafos direto no seu data warehouse, sem mover uma linha de dado

O Neo4j Virtual Graph chega para viabilizar análise de grafos zero-copy em data warehouses e lakehouses. A solução compila Cypher diretamente em SQL nativo, permitindo travessias e algoritmos de grafos sem necessidade de mover dados ou reconstruir pipelines existentes.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser