CEVIU News - CEVIU Dados - 23 de abril de 2026

11 notícias23 de abril de 2026CEVIU Dados

👥 CEVIU Dados

23 de abr. de 2026

👥

Modernizando a Busca dos Grupos do Facebook para Desbloquear o Poder do Conhecimento da Comunidade

A Meta re-arquitetou a busca restrita dos Grupos do Facebook com um stack de retrieval híbrido. Essa nova arquitetura combina a busca lexical de índice invertido Unicorn com um retriever semântico de 12 camadas e 200 milhões de parâmetros, utilizando Faiss ANN sobre embeddings pré-calculados. O sistema inclui pré-processamento de query, rankeamento em nível de features com BM25/TF-IDF mais similaridade de cosseno, e um supermodelo MTML que otimiza conjuntamente cliques, compartilhamentos e comentários. Para escalar a validação, a Meta adicionou um juiz automatizado baseado em Llama 3 no BVT, incluindo uma classe de "parcialmente relevante" para um julgamento mais refinado.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

🔗

Normalização Inteligente de URLs em Escala: Como o MIQPS Otimiza a Deduplicação de Conteúdo no Pinterest

O sistema MIQPS do Pinterest realiza a normalização de URLs, removendo ruídos como parâmetros de rastreamento e diferenças de formatação. O objetivo é mapear diversas variantes de URLs para uma única forma canônica, permitindo que elas sejam agrupadas em categorias de equivalência. O processo inclui salvaguardas para garantir precisão, evitando a fusão inadequada de conteúdos distintos, e opera com ciclos de avaliação contínua para aferir a acurácia e ajustar as regras conforme necessário ao longo do tempo.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

📈

Construindo um sistema de armazenamento de métricas tolerante a falhas no Airbnb

O Airbnb desenvolveu um sistema interno de armazenamento de métricas capaz de ingerir aproximadamente 50 milhões de amostras por segundo em cerca de 1,3 bilhão de séries temporais. Isso foi alcançado através da introdução de isolamento rigoroso multi-tenant, incluindo tenancy por serviço e shuffle sharding, além de guardrails em operações de leitura e escrita, visando prevenir que qualquer carga de trabalho individual sobrecarregue o sistema.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

🔗

A Interface é o Contrato

Ontologias empresariais globais frequentemente falham ao forçar diferentes contextos de negócio a compartilhar um único modelo denotacional para termos como cliente, produto e localidade. A abordagem proposta, baseada em interface, visa resolver isso, mantendo ontologias ricas e específicas de domínio dentro de cada limite contextual. Ela expõe apenas projeções sensíveis ao contexto através de mecanismos como reificação RDF 1.2, conotações SHACL 1.2, named graphs e SPARQL transforms. Isso possibilita mudanças de significado auditáveis, uma interoperabilidade mais segura entre domínios e uma mistura prática de descoberta de mundo aberto com raciocínio de mundo fechado na camada de interface.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

📊

Dados Prontos para IA vs. Dados Prontos para Analytics

Dados prontos para analytics são projetados para humanos: eles são agregados, estáveis e explicáveis para que dashboards possam responder de forma confiável 'o que aconteceu'. Já os dados prontos para IA são construídos para modelos, visando preservar detalhes brutos, contexto, semântica e atualidade, permitindo que os sistemas inferam 'o que deve acontecer em seguida', enquanto a agregação frequentemente destrói o próprio sinal que a IA necessita.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

📊

Ggsql: Uma gramática de gráficos para SQL

O ggsql é uma ferramenta, atualmente em fase alpha, que permite aos usuários criar gráficos diretamente em consultas SQL, eliminando a necessidade de alternar para Python ou R. Seu objetivo é tornar a visualização de dados mais rápida, clara e escalável, executando os cálculos dos gráficos no próprio banco de dados, além de facilitar sua geração por ferramentas de IA.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

🧠

Sumarização de KV Cache Guiada por Entropia via Reconstrução de Attention de Baixo Rank

Um novo método de compressão de KV-cache para LLMs substitui o simples token pruning por uma abordagem mais inteligente: ele identifica contextos de baixo valor, os resume matematicamente e armazena uma versão compacta em vez de simplesmente deletá-los. Em testes, essa técnica resultou em maior precisão e menor uso de memória do que os métodos comuns Top-K ou sliding-window, sugerindo que janelas de contexto mais longas podem ser gerenciadas com maior eficiência.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

⚠

Os Quatro Cavaleiros do Apocalipse da IA

Anthropic, OpenAI e NVIDIA estão enfrentando limites significativos na economia e infraestrutura de IA: problemas de uptime, escassez de capacidade e desenvolvimentos de compute que ficam muito aquém da demanda anunciada. Os serviços Claude da Anthropic registraram um uptime entre 98,79% e 99,25% em 90 dias, enquanto o mercado em geral possui apenas 15,2GW dos 114GW de capacidade prometida para data centers de IA em construção. O aumento dos custos de inference está levando grandes fornecedores como Microsoft e Anthropic a adotar faturamento baseado em token, limites de taxa mais rigorosos e subsídios reduzidos.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

🧊

A Última Milha para Apache Iceberg: Construindo uma Plataforma de Dados "Basement"

A combinação de Cloudflare R2 e R2 Data Catalog torna viável a criação de um Iceberg lake de baixo custo e escalável para uso em notebooks, devido à ausência de taxas de egress, armazenamento compatível com S3 e metadados de catálogo gerenciados para Trino/DuckDB. O desafio da ingestão é abordado no artigo com um proxy HTTP em Rust de aproximadamente 500 linhas de código, que converte dados NDJSON enviados via POST em um único commit atômico no Iceberg.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

🤖

Cinco Coisas que Acredito Sobre o Futuro da Analytics

À medida que a analytics transita da análise centrada em BI e conduzida por humanos para workflows baseados em agentes, a maior disrupção ocorre na camada de 'uso de dados', onde agentes de IA já estão em operação e consultas iniciadas por agentes podem superar as iniciadas por humanos em 12 meses.

Ler mais Original

CEVIU Dados

23 de abr. de 2026

💾

Armazenamento Colunar é Normalização

Esta publicação reinterpreta os armazenamentos de coluna como meros armazenamentos de linha normalizados.

Ler mais Original

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Assinar newsletter

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser