CEVIU News

CEVIU News - CEVIU Dados - 20 de abril de 2026

14 notícias20 de abril de 2026CEVIU Dados
Compartilhar:

CEVIU Dados

O ciclo de release mais recente do Polars aproxima o motor de streaming de um uso padrão, expandindo o suporte para merge joins em streaming, as-of joins, e scans/sinks em streaming através de CSV, NDJSON, IPC e leituras em cloud. A atualização também adiciona roundtrips nativos para Delta Lake e Iceberg, incluindo escritas lazy diretas de volta para Delta e a função sink_iceberg() para pipelines de streaming prontas para commit. Por fim, o Polars Cloud agora inclui profiling de queries com métricas de CPU, RAM, rede e shuffle por estágio.

Um contador apenas de crescimento em um armazenamento chave-valor (KV store) com consistência sequencial pode falhar devido a leituras defasadas e atualizações concorrentes que levam à perda de incrementos, mesmo com o uso de compare-and-swap. O artigo detalha os contadores no estilo CRDT, modelos de consistência e a razão pela qual um armazenamento linearizável ou um design baseado em gossip oferece resultados mais confiáveis.

O desempenho do CDC de Postgres para Iceberg depende muito do design do pipeline, especialmente durante a fase de snapshot, e não apenas da marca do conector. Neste benchmark patrocinado, a vantagem de nó único do Supermetal resultou de um caminho de CDC mais rápido, menor overhead de serialização e um comportamento de sink consciente da fase que trata o snapshotting e o CDC em tempo real de forma diferente. Flink e Debezium demandaram mais ajuste e infraestrutura. A lição mais abrangente é que se deve avaliar a arquitetura de snapshot, os parâmetros de ajuste (tuning knobs) e o CDC em estado estável separadamente.

O MVCC do PostgreSQL opera armazenando múltiplas versões de cada linha no disco. Cada tupla contém campos `xmin` e `xmax` que determinam sua visibilidade para as transações. Leitores nunca bloqueiam escritores, e escritores nunca bloqueiam leitores. Quando uma linha é atualizada ou deletada, uma nova versão é criada em vez de sobrescrever a antiga, e as versões antigas são posteriormente limpas pelo processo de `vacuum`.

O desafio central da análise de dados reside frequentemente na divergência semântica, e não no armazenamento. Equipes frequentemente definem o mesmo conceito de negócio de maneiras distintas, uma complexidade exacerbada por agentes de IA que, ao tentar inferir joins e métricas, introduzem inconsistências. Para resolver isso, a Just Eat Takeaway implementou uma stack de solução que trata a governança como um contexto legível por máquina. Isso inclui um glossário de negócios, um catálogo DataHub completo com metadados, informações de propriedade, linhagem e qualidade, e uma camada semântica no Looker onde as métricas são definidas uma única vez e reutilizadas em toda a empresa. O resultado é que tanto humanos quanto a IA consultam e operam com as mesmas definições de dados confiáveis.

Mais da metade dos projetos de IA generativa foram abandonados após a Prova de Conceito (POC) no ano passado, em grande parte devido à baixa preparação dos dados. Líderes precisam passar de conjuntos de dados curados para pilotos para pipelines de nível de produção com definições consistentes, metadados mais ricos, linhagem mais robusta e governança automatizada e em tempo real em dados estruturados e não estruturados. Priorização orientada por casos de uso, acesso com privilégio mínimo, auditabilidade e limpeza de dados com human-in-the-loop podem ajudar a preencher essa lacuna.

Data drift refere-se a alterações graduais nas propriedades estatísticas dos dados, como média ou distribuição. Por outro lado, data shift é uma mudança súbita e mais severa, frequentemente causada por alterações em sistemas upstream, atualizações de schema ou eventos de negócio. Distinguir corretamente entre os dois é crucial, pois cada um exige estratégias de alerta distintas para a observabilidade de dados.

Benchmarks tradicionais de LLM são insuficientes para avaliar sistemas agentic reais, pois não conseguem capturar a confiabilidade a longo prazo, o uso de ferramentas, a qualidade do planejamento e a recuperação de erros em produção. A Criteo apresentou um framework de avaliação agentic mais rigoroso que abrange a conclusão de tarefas multi-etapas, recuperação de erros, eficiência de custos e critérios de sucesso alinhados aos humanos.

A especificação de configuração declarativa do OpenTelemetry alcançou um marco de estabilidade para componentes-chave: o JSON schema, o formato de configuração YAML e o modelo em memória. Essa abordagem agnóstica a linguagem e neutra a fornecedor permite que as equipes definam traces, métricas e logs em um único arquivo YAML versionado. Isso elimina a necessidade de gerenciar diversas variáveis de ambiente, código de inicialização do SDK e configurações de coletor separadamente. Atualmente, há suporte em C++, Go, Java, JavaScript e PHP, enquanto .NET e Python estão em progresso.

O Airflow 3 introduz suporte de primeira classe para workflows agentic através de recursos como estado de tarefa persistente, aprovações com intervenção humana, mapeamento dinâmico de tarefas, gerenciamento integrado de memória e contexto, e integração robusta com o tooling de LLM, permitindo que as equipes orquestrem aplicações agentic complexas e de múltiplas etapas de forma confiável em escala.

A Arcesium re-arquitetou seu serviço de paginação para lidar com bilhões de registros financeiros e aproximadamente 2 milhões de chamadas de API por dia sem violar os SLOs. A solução emprega paginação baseada em cursor por data, buscando grandes blocos indexados (TOP ... WITH TIES), agregando dados em SQL, escrevendo os resultados intermediários em Parquet no S3, e servindo páginas subsequentes com DuckDB a partir do S3. Timestamps de commit stable e um modelo uni-temporal garantem a consistência pontual em leituras de múltiplas páginas.

Espera-se que a computação quântica seja capaz de quebrar a criptografia de chave pública utilizada atualmente, gerando um risco imediato de "armazene agora, decifre depois" para dados sensíveis. Em resposta, o NIST e o UK NCSC estão acelerando os cronogramas de migração para padrões pós-quânticos com previsão para 2030. Os primeiros padrões, como ML-KEM (Kyber) e ML-DSA (Dilithium), já foram publicados, e o HQC também foi selecionado como parte dessa iniciativa. A Meta revela que já está implementando internamente a criptografia pós-quântica e sugere uma abordagem faseada para outras organizações: inventário criptográfico, priorização dos riscos por aplicação e implantação híbrida para mitigar a exposição enquanto os novos padrões se consolidam.

Receba as melhores notícias de tech

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser