CEVIU News

As melhores notícias de tecnologia, curadas diariamente para quem vive tech.

240 notícias encontradas

Mais da metade dos projetos de IA generativa foram abandonados após a Prova de Conceito (POC) no ano passado, em grande parte devido à baixa preparação dos dados. Líderes precisam passar de conjuntos de dados curados para pilotos para pipelines de nível de produção com definições consistentes, metadados mais ricos, linhagem mais robusta e governança automatizada e em tempo real em dados estruturados e não estruturados. Priorização orientada por casos de uso, acesso com privilégio mínimo, auditabilidade e limpeza de dados com human-in-the-loop podem ajudar a preencher essa lacuna.

O MVCC do PostgreSQL opera armazenando múltiplas versões de cada linha no disco. Cada tupla contém campos `xmin` e `xmax` que determinam sua visibilidade para as transações. Leitores nunca bloqueiam escritores, e escritores nunca bloqueiam leitores. Quando uma linha é atualizada ou deletada, uma nova versão é criada em vez de sobrescrever a antiga, e as versões antigas são posteriormente limpas pelo processo de `vacuum`.

Um contador apenas de crescimento em um armazenamento chave-valor (KV store) com consistência sequencial pode falhar devido a leituras defasadas e atualizações concorrentes que levam à perda de incrementos, mesmo com o uso de compare-and-swap. O artigo detalha os contadores no estilo CRDT, modelos de consistência e a razão pela qual um armazenamento linearizável ou um design baseado em gossip oferece resultados mais confiáveis.

O ciclo de release mais recente do Polars aproxima o motor de streaming de um uso padrão, expandindo o suporte para merge joins em streaming, as-of joins, e scans/sinks em streaming através de CSV, NDJSON, IPC e leituras em cloud. A atualização também adiciona roundtrips nativos para Delta Lake e Iceberg, incluindo escritas lazy diretas de volta para Delta e a função sink_iceberg() para pipelines de streaming prontas para commit. Por fim, o Polars Cloud agora inclui profiling de queries com métricas de CPU, RAM, rede e shuffle por estágio.

A especificação de configuração declarativa do OpenTelemetry alcançou um marco de estabilidade para componentes-chave: o JSON schema, o formato de configuração YAML e o modelo em memória. Essa abordagem agnóstica a linguagem e neutra a fornecedor permite que as equipes definam traces, métricas e logs em um único arquivo YAML versionado. Isso elimina a necessidade de gerenciar diversas variáveis de ambiente, código de inicialização do SDK e configurações de coletor separadamente. Atualmente, há suporte em C++, Go, Java, JavaScript e PHP, enquanto .NET e Python estão em progresso.

A Arcesium re-arquitetou seu serviço de paginação para lidar com bilhões de registros financeiros e aproximadamente 2 milhões de chamadas de API por dia sem violar os SLOs. A solução emprega paginação baseada em cursor por data, buscando grandes blocos indexados (TOP ... WITH TIES), agregando dados em SQL, escrevendo os resultados intermediários em Parquet no S3, e servindo páginas subsequentes com DuckDB a partir do S3. Timestamps de commit stable e um modelo uni-temporal garantem a consistência pontual em leituras de múltiplas páginas.

O desempenho do CDC de Postgres para Iceberg depende muito do design do pipeline, especialmente durante a fase de snapshot, e não apenas da marca do conector. Neste benchmark patrocinado, a vantagem de nó único do Supermetal resultou de um caminho de CDC mais rápido, menor overhead de serialização e um comportamento de sink consciente da fase que trata o snapshotting e o CDC em tempo real de forma diferente. Flink e Debezium demandaram mais ajuste e infraestrutura. A lição mais abrangente é que se deve avaliar a arquitetura de snapshot, os parâmetros de ajuste (tuning knobs) e o CDC em estado estável separadamente.

Benchmarks tradicionais de LLM são insuficientes para avaliar sistemas agentic reais, pois não conseguem capturar a confiabilidade a longo prazo, o uso de ferramentas, a qualidade do planejamento e a recuperação de erros em produção. A Criteo apresentou um framework de avaliação agentic mais rigoroso que abrange a conclusão de tarefas multi-etapas, recuperação de erros, eficiência de custos e critérios de sucesso alinhados aos humanos.

Data drift refere-se a alterações graduais nas propriedades estatísticas dos dados, como média ou distribuição. Por outro lado, data shift é uma mudança súbita e mais severa, frequentemente causada por alterações em sistemas upstream, atualizações de schema ou eventos de negócio. Distinguir corretamente entre os dois é crucial, pois cada um exige estratégias de alerta distintas para a observabilidade de dados.

O desafio central da análise de dados reside frequentemente na divergência semântica, e não no armazenamento. Equipes frequentemente definem o mesmo conceito de negócio de maneiras distintas, uma complexidade exacerbada por agentes de IA que, ao tentar inferir joins e métricas, introduzem inconsistências. Para resolver isso, a Just Eat Takeaway implementou uma stack de solução que trata a governança como um contexto legível por máquina. Isso inclui um glossário de negócios, um catálogo DataHub completo com metadados, informações de propriedade, linhagem e qualidade, e uma camada semântica no Looker onde as métricas são definidas uma única vez e reutilizadas em toda a empresa. O resultado é que tanto humanos quanto a IA consultam e operam com as mesmas definições de dados confiáveis.

Espera-se que a computação quântica seja capaz de quebrar a criptografia de chave pública utilizada atualmente, gerando um risco imediato de "armazene agora, decifre depois" para dados sensíveis. Em resposta, o NIST e o UK NCSC estão acelerando os cronogramas de migração para padrões pós-quânticos com previsão para 2030. Os primeiros padrões, como ML-KEM (Kyber) e ML-DSA (Dilithium), já foram publicados, e o HQC também foi selecionado como parte dessa iniciativa. A Meta revela que já está implementando internamente a criptografia pós-quântica e sugere uma abordagem faseada para outras organizações: inventário criptográfico, priorização dos riscos por aplicação e implantação híbrida para mitigar a exposição enquanto os novos padrões se consolidam.

O Airflow 3 introduz suporte de primeira classe para workflows agentic através de recursos como estado de tarefa persistente, aprovações com intervenção humana, mapeamento dinâmico de tarefas, gerenciamento integrado de memória e contexto, e integração robusta com o tooling de LLM, permitindo que as equipes orquestrem aplicações agentic complexas e de múltiplas etapas de forma confiável em escala.

A equipe de Engenharia do Pinterest introduziu a deduplicação em nível de requisição para escalar eficientemente seus sistemas de recomendação. A estratégia envolve a ordenação de dados por usuário + ID da requisição no Apache Iceberg, permitindo uma compressão massiva para processar e armazenar os dados em nível de requisição apenas uma vez por requisição única. Adicionalmente, eles utilizam um transformer de contexto separado com KV caching no estágio de ranking e aplicam correções direcionadas, como SyncBatchNorm e mascaramento em nível de usuário, durante o treinamento dos modelos.

KumoRFM-2 é o modelo fundacional relacional da Kumo para previsões, capaz de inferir diretamente a partir de tabelas de banco de dados, chaves e histórico temporal, sem a necessidade do pipeline usual de feature-engineering. A Kumo afirma que o modelo supera o ML supervisionado em benchmarks relacionais comuns em cenários few-shot, indicando uma abordagem mais simples para transformar dados de data warehouse em aplicações preditivas e prontas para agentes.

Power BI não oferece suporte adequado a modelos semânticos de terceiros, principalmente devido a limitações técnicas relacionadas ao comportamento de query, agregação e arquitetura, e não por intenção competitiva. Como resultado, a Microsoft recomenda manter todas as métricas e a lógica de negócios dentro do próprio modelo semântico do Power BI para garantir confiabilidade e desempenho.

O novo pacote apache-airflow-providers-common-ai do Apache Airflow adiciona suporte nativo a LLMs e agentes de IA, com 6 operadores e mais de 20 provedores de modelos, exigindo o Airflow 3.0+. Ele inclui tarefas estruturadas como @task.llm, @task.agent, @task.llm_sql, análise de arquivos, branching e comparação de esquemas, além de acesso direto a mais de 350 Airflow hooks existentes como ferramentas de IA tipadas. O pacote apresenta também fluxos de aprovação humana integrados, execução durável com replay em nível de etapa a partir do armazenamento de objetos, e observability de ponta a ponta para tokens e ferramentas.

O lançamento do DuckLake v1.0 marca a versão pronta para produção deste formato lakehouse nativo em SQL. Diferente de formatos tradicionais que armazenam metadados como arquivos no object storage, o DuckLake mantém todos os metadados em um catálogo de banco de dados real (SQLite, PostgreSQL, ou o próprio DuckDB), fazendo com que o lakehouse se comporte como um banco de dados comum.

A Hugging Face utilizou um modelo de OCR aberto (Chandra-OCR-2) e scripts gerados pelo Codex, executados em GPUs serverless, para converter aproximadamente 27.000 artigos em Markdown. O objetivo é possibilitar a funcionalidade de 'conversar com o artigo'. A execução paralela dos jobs tornou o processo rápido, levando cerca de 30 horas, e relativamente eficiente em termos de custo, com um total aproximado de US$ 850.