Todas as notícias

CEVIU Dados

Big data, ciência de dados e engenharia de dados

213 notícias

Fornecedores de bancos de dados parecem insanamente lucrativos em margem bruta, mas permanecem mal rentáveis devido aos enormes custos de P&D e go-to-market. À medida que os bancos de dados se tornam commodities e os hiperescaladores dominam a infraestrutura, os fornecedores defendem suas margens com diferenciação, opacidade de precificação e crescente complexidade operacional. O efeito líquido para engenheiros de dados é que os produtos frequentemente ganham mais recursos, mas não operações mais simples, pois a própria complexidade ajuda a preservar a economia dos fornecedores.

Os agent harnesses controlam o funcionamento da memória. Dessa forma, se você utiliza um harness fechado ou baseado em API, você não detém de fato a propriedade da memória do seu agente.

Verificações de dados tradicionais podem ser aprovadas mesmo quando os pipelines estão semanticamente comprometidos: o schema, a contagem de linhas, as taxas de nulos e o frescor dos dados não detectam o colapso de distribuição, fusões excessivas ou a perda silenciosa de informação. A entropia de Shannon pode ser utilizada como uma métrica de integridade de sinal para monitorar o desvio ao longo do tempo ou a preservação da informação entre transformações.

A arquitetura do Apache Iceberg impulsiona lakehouses modernas com três camadas distintas: a Camada de Catálogo gerencia os ponteiros de metadados e os commits atômicos; a Camada de Metadados armazena arquivos imutáveis com esquema, partições e histórico de snapshots; e a Camada de Dados contém os arquivos Parquet, que são os dados propriamente ditos. Juntas, essas camadas viabilizam transações ACID, evolução de esquema, time travel e consultas eficientes em larga escala.

A Yelp desenvolveu o Business Attribute Assistant extraindo e padronizando automaticamente atributos-chave de milhões de fontes de texto de negócios não estruturadas. O sistema integra validação com intervenção humana, pontuação de confiança, monitoramento automatizado e melhorias iterativas de modelo para garantir que suas listagens de negócios permaneçam precisas e atualizadas.

Para construir um dashboard útil com IA, comece com uma pergunta clara para mantê-lo focado, garantindo um insight principal por visualização. É fundamental alinhar o tipo de gráfico ao tipo de pergunta e utilizar nomes e comentários descritivos para que a IA compreenda sua intenção. Por fim, certifique-se de que seu dashboard de IA conte uma história, em vez de apenas exibir números soltos, para realmente gerar aprendizado.

O Protocol-H, um framework RAG open-source, aborda a “modality gap” utilizando uma arquitetura hierárquica supervisor-worker para combinar SQL e busca vetorial em multi-hop queries. Em um benchmark interno do EntQA, ele supera significativamente agentes "flat" e o RAG padrão, embora com o custo de uma latência p95 mais alta. O sistema incorpora orquestração determinística, reconhecimento de esquema, acesso alinhado ao RBAC e retry/recuperação autônomos para auditabilidade e compliance.

Filas de jobs no Postgres frequentemente degradam não por limites de performance, mas pelo acúmulo de linhas excluídas ("dead tuples") quando a limpeza (vacuuming) é bloqueada por queries longas ou sobrepostas de outras workloads. Com o tempo, isso gera um overhead oculto e desacelera tudo. A solução é controlar e limitar o tráfego de queries concorrentes para que o vacuuming possa ser executado de forma eficaz, mantendo a fila e o banco de dados stable.

O Airbnb migrou um pipeline de métricas massivo baseado em StatsD para OpenTelemetry e Prometheus, empregando uma estratégia de escrita dupla: OTLP para serviços internos, e Prometheus para cargas de trabalho OSS (Open Source Software), mantendo StatsD como um fallback. Uma biblioteca de métricas compartilhada possibilitou uma implementação ampla, mas os serviços de maior volume enfrentaram regressões de memória, GC (Garbage Collection) e heap, que foram mitigadas ao mudar cargas de trabalho selecionadas para delta temporality. Para o escalonamento, uma camada de agregação vmagent de duas fases foi implementada, escalando para centenas de agregadores e ingerindo mais de 100 milhões de amostras por segundo, demonstrando a capacidade da nova arquitetura de gerenciar grandes volumes de dados de telemetria.

Catálogos de dados estão se tornando a camada de controle essencial para data lakehouses, gerenciando governança, acesso e interoperabilidade em todo o ecossistema de dados. Embora as opções gerenciadas ofereçam simplicidade, elas frequentemente criam dependência. Por outro lado, ferramentas open-source proporcionam flexibilidade e suporte a múltiplos engines, mas com um custo em termos de maturidade. Dada essa dicotomia, muitas equipes precisarão adotar tanto um catálogo técnico quanto um voltado para as necessidades de negócio.

O Proxy-Pointer RAG é motivado pela crítica do PageIndex, que aponta que o retrieval em documentos empresariais reais é tipicamente um problema de navegação estrutural, e não meramente de similaridade semântica. A resposta correta muitas vezes reside em encontrar a seção, tabela ou caminho hierárquico apropriado, em vez do chunk mais semanticamente similar. Essa abordagem integra essa perspectiva em um pipeline vetorial escalável, incorporando proxies estruturais como árvores de documentos, caminhos de ancestralidade e pistas do tipo 'pointer'. O objetivo é mitigar a diferença de precisão entre o RAG vetorial "flat" e métodos "vectorless" que demandam maior capacidade de raciocínio.

A Netflix desenvolveu uma camada de caching para o Apache Druid a fim de evitar o reprocessamento das mesmas queries de séries temporais. A solução intercepta as queries no Druid Router, analisa sua estrutura e armazena os resultados em buckets de tempo granularizados, utilizando um cache persistido em Cassandra. Para janelas de tempo sobrepostas, o sistema serve dados em cache para intervalos já consolidados e busca do Druid apenas a parte mais recente e faltante. Ele emprega TTLs exponenciais e uma estratégia de merge que considera "gaps" (lacunas) para equilibrar a atualização dos dados com as taxas de acerto do cache.

O Apache Airflow 3.2.0 introduz o particionamento de assets para agendamento data-aware, permitindo que DAGs downstream sejam acionados apenas pela partição exata que sofreu alteração, em vez de cada atualização upstream. A versão também implementa suporte multi-equipe experimental para isolar DAGs, conexões, variáveis, pools e executores em uma única implementação, além de callbacks de alerta de deadline síncronos via executor. Melhorias adicionais incluem uma limpeza de campos de instâncias de tarefas renderizadas cerca de 42 vezes mais rápida para DAGs com muitos mapeamentos. O PythonOperator agora também oferece suporte a callables assíncronos.

O Metrics SQL da Rill cria uma camada semântica nativa em SQL, onde as métricas de negócio são definidas uma única vez e consultadas de forma consistente em dashboards, ferramentas e agentes de IA, eliminando o desvio de métricas. Isso possibilita análises determinísticas, seguras e de alto desempenho ao compilar consultas de métricas simples em SQL de banco de dados otimizado.

Fluxos de alta vazão no Delta Lake podem se degradar silenciosamente com o acúmulo de milhões de arquivos pequenos, mesmo quando o pipeline parece estar funcionando normalmente. A latência de consulta pode aumentar em dez vezes, e os custos de armazenamento podem subir 40% ou mais, pois Spark e o armazenamento em nuvem dedicam a maior parte do tempo aos metadados dos arquivos, em vez dos dados propriamente ditos. A solução é operacional: agendar OPTIMIZE em partições recentes, usar VACUUM para excluir tombstones, e monitorar o crescimento do transaction log e os tamanhos dos arquivos. Auto Compaction e Optimized Writes auxiliam, mas não substituem a compactação agendada em escala extrema.

A Meta desenvolveu um motor de pré-cálculo empregando mais de 50 agentes de IA especializados para mapear e documentar o "conhecimento tribal" em seus extensos pipelines de dados. O sistema produz arquivos de contexto concisos e de alta qualidade que registram padrões não óbvios, propósitos de módulos, dependências, modos de falha e convenções não documentadas, seguindo o princípio de uma "bússola, não enciclopédia".

A IA não eliminou a visualização de dados, mas commoditizou a atividade, removendo grande parte do esforço, criatividade e satisfação que a tornavam prazerosa. Como consequência, a área migrou de papéis especializados para um trabalho mais generalista, habilitado pela IA, tornando a visualização de dados mais um hobby do que uma profissão central.

Outras categorias