Como a Meta reestruturou seu armazenamento para otimizar workloads de IA em larga escala

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

O BLOB-storage é o sistema de armazenamento de objetos da Meta projetado para escalar em exabytes e servir workloads heterogêneos, desde feeds do Facebook até treinamento de modelos como Llama. Ele não é um banco de dados ou um filesystem tradicional, mas uma camada de abstração sobre o Tectonic, a infraestrutura de bloco regional que usa erasure coding, tiering entre HDD e flash e colocação inteligente de dados quentes/frios. O novo BLOB-storage para IA elimina o proxy de dados e substitui metadados espalhados por um esquema unificado no ZippyDB, permitindo lookup O(1) por chunk. Isso reduz latência crítica: em vez de centenas de milissegundos com múltiplas consultas cruzando regiões, agora o plano de leitura (ReadPlan) é resolvido em ~1, 2 ms, essencial para evitar stalls em GPUs sincronizadas.

A arquitetura atual opera em três níveis de cache: memória RAM dos hosts GPU (L1), SSD local ou próximo (L2) e o BLOB-storage regional em flash (L3). A hidratação sob demanda é acionada por prefetch explícito via SDK, não por heurística cega, mas por sinalização antecipada do dataloader sobre os próximos minutos de uso. Isso difere radicalmente de caches genéricos: aqui, o ciclo de vida dos dados (TTL, LRU, quota-aware eviction) é orquestrado pelo próprio workload de treino, não por políticas estáticas. A limitação real persiste: o sistema ainda depende da integridade do Tectonic como camada base; falhas nessa camada não são mascaradas, só mitigadas por hedged reads e controle dinâmico de concorrência no cliente.

O que mudou

Na cobertura anterior de abril e maio de 2026, a Meta já usava agentes de IA para otimizar performance de infraestrutura, mas como consumidores *externos* do BLOB-storage, não como parte de sua arquitetura. Agora, o BLOB-storage incorpora mecanismos nativos de IA-adjacentes: prefetch profundo com sinalização semântica do dataloader, cache de metadados com hit rate de 80%, e evicção adaptativa guiada por quotas. Antes, os agentes detectavam regressões *após* o fato; agora, o próprio BLOB-storage previne gargalos *em tempo de execução*, integrando lógica de hidratação e controle de tráfego diretamente no SDK. Também houve mudança estrutural: o antigo modelo global-padrão foi substituído por implantação regional por padrão, uma decisão técnica, não apenas operacional, alinhada à física da distribuição geográfica de GPUs.

Por que isso importa

Para desenvolvedores de ML, isso significa menos tempo esperando ingestão de dados e mais tempo ajustando hiperparâmetros. Um researcher que antes precisava copiar snapshots entre regiões por horas agora inicia treinos locais com dados acessíveis via SDK, mesmo que o blob esteja fisicamente em outro continente. Para engenheiros de infraestrutura, o BLOB-storage mostra que otimização de I/O para IA não é só sobre velocidade bruta: é sobre previsibilidade (pMax latência), eficiência energética (sem proxy = menos kW gastos em storage) e DX real (SDK com API explícita de prefetch, não só 'cache mágico'). E para quem constrói sistemas de larga escala, é um caso concreto de como reengenharia de metadados, não só de hardware, resolve bottlenecks críticos quando a carga muda de web requests para epochs de treino.

Linha do tempo

2026-04-07
Meta lança motor de pré-computação para agentes de IA melhorarem edições em pipelines de dados
2026-04-17
Plataforma unificada de agentes de IA passa a monitorar regressões de performance em infraestrutura
2026-05-04
Versão refinada da plataforma de agentes de IA é aplicada em escala hiperscale
2026-05-08
Meta detalha otimização IKBO para inference em sistemas de recomendação
2026-07-02
Nova arquitetura do BLOB-storage é lançada com foco em workloads de treino de IA

Perguntas frequentes

O novo BLOB-storage substitui o Tectonic?

Não. O Tectonic continua sendo a camada de bloco subjacente, o BLOB-storage agora opera *sobre ele* com zero overhead. A mudança foi eliminar o proxy de dados e simplificar o acesso aos blocos, não substituir a infraestrutura de armazenamento física.

Como o prefetch profundo se diferencia do prefetch padrão do PyTorch DataLoader?

O prefetch() do SDK do BLOB-storage ativa hidratação em múltiplos níveis (L3 regional, cache de metadados) e antecipa dados para os próximos minutos, não apenas o próximo batch. Já o DataLoader faz prefetch apenas na memória do host (L1), sem coordenação com a infraestrutura de storage.

Esse sistema funciona só para treino ou também para inference?

Foi projetado especificamente para workloads de treino com alta ingestão contínua e múltiplas leituras por epoch. Para inference, a Meta já usa outras otimizações, como a IKBO em sistemas de recomendação [[LINK:source_article|descrita em maio]].

O que acontece se o cache L1/L2 ficar cheio durante um treino intenso?

O sistema aplica políticas de evicção configuráveis (TTL ou LRU) com controle de quota. Dados mais antigos ou menos acessados são descartados para abrir espaço, mas o BLOB-storage regional (L3) permanece como fonte de verdade, garantindo que novos acessos sejam atendidos com baixa latência.

Links relacionados

Fontes

engineering.fb.comfonte original

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 03 de julho de 2026
Editoria: CEVIU Web Dev