Como a Meta reestruturou seu armazenamento para otimizar workloads de IA em larga escala
Aprofundamento CEVIU
Aprofundamento
O BLOB-storage é o sistema de armazenamento de objetos da Meta projetado para escalar em exabytes e servir workloads heterogêneos, desde feeds do Facebook até treinamento de modelos como Llama. Ele não é um banco de dados ou um filesystem tradicional, mas uma camada de abstração sobre o Tectonic, a infraestrutura de bloco regional que usa erasure coding, tiering entre HDD e flash e colocação inteligente de dados quentes/frios. O novo BLOB-storage para IA elimina o proxy de dados e substitui metadados espalhados por um esquema unificado no ZippyDB, permitindo lookup O(1) por chunk. Isso reduz latência crítica: em vez de centenas de milissegundos com múltiplas consultas cruzando regiões, agora o plano de leitura (ReadPlan) é resolvido em ~1, 2 ms, essencial para evitar stalls em GPUs sincronizadas.
A arquitetura atual opera em três níveis de cache: memória RAM dos hosts GPU (L1), SSD local ou próximo (L2) e o BLOB-storage regional em flash (L3). A hidratação sob demanda é acionada por prefetch explícito via SDK, não por heurística cega, mas por sinalização antecipada do dataloader sobre os próximos minutos de uso. Isso difere radicalmente de caches genéricos: aqui, o ciclo de vida dos dados (TTL, LRU, quota-aware eviction) é orquestrado pelo próprio workload de treino, não por políticas estáticas. A limitação real persiste: o sistema ainda depende da integridade do Tectonic como camada base; falhas nessa camada não são mascaradas, só mitigadas por hedged reads e controle dinâmico de concorrência no cliente.
O que mudou
Na cobertura anterior de abril e maio de 2026, a Meta já usava agentes de IA para otimizar performance de infraestrutura, mas como consumidores *externos* do BLOB-storage, não como parte de sua arquitetura. Agora, o BLOB-storage incorpora mecanismos nativos de IA-adjacentes: prefetch profundo com sinalização semântica do dataloader, cache de metadados com hit rate de 80%, e evicção adaptativa guiada por quotas. Antes, os agentes detectavam regressões *após* o fato; agora, o próprio BLOB-storage previne gargalos *em tempo de execução*, integrando lógica de hidratação e controle de tráfego diretamente no SDK. Também houve mudança estrutural: o antigo modelo global-padrão foi substituído por implantação regional por padrão, uma decisão técnica, não apenas operacional, alinhada à física da distribuição geográfica de GPUs.
Por que isso importa
Para desenvolvedores de ML, isso significa menos tempo esperando ingestão de dados e mais tempo ajustando hiperparâmetros. Um researcher que antes precisava copiar snapshots entre regiões por horas agora inicia treinos locais com dados acessíveis via SDK, mesmo que o blob esteja fisicamente em outro continente. Para engenheiros de infraestrutura, o BLOB-storage mostra que otimização de I/O para IA não é só sobre velocidade bruta: é sobre previsibilidade (pMax latência), eficiência energética (sem proxy = menos kW gastos em storage) e DX real (SDK com API explícita de prefetch, não só 'cache mágico'). E para quem constrói sistemas de larga escala, é um caso concreto de como reengenharia de metadados, não só de hardware, resolve bottlenecks críticos quando a carga muda de web requests para epochs de treino.
Linha do tempo
Meta lança motor de pré-computação para agentes de IA melhorarem edições em pipelines de dados
Plataforma unificada de agentes de IA passa a monitorar regressões de performance em infraestrutura
Versão refinada da plataforma de agentes de IA é aplicada em escala hiperscale
Meta detalha otimização IKBO para inference em sistemas de recomendação
Nova arquitetura do BLOB-storage é lançada com foco em workloads de treino de IA
Perguntas frequentes
O novo BLOB-storage substitui o Tectonic?
Não. O Tectonic continua sendo a camada de bloco subjacente, o BLOB-storage agora opera *sobre ele* com zero overhead. A mudança foi eliminar o proxy de dados e simplificar o acesso aos blocos, não substituir a infraestrutura de armazenamento física.
Como o prefetch profundo se diferencia do prefetch padrão do PyTorch DataLoader?
O prefetch() do SDK do BLOB-storage ativa hidratação em múltiplos níveis (L3 regional, cache de metadados) e antecipa dados para os próximos minutos, não apenas o próximo batch. Já o DataLoader faz prefetch apenas na memória do host (L1), sem coordenação com a infraestrutura de storage.
Esse sistema funciona só para treino ou também para inference?
Foi projetado especificamente para workloads de treino com alta ingestão contínua e múltiplas leituras por epoch. Para inference, a Meta já usa outras otimizações, como a IKBO em sistemas de recomendação [[LINK:source_article|descrita em maio]].
O que acontece se o cache L1/L2 ficar cheio durante um treino intenso?
O sistema aplica políticas de evicção configuráveis (TTL ou LRU) com controle de quota. Dados mais antigos ou menos acessados são descartados para abrir espaço, mas o BLOB-storage regional (L3) permanece como fonte de verdade, garantindo que novos acessos sejam atendidos com baixa latência.
Fontes
- engineering.fb.comfonte original
- Categoria
- CEVIU Web Dev
- Publicado
- 03 de julho de 2026
- Editoria
- CEVIU Web Dev

