Apresentando o Loon: um novo storage engine para dados vetoriais em constante mudança

11 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Loon é um storage engine de código aberto lançado pela Zilliz em 9 de junho de 2026, projetado especificamente para gerenciar dados vetoriais em constante evolução, como embeddings atualizados, backfills contínuos, versões múltiplas de modelos e cargas de trabalho mistas (online + offline). Diferentemente de engines tradicionais que tratam vetores como colunas estáticas, o Loon introduz uma arquitetura baseada em ColumnGroups, formatos de arquivo híbridos (Parquet ajustado para leitura pontual com grupos de linhas de 1 MB, Vortex para vetores densos/esparsos com acesso aleatório otimizado) e um Manifest versionado que rastreia alterações de forma atômica. Ele permite atualizações independentes de escalares, vetores e referências a objetos brutos (PDFs, vídeos, imagens), sem reescrita completa do dataset, reduzindo significativamente custo computacional e latência em ambientes de IA produtiva.

O Loon fundamenta o Milvus 3.0 beta e é peça central do Zilliz Vector Lakebase, que marca a transição da Zilliz de um banco de dados vetorial puro para uma plataforma lake-native, unificando operações online (recuperação em tempo real), descoberta offline (análises batch) e computação elástica sob uma única camada lógica de dados. O nome 'Loon' (mergulhão) simboliza a capacidade do sistema de acessar apenas as partes necessárias de um 'lago' de dados, sem escanear ou mover todo o conjunto a cada operação.

Por que isso importa

Para equipes de engenharia de IA no Brasil e globalmente, o Loon resolve problemas práticos críticos: a reescrita massiva de dados vetoriais durante atualizações de embedding (ex.: migração de all-MiniLM-L6-v2 para text-embedding-3-large), o alto custo de backfills em pipelines de RAG e a duplicação de dados entre armazenamento de objetos e bancos vetoriais. Ao permitir atualizações granulares e versionamento nativo, o Loon reduz custos de armazenamento em nuvem (AWS S3, GCP Cloud Storage) e melhora a consistência em aplicações que dependem de múltiplas versões de vetores simultaneamente, como sistemas de recomendação com A/B testing de modelos ou agentes com memória vetorial versionada. É especialmente relevante para empresas que já usam Milvus ou Zilliz Cloud e buscam escalar cargas de trabalho de IA sem refatorar toda a infraestrutura de dados.

Impacto para desenvolvedores

Desenvolvedores e engenheiros de dados passam a ter controle fino sobre o lifecycle dos vetores: podem adicionar, substituir ou deletar vetores esparsos ou densos sem afetar metadados em Parquet ou referências a blobs, graças ao alinhamento de row-ID e ao Manifest. APIs do Milvus 3.0 beta expõem operações de versioned upsert e column-level compaction, permitindo pipelines que atualizam embeddings sem downtime. Ferramentas como LangChain e LlamaIndex ganham suporte mais robusto para cenários de vector store mutation, essencial em aplicações de RAG dinâmico, onde documentos são revisados ou anotados continuamente. Além disso, o Loon facilita a interoperabilidade com ecossistemas de lakehouse (Delta Lake, Iceberg) via integração com formatos padrão, tornando viável o uso compartilhado de dados entre MLflow, Spark e serviços de inferência em tempo real.

Perguntas frequentes

O que é o Loon e por que ele foi criado?

O Loon é um storage engine desenvolvido pela Zilliz, lançado em 9 de junho de 2026, para resolver limitações de armazenamento vetorial em ambientes de IA dinâmicos. Foi criado porque datasets de vetores evoluem constantemente, com backfills, trocas de modelos de embedding (como de all-MiniLM-L6-v2 para text-embedding-3-large), atualizações de metadados e cargas mistas, e engines tradicionais exigem reescritas completas, gerando custo e latência. O Loon permite atualizações independentes de vetores, escalares e referências usando ColumnGroups e Manifest versionado.

O Loon é compatível com Milvus 3.0 beta e Zilliz Vector Lakebase?

Sim. O Loon é o storage engine subjacente do Milvus 3.0 beta e a espinha dorsal do Zilliz Vector Lakebase. Ele habilita a arquitetura 'lake-native' do Lakebase, permitindo que serviços online, processamento offline e computação elástica operem sobre a mesma base lógica de dados, com versionamento nativo e atualizações granulares, algo impossível com o Milvus 2.x baseado em segmentos imutáveis.

Quais formatos de arquivo o Loon usa e por que eles são importantes para IA?

O Loon usa formatos híbridos: Parquet adaptado (com grupos de linhas de 1 MB e codificação por dicionário desativada em colunas de vetor) para metadados, e Vortex, um formato customizado otimizado para vetores densos e esparsos com acesso aleatório de baixa latência e decodificação seletiva pós-ANN. Essa combinação é crucial para IA porque equilibra eficiência em varreduras (scans) e desempenho em consultas pontuais (ex.: busca por similaridade em RAG), sem comprometer a flexibilidade de atualização contínua.

Como o Loon reduz cópias e reescritas de dados em pipelines de IA?

O Loon elimina a necessidade de cópias redundantes ao manter objetos brutos (PDFs, vídeos) diretamente em armazenamento de objetos (ex.: S3), registrando apenas referências e metadados no banco. Seu Manifest versionado permite que novos ColumnGroups (ex.: uma nova versão de embeddings gerada por um pipeline Spark) sejam submetidos de forma atômica, sem reescrever os dados existentes. Isso reduz significativamente o I/O e o custo em nuvem para operações como backfill de embeddings ou atualização de modelos de RAG.

Links relacionados

zilliz.com

Fontes

medium.comfonte original

Avalie este artigo:

Categoria: CEVIU Dados
Publicado: 11 de junho de 2026
Editoria: CEVIU Dados