CEVIU Logo
Voltar

Apresentando o Loon: um novo storage engine para dados vetoriais em constante mudança

Aprofundamento CEVIU

Aprofundamento

O Loon é um storage engine de código aberto lançado pela Zilliz em 9 de junho de 2026, projetado especificamente para gerenciar dados vetoriais em constante evolução — como embeddings atualizados, backfills contínuos, versões múltiplas de modelos e cargas de trabalho mistas (online + offline). Diferentemente de engines tradicionais que tratam vetores como colunas estáticas, o Loon introduz uma arquitetura baseada em ColumnGroups, formatos de arquivo híbridos (Parquet ajustado para leitura pontual com grupos de linhas de 1 MB, Vortex para vetores densos/esparsos com acesso aleatório otimizado) e um Manifest versionado que rastreia alterações de forma atômica. Ele permite atualizações independentes de escalares, vetores e referências a objetos brutos (PDFs, vídeos, imagens), sem reescrita completa do dataset — reduzindo significativamente custo computacional e latência em ambientes de IA produtiva.

O Loon fundamenta o Milvus 3.0 beta e é peça central do Zilliz Vector Lakebase, que marca a transição da Zilliz de um banco de dados vetorial puro para uma plataforma lake-native, unificando operações online (recuperação em tempo real), descoberta offline (análises batch) e computação elástica sob uma única camada lógica de dados. O nome 'Loon' (mergulhão) simboliza a capacidade do sistema de acessar apenas as partes necessárias de um 'lago' de dados — sem escanear ou mover todo o conjunto a cada operação.

Por que isso importa

Para equipes de engenharia de IA no Brasil e globalmente, o Loon resolve problemas práticos críticos: a reescrita massiva de dados vetoriais durante atualizações de embedding (ex.: migração de all-MiniLM-L6-v2 para text-embedding-3-large), o alto custo de backfills em pipelines de RAG e a duplicação de dados entre armazenamento de objetos e bancos vetoriais. Ao permitir atualizações granulares e versionamento nativo, o Loon reduz custos de armazenamento em nuvem (AWS S3, GCP Cloud Storage) e melhora a consistência em aplicações que dependem de múltiplas versões de vetores simultaneamente — como sistemas de recomendação com A/B testing de modelos ou agentes com memória vetorial versionada. É especialmente relevante para empresas que já usam Milvus ou Zilliz Cloud e buscam escalar cargas de trabalho de IA sem refatorar toda a infraestrutura de dados.

Impacto para desenvolvedores

Desenvolvedores e engenheiros de dados passam a ter controle fino sobre o lifecycle dos vetores: podem adicionar, substituir ou deletar vetores esparsos ou densos sem afetar metadados em Parquet ou referências a blobs, graças ao alinhamento de row-ID e ao Manifest. APIs do Milvus 3.0 beta expõem operações de versioned upsert e column-level compaction, permitindo pipelines que atualizam embeddings sem downtime. Ferramentas como LangChain e LlamaIndex ganham suporte mais robusto para cenários de vector store mutation, essencial em aplicações de RAG dinâmico, onde documentos são revisados ou anotados continuamente. Além disso, o Loon facilita a interoperabilidade com ecossistemas de lakehouse (Delta Lake, Iceberg) via integração com formatos padrão, tornando viável o uso compartilhado de dados entre MLflow, Spark e serviços de inferência em tempo real.

Perguntas frequentes

O que é o Loon e por que ele foi criado?

O Loon é um storage engine desenvolvido pela Zilliz, lançado em 9 de junho de 2026, para resolver limitações de armazenamento vetorial em ambientes de IA dinâmicos. Foi criado porque datasets de vetores evoluem constantemente — com backfills, trocas de modelos de embedding (como de all-MiniLM-L6-v2 para text-embedding-3-large), atualizações de metadados e cargas mistas — e engines tradicionais exigem reescritas completas, gerando custo e latência. O Loon permite atualizações independentes de vetores, escalares e referências usando ColumnGroups e Manifest versionado.

O Loon é compatível com Milvus 3.0 beta e Zilliz Vector Lakebase?

Sim. O Loon é o storage engine subjacente do Milvus 3.0 beta e a espinha dorsal do Zilliz Vector Lakebase. Ele habilita a arquitetura 'lake-native' do Lakebase, permitindo que serviços online, processamento offline e computação elástica operem sobre a mesma base lógica de dados, com versionamento nativo e atualizações granulares — algo impossível com o Milvus 2.x baseado em segmentos imutáveis.

Quais formatos de arquivo o Loon usa e por que eles são importantes para IA?

O Loon usa formatos híbridos: Parquet adaptado (com grupos de linhas de 1 MB e codificação por dicionário desativada em colunas de vetor) para metadados, e Vortex — um formato customizado otimizado para vetores densos e esparsos com acesso aleatório de baixa latência e decodificação seletiva pós-ANN. Essa combinação é crucial para IA porque equilibra eficiência em varreduras (scans) e desempenho em consultas pontuais (ex.: busca por similaridade em RAG), sem comprometer a flexibilidade de atualização contínua.

Como o Loon reduz cópias e reescritas de dados em pipelines de IA?

O Loon elimina a necessidade de cópias redundantes ao manter objetos brutos (PDFs, vídeos) diretamente em armazenamento de objetos (ex.: S3), registrando apenas referências e metadados no banco. Seu Manifest versionado permite que novos ColumnGroups (ex.: uma nova versão de embeddings gerada por um pipeline Spark) sejam submetidos de forma atômica, sem reescrever os dados existentes. Isso reduz significativamente o I/O e o custo em nuvem para operações como backfill de embeddings ou atualização de modelos de RAG.

Links relacionados

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Dados
Publicado
11 de junho de 2026
Fonte
CEVIU Dados

Quer receber mais sobre CEVIU Dados?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser