Gerenciando Iceberg e Lance com Gravitino: A realidade por trás de arquiteturas Lakehouse unificadas

11 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Apache Gravitino, graduado como Projeto de Nível Superior (TLP) da Apache em 3 de junho de 2025, atua como um 'metadata lake' federado que unifica o gerenciamento de metadados entre formatos heterogêneos, especialmente Apache Iceberg e Apache Lance. Enquanto o Iceberg v3 (lançado em 7 de maio de 2026 no Snowflake e Databricks Runtime 18.0+) traz avanços como vetores de exclusão, linhagem de linha para CDC e tipo VARIANT, seu modelo de commit depende fortemente do catálogo no lado do cliente. Já o Lance, focado em cargas de trabalho de IA/ML, introduziu em 6 de junho de 2026 suporte a indexação BTree segmentada e IVF_RQ, com arquitetura de armazenamento em duas etapas e versionamento Git-like. O Gravitino 1.1.0 (19 de dezembro de 2025) foi o primeiro a integrar nativamente o serviço REST do Lance ao lado do Iceberg REST Catalog, permitindo governança unificada via RBAC, auditoria centralizada e namespace único, mas exigindo ainda configurações distintas no Spark para cada formato.

A versão 1.2.0 do Gravitino (13 de março de 2026) trouxe o Serviço de Manutenção de Tabela (TMS), aprimoramentos no desempenho do Iceberg REST Catalog e descarga de planejamento de varredura para o servidor, reduzindo latência. Apesar disso, persistem desafios operacionais reais: divergências na diferenciação de maiúsculas em enums, reescritas manuais de JARs, incompatibilidades entre clientes Iceberg e Lance ao compartilhar o mesmo endpoint Gravitino, e a ausência de um driver universal que abstraia automaticamente as diferenças de fluxo de commit, Iceberg usa transações atômicas baseadas em snapshots, enquanto o Lance opera com cópias zero e atualizações incrementais de metadados embutidos.

Por que isso importa

Essa integração é crítica porque resolve a fragmentação estrutural de arquiteturas Lakehouse: empresas mantêm hoje múltiplos catálogos (Hive Metastore, Glue, Iceberg REST, PostgreSQL) e formatos (Iceberg, Hudi, Delta, Lance), gerando silos de governança, duplicação de políticas de acesso e falhas de conformidade. Com o Gravitino, uma única política RBAC aplicada no nível do metadata lake se propaga automaticamente para tabelas Iceberg no S3 e datasets Lance em GCS, sem alteração nos motores. Isso permite auditoria unificada de acessos a dados analíticos (via Iceberg) e vetoriais (via Lance), essencial para compliance com LGPD, PCI-DSS e regulamentações de IA. Além disso, o suporte nativo ao Catálogo Genérico de Lakehouse (desde Gravitino 1.1.0) já permite consultas federadas entre Iceberg e Lance no Trino ou Spark, desde que configurados corretamente, antecipando o cenário de 'um dado, múltiplas cargas de trabalho': SQL, BI, notebooks e agentes de IA com acesso semântico consistente.

Impacto para desenvolvedores

Para engenheiros de dados e desenvolvedores de IA, o Gravitino reduz a complexidade operacional de manter múltiplos catálogos, mas exige adaptação técnica imediata: é necessário configurar separadamente os drivers Iceberg REST e Lance REST no Spark, ajustar jars compatíveis com as versões específicas do Gravitino (1.1.0+ para Lance, 1.2.0+ para otimizações de varredura), e lidar com incompatibilidades de enumeração (ex.: 'iceberg' vs 'ICEBERG' em propriedades de configuração). A ausência de um driver unificado significa que queries federadas exigem conhecimento explícito dos esquemas de namespace do Gravitino, por exemplo, 'gravitino.iceberg_db.table' versus 'gravitino.lance_db.dataset'. No entanto, o lançamento do Sistema de Ação Orientado por Metadados (Gravitino 1.0.0) e o Servidor MCP permitem que LLMs e agentes de IA interajam diretamente com metadados de Iceberg e Lance via API REST padronizada, abrindo caminho para automação de descoberta de dados, geração de queries SQL/Python e validação de lineage sem intervenção manual.

Perguntas frequentes

O que é o Gravitino 1.1.0 e quais são suas principais funcionalidades para Iceberg e Lance?

O Gravitino 1.1.0, lançado em 19 de dezembro de 2025, foi a primeira versão a incluir suporte nativo ao serviço REST do Lance, além de aprimorar a integração com o Iceberg REST Catalog. Ele introduziu o Catálogo Genérico de Lakehouse, que já suporta totalmente o formato Lance e está em fase de extensão para Iceberg e Hudi. Essa versão permite governança unificada, RBAC centralizado e consultas federadas entre tabelas Iceberg e datasets Lance através de um único endpoint.

Qual é a diferença entre Iceberg v3 e Lance em termos de arquitetura de commit e uso em produção?

O Iceberg v3 (disponível desde 7 de maio de 2026) utiliza commits atômicos baseados em snapshots e depende de um catálogo plugável no lado do cliente ou serviço REST para transações. Já o Lance opera com um fluxo de armazenamento em duas etapas, cópias zero e metadados embutidos com indexação ANN nativa (IVF_PQ, HNSW). Enquanto o Iceberg v3 prioriza confiabilidade analítica, o Lance prioriza baixa latência para busca vetorial e ML, e ambos exigem configurações distintas ao serem gerenciados pelo Gravitino.

Por que ainda é difícil fazer consultas federadas entre Iceberg e Lance usando o Gravitino?

Apesar do Gravitino oferecer um namespace unificado, motores como Spark exigem configurações separadas para os drivers Iceberg REST e Lance REST, com jars, versões de API e propriedades de enumeração (ex.: 'catalog-type') que não são interoperáveis. Não existe ainda um driver universal do Gravitino que abstrai essas diferenças, obrigando os desenvolvedores a manter duas cadeias de configuração distintas mesmo quando apontando para o mesmo servidor Gravitino.

Quando o Gravitino foi graduado como projeto Apache TLP e qual sua relevância para arquiteturas Lakehouse?

O Gravitino foi oficialmente graduado como Projeto de Nível Superior (TLP) da Apache em 3 de junho de 2025. Essa maturidade institucional valida sua capacidade de operar em escala empresarial, oferecendo um 'metadata lake' geo-distribuído e federado que une Iceberg, Lance, Hive, Glue e outros backends. É um pilar crítico para arquiteturas Lakehouse unificadas, pois resolve a fragmentação de governança, segurança e descoberta de dados entre cargas de trabalho analíticas e de IA.

Links relacionados

Fontes

mehulbatra.medium.comfonte original

Avalie este artigo:

Categoria: CEVIU Dados
Publicado: 11 de junho de 2026
Editoria: CEVIU Dados