Por que trocamos o data lake estilo Hive pelo Apache Iceberg
Aprofundamento CEVIU
Aprofundamento
A migração descrita na notícia não é só uma troca de formato, é um salto arquitetural. Enquanto o antigo data lake estilo Hive dependia de convenções de diretório, partições em strings e metadados frágeis no Glue Catalog (que não garantem atomicidade nem evolução segura de schema), o Iceberg impõe uma camada de transações ACID sobre o S3. Isso significa que cada commit é atômico, cada alteração de schema é versionada sem reescrita de dados e cada consulta pode navegar entre snapshots com time travel confiável, tudo sem depender de motores específicos.
O suporte expandido da AWS ao Iceberg inclui agora o Amazon S3 Tables, serviço gerenciado que automatiza compactação, expiração de snapshots e otimização de metadados. Relatórios indicam até 10x mais transações por segundo comparado a implantações auto-gerenciadas. E a integração com Iceberg v3, disponível desde novembro de 2025, traz Deletion Vectors (bitmap eficiente para deletes) e Row Lineage, funcionalidades críticas para pipelines de qualidade e governança que o Hive simplesmente não oferece.
O que mudou
Em abril de 2026, o CEVIU destacou o Iceberg v3 em preview no Databricks, ainda experimental, sem suporte completo em produção na AWS. Em maio, a versão 1.11.0 entrou em GA com registerView, criptografia de tabela via KMS e planejamento de scans no lado do catálogo REST. Agora, em junho de 2026, a equipe migrou usando exatamente essa versão estável, aproveitando recursos que antes eram apenas promessas: time travel nativo com controle de retenção de snapshots, pruning baseado em estatísticas reais (não em heurísticas de partição), e evolução de schema com backward/forward compatibility real, sem quebrar queries existentes.
Por que isso importa
Isso muda a forma como equipes constroem pipelines de dados. Com Iceberg, você não precisa mais escolher entre desempenho e governança: o pruning inteligente reduz custos de leitura em consultas analíticas, enquanto os snapshots e lineage permitem rastrear impacto de mudanças em relatórios críticos. A interoperabilidade com Spark, Trino, Flink e agora até BigQuery e Snowflake (via Iceberg v3) elimina silos de ferramentas. E com o Iceberg C++ 0.3.0 e Go 0.6.0 lançados em junho, a plataforma deixa de ser só uma camada para SQL e passa a ser um runtime de dados para aplicações de ML e IA que exigem acesso direto, seguro e consistente aos dados brutos.
Linha do tempo
Databricks lança suporte em public preview para Apache Iceberg v3 com Row Lineage e Deletion Vectors
CEVIU mostra viabilidade de lakehouse Iceberg com Cloudflare R2 e R2 Data Catalog
Netflix substitui motor de movimentação de dados Cassandra por pipeline Iceberg sobre S3
Lançamento do Apache Iceberg 1.11.0 com registerView, criptografia de tabela e suporte a Spark 4.1
Equipe migra data lake estilo Hive para Apache Iceberg aproveitando S3 Tables e Iceberg v3
Perguntas frequentes
Iceberg substitui o Glue Catalog? Preciso migrar meu catálogo?
Não substitui, integra. O Iceberg pode usar o Glue Catalog como backend, mas com extensões: ele adiciona commits atômicos, snapshots e schema evolution que o Glue sozinho não oferece. A migração envolve converter metadados e ajustar a forma como tabelas são registradas, não descartar o catálogo.
O que muda no dia a dia de um engenheiro de dados com Iceberg?
Você passa a usar comandos como 'REFRESH TABLE' para atualizar snapshots, 'ROLLBACK TO SNAPSHOT' para recuperação rápida e 'ALTER TABLE ... ADD COLUMN' sem temer breaking changes. Queries com LIMIT ou filtros em colunas particionadas executam mais rápido porque o Iceberg faz pruning no nível de arquivo, não de diretório.
Deletion Vectors são compatíveis com minhas cargas atuais de UPSERT?
Sim, e é a grande vantagem. Ao invés de gerar múltiplos pequenos arquivos de delete (que degradam performance), o Iceberg v3 anexa um bitmap a cada arquivo de dados. Isso mantém alta taxa de ingestão mesmo com atualizações frequentes, especialmente em tabelas de eventos ou CDC.
Posso usar Iceberg se minha stack ainda roda Spark 3.x?
Pode, mas perde funcionalidades. A versão 1.11.0 exige Spark 4.1 para suporte completo a registerView, LIMIT pushdown e planejamento remoto de scans. Se estiver preso no Spark 3.5, use Iceberg 1.10, mas sem criptografia de tabela ou Deletion Vectors nativos.
Fontes
- medium.comfonte original
- Categoria
- CEVIU Dados
- Publicado
- 18 de junho de 2026
- Editoria
- CEVIU Dados
