Zerobus Ingest da Databricks entra em produção: streaming serverless que ingere 1 PB em menos de 24 horas

15 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Zerobus Ingest não é só mais um conector: é a primeira camada de ingestão *serverless nativa* do Lakehouse que elimina o message broker como componente obrigatório, e isso muda a arquitetura de streaming em produção. Em vez de forçar times a operar clusters Kafka, gerenciar offsets, lidar com backpressure ou sincronizar schemas entre producers e consumers, o Zerobus aceita dados diretamente via gRPC ou REST (beta), ordena os eventos no stream com garantia de monotonicidade e escreve zero-copy em Delta tables já sob governança do Unity Catalog. O parser protobuf em Rust, com descritores dinâmicos, dispensa compilação prévia de .proto, essencial para pipelines de IoT ou telemetria onde o schema evolui diariamente.

A latência de 5 segundos até a consulta é possível porque o serviço usa um write-ahead log otimizado para escrita sequencial em nuvem, sem intermediários. Isso alinha-se diretamente com o Real-Time Mode (RTM) do Spark Structured Streaming, lançado em março de 2026: agora você tem uma cadeia completa, ingestão com garantia de ordem e baixa latência, processamento com milissegundos no RTM e entrega governada em Delta, tudo dentro do mesmo plano de controle, sem trocas de formato, sem cópias desnecessárias e sem silos de metadados.

O que mudou

Em abril, o Databricks ainda dependia de Kafka ou Flink para ingestão pesada em tempo real. Hoje, o Zerobus Ingest entrega throughput de 12 GB/s em uma única tabela Delta, número inédito para um serviço serverless. O que era rumor em maio (sobre 'ingestão sem brokers') virou GA com SLA explícito: 5 s de latência, 12 milhões de linhas/s, suporte a milhares de writers concorrentes. Também mudou a abordagem de schema: antes, Iceberg v3 exigia definição estática para VARIANT; agora, o Zerobus lida com protobuf dinâmico *sem compilação*, fechando a lacuna entre flexibilidade de dados semiestruturados e performance de colunas fortemente tipadas.

Por que isso importa

Time-to-insight cai de horas para segundos, mas o ganho real está na redução de complexidade operacional. Equipes não precisam mais manter três stacks distintas: Kafka para ingestão, Flink/Spark para processamento e Delta para armazenamento. Com Zerobus + RTM + Lakebase branching, você constrói um pipeline de dados em tempo real com menos de 20 linhas de código Python, testável em ambiente isolado via branch de banco de dados (lançado em 1º/06) e auditável com lineage granular desde o primeiro byte. Isso reduz o custo total de propriedade de streaming em até 40%, segundo benchmarks internos da Databricks citados em eventos recentes da Data+AI Summit 2026.

Linha do tempo

19/03/2026
Disponibilidade geral do Real-Time Mode (RTM) para Spark Structured Streaming
10/04/2026
Public preview do Apache Iceberg v3 com Row Lineage e Deletion Vectors
23/04/2026
Lançamento da plataforma 'Basement' com Cloudflare R2 e Iceberg
06/05/2026
Reestruturação da infraestrutura de monitoramento para 10 trilhões de amostras/dia com Pantheo
01/06/2026
Branching de banco de dados no Lakebase com cópias instantâneas
08/06/2026
Deep dive sobre Apache Arrow Flight como padrão de movimentação de dados colunares
15/06/2026
Disponibilidade geral do Zerobus Ingest, serviço de streaming serverless com 12 GB/s em Delta

Perguntas frequentes

O Zerobus Ingest substitui o Kafka completamente?

Sim, para cenários onde você controla os producers e prioriza simplicidade, baixa latência e integração nativa com o Lakehouse. Ele não replica funcionalidades avançadas de Kafka como consumidores compartilhados com offset manual ou reprocessamento arbitrário, mas oferece garantias equivalentes de ordem e durabilidade com menos componentes.

Como funciona a governança de dados com Zerobus se não há Kafka?

Todos os dados vão direto para tabelas Delta com Unity Catalog ativado. Schema inference acontece no momento da escrita, com versionamento automático. Row Lineage do Iceberg v3 (lançado em 10/04) rastreia origem, transformações e destino, mesmo sem intermediários.

É possível usar Zerobus com fontes que só falam Kafka Producer API?

Ainda não nativamente, mas o roadmap prevê suporte à API Kafka Producer em breve. Até lá, você pode usar um adaptador leve em Rust ou Go que converte Kafka Producer calls para gRPC do Zerobus, aproveitando o parser zero-copy já existente.

Quanto custa rodar Zerobus Ingest em produção?

Não há custo fixo por cluster ou instância. Você paga por volume ingerido (USD por TB) e por tempo de computação efetivo no parsing e escrita. Segundo a Databricks, o custo médio é 35% menor que uma stack Kafka + Flink + Delta equivalente, considerando operação, licenças e overhead de engenharia.

Links relacionados

🌿Habilitando o desenvolvimento evolutivo de bancos de dados: branching com Lakebase

Fontes

databricks.comfonte original

Avalie este artigo:

Categoria: CEVIU DevOps
Publicado: 15 de junho de 2026
Editoria: CEVIU DevOps