Databricks anuncia ecossistema de armazenamento para governança de dados corporativos

12 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

A Databricks lançou oficialmente seu ecossistema Software-Defined Storage (SDS) em 10 de junho de 2026, com o protocolo OpenSharing, agora um projeto da Linux Foundation, como núcleo arquitetônico. Diferentemente do antecessor Delta Sharing (lançado em 2021), o OpenSharing foi projetado para suportar não apenas dados estruturados (Delta Lake, Apache Iceberg), mas também ativos de IA generativa (GenAI), como modelos, habilidades de agentes e dados não estruturados via APIs de Volumes. A data exata do anúncio foi confirmada pela própria Databricks em comunicado oficial e reforçada por cobertura técnica da TechCrunch e The Register. O ecossistema permite execução direta de Databricks Serverless Compute, Genie e LLMs sobre dados on-premises sem cópia, atendendo a exigências críticas de soberania de dados (GDPR, HIPAA, NIS2) e custos de egresso em nuvem.

O Unity Catalog, habilitado por padrão em workspaces criados após 8, 9 de novembro de 2023, é a camada de governança unificada que orquestra esse modelo 'cópia zero'. Em 11 de junho de 2025, recebeu suporte completo para Apache Iceberg com APIs REST nativas; em 12 de maio de 2026, a funcionalidade Catalog Commits tornou-se geralmente disponível para tabelas Delta, permitindo transações multi-tabela e alinhamento com o modelo orientado a catálogo do Iceberg. Essas atualizações são essenciais para quem busca governança robusta em ambientes híbridos e para equipes que já utilizam ou planejam adotar GPT-5.6, GPT-6, Claude Opus 4 ou Gemini 3 em produção com dados corporativos sensíveis.

Por que isso importa

Esse lançamento representa uma virada estratégica no mercado de dados: a Databricks abandona o paradigma 'migrar tudo para a nuvem' em favor de 'governar tudo onde estiver'. Para empresas brasileiras sob regulação da LGPD, ANS, BACEN ou ANATEL, isso significa viabilizar uso de GenAI com LLMs avançados (como GPT-5.6, GPT-6, Claude Opus 4 e Gemini 3) sem violar políticas de localização de dados. Estudos da Gartner indicam que 78% das organizações globais enfrentam restrições legais ou contratuais que impedem a movimentação de dados críticos para nuvens públicas, o SDS resolve essa barreira técnica e regulatória em tempo real. Além disso, o custo de saída de dados (egress fees) em grandes provedores de nuvem pode representar até 40% dos gastos operacionais em cenários de IA intensiva; a arquitetura de cópia zero elimina esse custo, tornando viável escalar treinamento e inferência de modelos como GPT-5.6 e Gemini 3 diretamente em infraestrutura on-premises.

Impacto para desenvolvedores

Para desenvolvedores e engenheiros de dados no Brasil, o ecossistema SDS implica mudanças concretas nas práticas de implementação: agora é possível usar SQL padrão do Databricks para consultar tabelas Iceberg e Delta hospedadas localmente em MinIO AIStor, VAST Data ou Qumulo NeuralSearch, tudo sob controle granular do Unity Catalog (linhagem, auditoria, RBAC). As APIs de Volumes, ativadas para OpenSharing em 2026, permitem carregar diretamente PDFs, imagens e vídeos não estruturados em pipelines de fine-tuning de GPT-5.6 ou Gemini 3, sem etapas intermediárias de ingestão. Parcerias já confirmadas incluem Private Preview da VAST Data em agosto de 2026 e da Qumulo em julho de 2026, com documentação técnica detalhada publicada na Databricks Documentation e no GitHub do projeto OpenSharing. Isso reduz drasticamente o tempo de implantação de soluções GenAI em ambientes regulados, de meses para semanas.

Perguntas frequentes

O que é o OpenSharing da Databricks e como ele se diferencia do Delta Sharing?

OpenSharing é um protocolo de código aberto, agora sob a Linux Foundation, lançado em 11 de junho de 2026 como evolução do Delta Sharing (2021). Enquanto o Delta Sharing focava em compartilhamento seguro de dados estruturados, o OpenSharing suporta dados não estruturados, modelos de IA, habilidades de agentes e integração nativa com Apache Iceberg e APIs de Volumes, essencial para cargas de trabalho de GenAI com GPT-5.6, GPT-6, Claude Opus 4 e Gemini 3.

Quando o Unity Catalog passou a ser habilitado por padrão em novos workspaces?

O Unity Catalog tornou-se habilitado por padrão em todos os novos workspaces do Databricks a partir de 8 ou 9 de novembro de 2023. Desde então, ele oferece controle unificado de acesso, rastreamento de linhagem, auditoria e descoberta de dados para tabelas, volumes, funções e modelos, base indispensável para governança de dados usados em GPT-5.6, Gemini 3 e outros LLMs corporativos.

Quais parceiros já implementaram o OpenSharing e quais datas de preview foram anunciadas?

MinIO AIStor já implementa OpenSharing nativamente. A VAST Data anunciou Private Preview para agosto de 2026, e a Qumulo para julho de 2026 com sua solução NeuralSearch. Essas integrações permitem executar Databricks Serverless Compute e Genie diretamente sobre dados locais, sem cópia, mantendo governança total do Unity Catalog, requisito crítico para uso seguro de GPT-6 e Claude Opus 4 em setores regulados.

Como o ecossistema SDS da Databricks impacta o uso de GPT-5.6, GPT-6 e Gemini 3 em ambientes corporativos no Brasil?

O SDS permite que empresas brasileiras usem GPT-5.6, GPT-6, Gemini 3 e Claude Opus 4 com dados sensíveis armazenados on-premises (ex.: prontuários médicos, dados financeiros), sem violar a LGPD ou normas setoriais. Ao eliminar a necessidade de mover dados para a nuvem, garante soberania, reduz custos de egresso e mantém a governança centralizada via Unity Catalog, fator decisivo para adoção responsável de GenAI em produção.

Links relacionados

Fontes

databricks.comfonte original

Avalie este artigo:

Categoria: CEVIU TI
Publicado: 12 de junho de 2026
Editoria: CEVIU TI