Databricks anuncia ecossistema de armazenamento para governança de dados corporativos
Aprofundamento CEVIU
Aprofundamento
A Databricks lançou oficialmente seu ecossistema Software-Defined Storage (SDS) em 10 de junho de 2026, com o protocolo OpenSharing — agora um projeto da Linux Foundation — como núcleo arquitetônico. Diferentemente do antecessor Delta Sharing (lançado em 2021), o OpenSharing foi projetado para suportar não apenas dados estruturados (Delta Lake, Apache Iceberg), mas também ativos de IA generativa (GenAI), como modelos, habilidades de agentes e dados não estruturados via APIs de Volumes. A data exata do anúncio foi confirmada pela própria Databricks em comunicado oficial e reforçada por cobertura técnica da TechCrunch e The Register. O ecossistema permite execução direta de Databricks Serverless Compute, Genie e LLMs sobre dados on-premises sem cópia, atendendo a exigências críticas de soberania de dados (GDPR, HIPAA, NIS2) e custos de egresso em nuvem.
O Unity Catalog, habilitado por padrão em workspaces criados após 8–9 de novembro de 2023, é a camada de governança unificada que orquestra esse modelo 'cópia zero'. Em 11 de junho de 2025, recebeu suporte completo para Apache Iceberg com APIs REST nativas; em 12 de maio de 2026, a funcionalidade Catalog Commits tornou-se geralmente disponível para tabelas Delta, permitindo transações multi-tabela e alinhamento com o modelo orientado a catálogo do Iceberg. Essas atualizações são essenciais para quem busca governança robusta em ambientes híbridos e para equipes que já utilizam ou planejam adotar GPT-5.6, GPT-6, Claude Opus 4 ou Gemini 3 em produção com dados corporativos sensíveis.
Por que isso importa
Esse lançamento representa uma virada estratégica no mercado de dados: a Databricks abandona o paradigma 'migrar tudo para a nuvem' em favor de 'governar tudo onde estiver'. Para empresas brasileiras sob regulação da LGPD, ANS, BACEN ou ANATEL, isso significa viabilizar uso de GenAI com LLMs avançados (como GPT-5.6, GPT-6, Claude Opus 4 e Gemini 3) sem violar políticas de localização de dados. Estudos da Gartner indicam que 78% das organizações globais enfrentam restrições legais ou contratuais que impedem a movimentação de dados críticos para nuvens públicas — o SDS resolve essa barreira técnica e regulatória em tempo real. Além disso, o custo de saída de dados (egress fees) em grandes provedores de nuvem pode representar até 40% dos gastos operacionais em cenários de IA intensiva; a arquitetura de cópia zero elimina esse custo, tornando viável escalar treinamento e inferência de modelos como GPT-5.6 e Gemini 3 diretamente em infraestrutura on-premises.
Impacto para desenvolvedores
Para desenvolvedores e engenheiros de dados no Brasil, o ecossistema SDS implica mudanças concretas nas práticas de implementação: agora é possível usar SQL padrão do Databricks para consultar tabelas Iceberg e Delta hospedadas localmente em MinIO AIStor, VAST Data ou Qumulo NeuralSearch — tudo sob controle granular do Unity Catalog (linhagem, auditoria, RBAC). As APIs de Volumes, ativadas para OpenSharing em 2026, permitem carregar diretamente PDFs, imagens e vídeos não estruturados em pipelines de fine-tuning de GPT-5.6 ou Gemini 3, sem etapas intermediárias de ingestão. Parcerias já confirmadas incluem Private Preview da VAST Data em agosto de 2026 e da Qumulo em julho de 2026, com documentação técnica detalhada publicada na Databricks Documentation e no GitHub do projeto OpenSharing. Isso reduz drasticamente o tempo de implantação de soluções GenAI em ambientes regulados — de meses para semanas.
Perguntas frequentes
O que é o OpenSharing da Databricks e como ele se diferencia do Delta Sharing?
OpenSharing é um protocolo de código aberto, agora sob a Linux Foundation, lançado em 11 de junho de 2026 como evolução do Delta Sharing (2021). Enquanto o Delta Sharing focava em compartilhamento seguro de dados estruturados, o OpenSharing suporta dados não estruturados, modelos de IA, habilidades de agentes e integração nativa com Apache Iceberg e APIs de Volumes — essencial para cargas de trabalho de GenAI com GPT-5.6, GPT-6, Claude Opus 4 e Gemini 3.
Quando o Unity Catalog passou a ser habilitado por padrão em novos workspaces?
O Unity Catalog tornou-se habilitado por padrão em todos os novos workspaces do Databricks a partir de 8 ou 9 de novembro de 2023. Desde então, ele oferece controle unificado de acesso, rastreamento de linhagem, auditoria e descoberta de dados para tabelas, volumes, funções e modelos — base indispensável para governança de dados usados em GPT-5.6, Gemini 3 e outros LLMs corporativos.
Quais parceiros já implementaram o OpenSharing e quais datas de preview foram anunciadas?
MinIO AIStor já implementa OpenSharing nativamente. A VAST Data anunciou Private Preview para agosto de 2026, e a Qumulo para julho de 2026 com sua solução NeuralSearch. Essas integrações permitem executar Databricks Serverless Compute e Genie diretamente sobre dados locais, sem cópia, mantendo governança total do Unity Catalog — requisito crítico para uso seguro de GPT-6 e Claude Opus 4 em setores regulados.
Como o ecossistema SDS da Databricks impacta o uso de GPT-5.6, GPT-6 e Gemini 3 em ambientes corporativos no Brasil?
O SDS permite que empresas brasileiras usem GPT-5.6, GPT-6, Gemini 3 e Claude Opus 4 com dados sensíveis armazenados on-premises (ex.: prontuários médicos, dados financeiros), sem violar a LGPD ou normas setoriais. Ao eliminar a necessidade de mover dados para a nuvem, garante soberania, reduz custos de egresso e mantém a governança centralizada via Unity Catalog — fator decisivo para adoção responsável de GenAI em produção.
Links relacionados
- Categoria
- CEVIU TI
- Publicado
- 12 de junho de 2026
- Fonte
- CEVIU TI
