CEVIU Logo
Voltar

Como a Guidewire construiu uma plataforma federada de queries para ML em escala, e onde a governança de dados ficou exposta

Aprofundamento CEVIU

Aprofundamento

A Guidewire usou o Trino para federar queries entre Iceberg, Redshift, OpenSearch e buckets S3 de clientes, mas não como um simples ‘SQL over everything’. A camada S3 do Trino lê diretamente os metadados da tabela (como o nome bruto do bucket) sem respeitar políticas de acesso baseadas em S3 Access Points. Isso quebra a governança multi-conta: quando uma política exige que o acesso ao bucket só ocorra via Access Point, o Trino falha, mesmo com ABAC no Lake Formation ativo. O problema não é falta de RBAC no Trino ou de ABAC no AWS, mas uma lacuna no nível de abstração do filesystem, o Trino ainda não suporta mapeamento de Access Points nativamente, conforme apontado em discussão pública no GitHub em fevereiro de 2026.

Isso contrasta com avanços recentes em governança federada: o Databricks Unity Catalog já aplica ABAC *durante o planejamento da query* em motores Iceberg externos; a Snowflake Horizon Catalog, lançada em junho de 2026, estende mascaramento de coluna e filtros de linha para motores compatíveis com Iceberg v3; e a Cloudera integrou Trino com Data Lineage em março de 2026, garantindo rastreamento completo mesmo em consultas cruzando fontes. A Guidewire está, portanto, na frente em escala, mas atrás em governança *operacional*, porque sua arquitetura pressupõe que o controle de acesso no S3 seja suficiente, ignorando que o motor de consulta precisa participar ativamente do fluxo de autorização.

O que mudou

Na cobertura anterior do CEVIU sobre Iceberg v3 (abril/2026), o foco era em features técnicas: Row Lineage, Deletion Vectors e tipo VARIANT. Agora, em junho/2026, a evolução não está apenas no formato da tabela, mas na forma como ele se integra à governança federada, com Unity Catalog, Horizon Catalog e Polaris operando como ‘camadas de decisão’ que interceptam queries antes da execução. A Guidewire, por usar Trino com catálogos Iceberg externos, fica fora desse ciclo: seu ABAC no Lake Formation protege o catálogo, mas não impede que o Trino leia objetos S3 sem filtragem de linha ou mascaramento, pois não há integração com Ranger ou Polaris. Ou seja: o que era uma questão de desempenho (v3) virou uma questão de controle (governança em tempo de execução).

Por que isso importa

Para equipes de dados que apostam em lakehouse federado, essa falha não é teórica: significa que dados sensíveis em buckets S3 podem ser expostos em consultas exploratórias de ML, mesmo com políticas rigorosas no Lake Formation. Não basta isolar tenants com catálogos, é preciso que o motor de consulta entenda e aplique regras de acesso *no nível do objeto*, não só no nível do catálogo. E isso exige integração com frameworks como Apache Ranger, Polaris ou Unity Catalog, não apenas configuração de RBAC no Trino. A lição prática é clara: em arquiteturas federadas, governança não é uma camada separada, é uma responsabilidade compartilhada entre catálogo, motor e infraestrutura de armazenamento.

Linha do tempo

  1. Databricks lança Iceberg v3 em public preview com Row Lineage e Deletion Vectors

  2. CEVIU detalha uso de Cloudflare R2 + R2 Data Catalog para Iceberg low-cost

  3. Halodoc lança framework de data profiling nativo no Airflow para governança escalável

  4. Cloudflare revela Town Lake e agente de IA Skipper com arquitetura unificada

  5. CEVIU cobre evolução do Zero Copy para File Federation no Salesforce Data 360 e governança unificada com Gravitino

  6. Guidewire divulga plataforma federada com Trino e expõe lacuna crítica de governança no S3

Perguntas frequentes

Por que o ABAC no Lake Formation não resolveu o problema de governança no S3 com Trino?

O Lake Formation controla acesso ao catálogo e às tabelas Iceberg, mas não interfere na leitura direta de objetos S3 pelo connector do Trino. Quando o Trino acessa o S3 via filesystem, ele ignora as políticas do Lake Formation e depende exclusivamente das permissões IAM do bucket, que, em ambientes multi-conta, exigem S3 Access Points, algo que o Trino ainda não suporta nativamente.

Qual é a diferença entre RBAC no Trino e ABAC no Lake Formation nesse cenário?

O RBAC no Trino controla quem pode executar queries em quais schemas ou tabelas. Já o ABAC no Lake Formation define quem pode acessar quais recursos com base em atributos (ex: 'tenant=clienteX'). Mas nenhum dos dois consegue aplicar filtros de linha ou mascaramento de coluna no S3, isso exige integração com ferramentas como Ranger ou Polaris, que operam no tempo de execução da query.

O Iceberg v3 resolve esse gap de governança federada?

Não diretamente. O Iceberg v3 traz Row Lineage e Deletion Vectors, mas não adiciona mecanismos de autorização. Sua governança real depende do catálogo que o gerencia: Unity Catalog (Databricks), Horizon Catalog (Snowflake) ou Polaris (comunitário). Sem essa integração, o Iceberg v3 sozinho não protege dados em consultas federadas via Trino.

Quais alternativas existem para fechar essa lacuna hoje?

Três caminhos práticos: (1) Usar Trino com Apache Ranger (como fez a Qubole em maio/2025); (2) Migrar para motores com governança nativa, como Databricks com Unity Catalog + Iceberg gerenciado; ou (3) Adotar proxies de acesso como S3 Access Points com custom connectors, mas isso exige desenvolvimento próprio e não é suportado oficialmente pelo Trino.

Fontes

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Dados
Publicado
18 de junho de 2026
Editoria
CEVIU Dados

Quer receber mais sobre CEVIU Dados?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser