FLAT decodifica triangle splats diretamente dos latentes de video diffusion

25 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O FLAT representa uma mudança de paradigma na geração de cenas 3D a partir de modelos de difusão de vídeo. Em vez de gerar nuvens de pontos ou Gaussians volumétricas, que são comuns em pipelines feedforward como Instant-NGP ou Gaussian Splatting, o método decodifica diretamente splats triangulares alinhados à superfície, em uma única passagem. Isso elimina a necessidade de otimização pós-generação, um gargalo comum em abordagens anteriores.

Essa arquitetura aproveita a estrutura latente já codificada pelo modelo Wan-2.1, que contém informação multi-vista e temporal. O decoder FLAT não apenas extrai geometria explícita, mas faz isso com foco em fidelidade geométrica: triângulos são mais sensíveis à orientação do que Gaussians, o que melhora a consistência das normais superficiais entre visões diferentes. A renderização final usa motores simples baseados em triângulos, tornando o resultado leve e compatível com dispositivos móveis ou navegadores web.

Por que isso importa

A capacidade de gerar geometria explícita sem etapas de pós-processamento muda o jogo para aplicações práticas. Cenas geradas com FLAT podem ser usadas diretamente em simulações físicas rígidas, jogos, AR/VR e pipelines de produção 3D. Não há mais necessidade de reconstruir colisões separadamente. Além disso, o fato de funcionar sobre qualquer variantes finetuned do Wan-2.1 sem re-treinamento mostra escalabilidade real no uso industrial.

Isso também abre caminho para novos tipos de interação. Um usuário pode explorar uma cena 3D em um tablet apenas arrastando o dedo, sem depender de motores pesados. É um passo concreto rumo a geração de conteúdo 3D acessível, portável e funcional desde o início.

Linha do tempo

2026-06-25
Google apresenta FLAT, método que decodifica triangle splats diretamente dos latentes de video diffusion

Perguntas frequentes

FLAT substitui os modelos de geração de imagem tradicionais?

Não. Ele substitui apenas o decoder final. O modelo de difusão de vídeo continua gerando latentes. FLAT lê esses latentes e converte em geometria triangular. Pode ser usado com qualquer modelo base Wan-2.1.

Por que triângulos são melhores que Gaussians para esta tarefa?

Triângulos têm orientação definida e são mais sensíveis a mudanças de vista. Isso garante melhor fidelidade geométrica nas normais e vistas múltiplas. Também são mais fáceis de integrar em motores de física e renderização padrão.

É possível usar FLAT em jogos ou simulações reais?

Sim. As saídas são triângulos explícitos, opacos após refinamento leve. Isso permite uso direto em simulações rígidas, como colisões, sem precisar de etapas adicionais de reconstrução.

O que é necessário para rodar FLAT?

Apenas um modelo Wan-2.1 finetuned e o decoder FLAT. Nenhuma rede generativa adicional. O resultado pode ser renderizado com qualquer sistema baseado em triângulos, inclusive em navegadores ou celulares.

Fontes

flat-splat.github.iofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 25 de junho de 2026
Editoria: CEVIU IA