Previsão de movimento 3D guiada por linguagem

19 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O MolmoMotion é um modelo de previsão de movimento 3D lançado oficialmente em 17 de junho de 2026 pelo Allen Institute for AI (AllenAI), com base no modelo multimodal Molmo 2. Diferente de modelos de percepção de movimento que analisam o passado, ele antecipa trajetórias futuras em espaço métrico tridimensional a partir de três entradas: um curto histórico de vídeo RGB, uma descrição textual da ação (ex.: 'gire o copo e coloque na prateleira') e um conjunto de pontos de consulta marcados no objeto, com suas coordenadas 3D iniciais conhecidas. A representação adotada é intencionalmente esparça e física: pontos fixos à superfície do objeto no referencial do mundo, não vinculados a templates pré-definidos (como corpos humanos ou mãos), nem afetados por mudanças de câmera.

A AllenAI desenvolveu duas arquiteturas distintas: MolmoMotion-AR, que gera coordenadas 3D como texto estruturado em ordem temporal (autoregressivo), e MolmoMotion-FM, que opera diretamente no espaço contínuo 3D via flow matching, ideal para capturar ambiguidade quando uma instrução permite múltiplas interpretações físicas válidas. Ambas foram treinadas com dados inéditos: o conjunto MolmoMotion-1M (1,16 milhão de vídeos, 736 tipos de movimento, 5,6 mil objetos) e avaliadas no benchmark PointMotionBench (2,7 mil clipes validados por humanos, cobrindo 111 categorias de objetos e 61 tipos de movimento).

Por que isso importa

Prever movimento 3D guiado por linguagem resolve um gargalo crítico entre compreensão visual e ação física real. Sistemas como robôs manipuladores precisam saber *como um objeto vai se mover* antes de tocar nele, não apenas onde ele está agora. O MolmoMotion demonstrou ganhos concretos nesse cenário: em testes com o framework DROID, políticas de controle construídas com ele alcançaram 76,3% de sucesso em tarefas de 'pick-and-place', contra 56,0% com Molmo 2; além disso, aprende mais rápido, atinge 51% de desempenho após 10 mil passos, enquanto Molmo 2 estagna em 19%. Em hardware real, iguala o erro L2 do Molmo 2 em 12 mil passos usando apenas ~2 mil. Isso reduz drasticamente o custo computacional e o tempo de treinamento para aplicações reais de robótica e simulação.

Impacto para desenvolvedores

Para desenvolvedores, o MolmoMotion oferece uma interface clara e reutilizável: entrada de vídeo + texto + pontos 2D/3D → saída de trajetórias 3D explícitas. Não exige renderização de frames nem modelagem de malhas, só coordenadas numéricas diretas, prontas para alimentar controladores de robô ou modelos de geração de vídeo condicionados por trajetória. As duas variantes permitem escolha técnica consciente: MolmoMotion-AR para cenários com movimentos bem definidos (ex.: rotação rígida de um copo), MolmoMotion-FM para casos com incerteza (ex.: 'empurre levemente o livro', direção e intensidade variáveis). A limitação prática é operacional: o modelo foi treinado com até oito pontos por objeto, suficiente para trajetórias úteis, mas insuficiente para capturar deformações complexas (como tecido ou líquido), exigindo adaptação caso o uso envolva geometria densa.

Perguntas frequentes

O que é o MolmoMotion?

O MolmoMotion é um modelo de previsão de movimento 3D lançado em 17 de junho de 2026 pelo Allen Institute for AI. Ele prevê trajetórias futuras em 3D de pontos marcados em objetos, a partir de um breve vídeo, uma instrução em linguagem natural e as posições iniciais desses pontos. Baseia-se no modelo multimodal Molmo 2 e foi projetado para aplicações como robótica e geração de vídeo condicionada por movimento.

Qual a diferença entre MolmoMotion-AR e MolmoMotion-FM?

MolmoMotion-AR é autoregressivo: gera coordenadas 3D como texto estruturado, passo a passo, favorecendo precisão em movimentos bem definidos. MolmoMotion-FM usa flow matching para prever trajetórias diretamente em espaço 3D contínuo, permitindo representar incerteza quando uma instrução admite múltiplas futuras plausíveis. As duas variantes são abertas e disponíveis no Hugging Face e GitHub da AllenAI.

O MolmoMotion funciona com qualquer objeto?

Sim, por design. Sua representação de movimento é class-agnostic: não depende de templates pré-definidos para corpos humanos, mãos ou objetos rígidos. Funciona com 5,6 mil objetos distintos no conjunto MolmoMotion-1M, incluindo frutas, utensílios, móveis e ferramentas. No entanto, sua capacidade de lidar com deformações complexas (como tecidos ou líquidos) é limitada pela quantidade de pontos de consulta usados no treinamento, até oito por objeto.

Onde posso acessar o código e os dados do MolmoMotion?

Todos os recursos estão abertos: os pesos do modelo estão no Hugging Face (coleção allenai/molmomotion), o código-fonte no GitHub (allenai/molmo-motion.git), o relatório técnico no site do AllenAI, o dataset MolmoMotion-1M no Hugging Face Datasets e o benchmark PointMotionBench na página oficial do projeto. Não há restrições de licença para uso acadêmico ou comercial, conforme divulgado pela AllenAI.

Fontes

huggingface.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 19 de junho de 2026
Editoria: CEVIU IA