Voltar
👁️‍🗨️CEVIU IA

TIPSv2 da DeepMind: Novo Encoder de Visão-Linguagem Impulsiona Desempenho Multimodal

O TIPSv2 aprimora o pré-treinamento de visão-linguagem combinando distillation, objetivos self-supervised aprimorados e dados de legendas mais ricos. Os modelos resultantes alcançam um desempenho robusto em tarefas multimodais, com ganhos notáveis em zero-shot segmentation.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
21 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser