👁️🗨️CEVIU IA
TIPSv2 da DeepMind: Novo Encoder de Visão-Linguagem Impulsiona Desempenho Multimodal
O TIPSv2 aprimora o pré-treinamento de visão-linguagem combinando distillation, objetivos self-supervised aprimorados e dados de legendas mais ricos. Os modelos resultantes alcançam um desempenho robusto em tarefas multimodais, com ganhos notáveis em zero-shot segmentation.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 21 de abril de 2026
- Fonte
- CEVIU IA
