Google DeepMind: RLHF Online com Eficiência de Dados 10x Maior
Um algoritmo de RLHF online desenvolvido pelo Google DeepMind atualizou incrementalmente modelos de recompensa e de linguagem, alcançando ganhos de eficiência de dados superiores a 10x . Esse avanço foi possível através da modelagem de incerteza e da exploração direcionada por informação .
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 20 de março de 2026
- Fonte
- CEVIU IA
