Dimensionamento Eficiente de Rollouts para Diffusion RL
O Sol-RL da NVIDIA introduz um framework de duas etapas que separa a exploração do treinamento, utilizando rollouts FP4 para gerar grandes conjuntos de candidatos e BF16 para atualizações seletivas de política. Essa abordagem reduziu os custos de compute, ao mesmo tempo em que melhorou o alinhamento e acelerou a convergência no pós-treinamento de modelos de difusão.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 10 de abril de 2026
- Fonte
- CEVIU IA
