Voltar

Dimensionamento Eficiente de Rollouts para Diffusion RL

O Sol-RL da NVIDIA introduz um framework de duas etapas que separa a exploração do treinamento, utilizando rollouts FP4 para gerar grandes conjuntos de candidatos e BF16 para atualizações seletivas de política. Essa abordagem reduziu os custos de compute, ao mesmo tempo em que melhorou o alinhamento e acelerou a convergência no pós-treinamento de modelos de difusão.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
10 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser