Por Que Diffusion Language Models (dLLMs) Colapsam em Reinforcement Learning (RL)
Os Diffusion Language Models (dLLMs) sofrem colapso durante o treinamento em Reinforcement Learning (RL) porque sua log-likelihood precisa ser estimada usando amostragem de Monte Carlo de alta variância, o que gera importance ratios ruidosos. Essas proporções ruidosas induzem picos de gradiente que impulsionam o policy drift em um loop de feedback positivo, um problema que métodos AR tradicionais, como o clipping condicional, não conseguem resolver. O recém-proposto framework StableDRL estabiliza o processo de atualização ao combinar o clipping incondicional para suprimir valores extremos com a autonormalização ligada à informação efetiva no batch.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 16 de abril de 2026
- Fonte
- CEVIU IA
