Voltar

Por Que Diffusion Language Models (dLLMs) Colapsam em Reinforcement Learning (RL)

Os Diffusion Language Models (dLLMs) sofrem colapso durante o treinamento em Reinforcement Learning (RL) porque sua log-likelihood precisa ser estimada usando amostragem de Monte Carlo de alta variância, o que gera importance ratios ruidosos. Essas proporções ruidosas induzem picos de gradiente que impulsionam o policy drift em um loop de feedback positivo, um problema que métodos AR tradicionais, como o clipping condicional, não conseguem resolver. O recém-proposto framework StableDRL estabiliza o processo de atualização ao combinar o clipping incondicional para suprimir valores extremos com a autonormalização ligada à informação efetiva no batch.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
16 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Por Que Diffusion Language Models (dLLMs) Colapsam em Reinforcement Learning (RL) — CEVIU News