Voltar

SFT, RL e On-Policy Distillation Através de uma Lente Distributiva

Diferentes métodos de pós-treinamento, como SFT, RL e On-Policy Distillation, remodelam a distribuição de um modelo de maneiras distintas, impactando o desempenho e o risco de catastrophic forgetting. A RL atualiza políticas usando recompensas de amostras da política atual, promovendo o desempenho da tarefa enquanto minimiza o esquecimento, ao contrário do SFT, que tende a puxar para dados externos, arriscando as capacidades existentes.

Experimentos demonstram que o On-Policy Distillation pode superar seus teachers, sugerindo que a amostragem de dados on-policy preserva crucialmente as capacidades, tornando-a um ingrediente chave para futuros designs de algoritmos.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
11 de maio de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser