SFT, RL e On-Policy Distillation Através de uma Lente Distributiva
Diferentes métodos de pós-treinamento, como SFT, RL e On-Policy Distillation, remodelam a distribuição de um modelo de maneiras distintas, impactando o desempenho e o risco de catastrophic forgetting. A RL atualiza políticas usando recompensas de amostras da política atual, promovendo o desempenho da tarefa enquanto minimiza o esquecimento, ao contrário do SFT, que tende a puxar para dados externos, arriscando as capacidades existentes.
Experimentos demonstram que o On-Policy Distillation pode superar seus teachers, sugerindo que a amostragem de dados on-policy preserva crucialmente as capacidades, tornando-a um ingrediente chave para futuros designs de algoritmos.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 11 de maio de 2026
- Fonte
- CEVIU IA
