SFT, RL e On-Policy Distillation Através de uma Lente Distributiva

11 de maio de 2026

Diferentes métodos de pós-treinamento, como SFT, RL e On-Policy Distillation, remodelam a distribuição de um modelo de maneiras distintas, impactando o desempenho e o risco de catastrophic forgetting. A RL atualiza políticas usando recompensas de amostras da política atual, promovendo o desempenho da tarefa enquanto minimiza o esquecimento, ao contrário do SFT, que tende a puxar para dados externos, arriscando as capacidades existentes.

Experimentos demonstram que o On-Policy Distillation pode superar seus teachers, sugerindo que a amostragem de dados on-policy preserva crucialmente as capacidades, tornando-a um ingrediente chave para futuros designs de algoritmos.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 11 de maio de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?