Destilação On-Policy: Um Novo Paradigma para Treinamento de Modelos Aluno
A destilação on-policy treina um modelo aluno usando trajetórias amostradas de sua própria policy, enquanto um modelo professor fornece supervisão densa em nível de token por meio de regularização baseada em KL. Isso resolve a incompatibilidade de distribuição entre treinamento e inferência que afeta os métodos off-policy. Sua formulação canônica unifica as perdas forward-KL, reverse-KL e JSD, com a reverse-KL emergindo como o padrão para alunos menores em busca de modos específicos. A técnica pode ser implementada com uma simples troca de código do modelo regularizador em um stack de RL como Tinker.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 26 de maio de 2026
- Fonte
- CEVIU IA
