Destilação On-Policy: Um Novo Paradigma para Treinamento de Modelos Aluno

26 de maio de 2026

A destilação on-policy treina um modelo aluno usando trajetórias amostradas de sua própria policy, enquanto um modelo professor fornece supervisão densa em nível de token por meio de regularização baseada em KL. Isso resolve a incompatibilidade de distribuição entre treinamento e inferência que afeta os métodos off-policy. Sua formulação canônica unifica as perdas forward-KL, reverse-KL e JSD, com a reverse-KL emergindo como o padrão para alunos menores em busca de modos específicos. A técnica pode ser implementada com uma simples troca de código do modelo regularizador em um stack de RL como Tinker.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 26 de maio de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?