Voltar

Destilação On-Policy: Um Novo Paradigma para Treinamento de Modelos Aluno

A destilação on-policy treina um modelo aluno usando trajetórias amostradas de sua própria policy, enquanto um modelo professor fornece supervisão densa em nível de token por meio de regularização baseada em KL. Isso resolve a incompatibilidade de distribuição entre treinamento e inferência que afeta os métodos off-policy. Sua formulação canônica unifica as perdas forward-KL, reverse-KL e JSD, com a reverse-KL emergindo como o padrão para alunos menores em busca de modos específicos. A técnica pode ser implementada com uma simples troca de código do modelo regularizador em um stack de RL como Tinker.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
26 de maio de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser