ZPPO usa 'replay buffer' para reforçar treino em perguntas difíceis, e melhorar precisão
Aprofundamento CEVIU
Aprofundamento
O ZPPO não é só mais um método de fine-tuning: ele reinterpreta o conceito pedagógico da Zona de Desenvolvimento Proximal (ZDP), de Vygotsky, como uma métrica operacional de rollout accuracy. Em vez de tratar perguntas difíceis como ruído a ser descartado (como fazem muitos RLs com baixa taxa de sucesso inicial), o ZPPO as classifica em três zonas baseadas na precisão dos rollouts do modelo: 'não consegue nem com ajuda' (rollout = 0%), 'consegue com ajuda' (ZDP ativa, rollout baixo mas recuperável) e 'consegue sozinho'. Só as do meio entram no replay buffer, e ali são revisitadas com BCQ (Bootstrapped Candidate Query) e NCQ (Negative Candidate Query), forçando o modelo a comparar respostas corretas e incorretas geradas por ele mesmo, não por um professor.
Isso evita dois erros clássicos: o overfitting do distillation (que copia logits do teacher) e o policy drift do RL com teacher injection. A técnica roda inteiramente em Qwen3.5, sem necessidade de reward model ou rollout complexo, o que reduz custo computacional e aumenta reprodutibilidade. É uma ponte entre pedagogia cognitiva e engenharia de treino, não uma simples adaptação de DQN ou PPO para LLMs.
O que mudou
A cobertura anterior do CEVIU sobre RL em modelos de busca (2026-04-23) já apontava limitações críticas: RL falha em perguntas cuja rollout accuracy é próxima de zero, e métodos que injetam respostas do teacher prejudicam generalização. O ZPPO resolve exatamente isso, não com mais dados ou maior escala, mas com uma mudança estrutural no fluxo de treino: armazenar, reclassificar e revisitar perguntas difíceis *com base em seu comportamento real no rollout*, não em heurísticas estáticas. Também vai além do Sleep do Google (2026-06-04): enquanto Sleep usa replay para consolidar conhecimento in-context, o ZPPO usa replay para *corrigir falhas de raciocínio em tempo real*, com feedback explícito de candidatos positivos e negativos gerados pelo próprio modelo.
Por que isso importa
Modelos que aprendem apenas com exemplos fáceis ou com cópias de professores tendem a falhar em cenários reais, como diagnóstico médico, análise jurídica ou depuração de código, onde a dificuldade não é uniforme e o erro é sistêmico. O ZPPO mostra que é possível melhorar precisão em tarefas de raciocínio profundo sem sacrificar generalização, e sem depender de infraestrutura pesada de RL. Isso torna o fine-tuning mais acessível para equipes menores e abre caminho para treinos adaptativos em tempo real, onde o modelo decide, dinamicamente, quais perguntas merecem revisão, como um estudante que identifica seus próprios pontos fracos.
Linha do tempo
CEVIU reporta limitações do RL em modelos de busca: falha em perguntas com rollout accuracy próxima de zero
CEVIU cobre o Sleep do Google, que usa replay para consolidação de memória in-context
Lançamento do ZPPO, que usa replay buffer para reforço seletivo em perguntas difíceis com base em rollout accuracy
Perguntas frequentes
O ZPPO substitui o Reinforcement Learning tradicional?
Não. Ele é uma alternativa ao RL *para casos específicos*: quando o rollout accuracy é muito baixo para gerar sinal útil. Funciona como um pré-processador inteligente de exemplos difíceis antes do RL, ou como substituto em setups que não suportam reward modeling.
Como o ZPPO se diferencia do BCQ usado em RL off-policy?
O BCQ original extrai ações plausíveis de um buffer de transições. No ZPPO, BCQ opera sobre *candidatos de resposta gerados pelo próprio modelo*, sem dependência de ações anteriores. É um uso conceitual novo: não para explorar estados, mas para diagnosticar padrões de erro no raciocínio.
Preciso de um modelo professor para usar o ZPPO?
Não. O ZPPO não requer teacher logits nem respostas externas. Ele gera os dois candidatos (correto e incorreto) a partir das saídas do próprio modelo em múltiplas tentativas, o que o torna auto-supervisionado e aplicável mesmo em ambientes sem acesso a modelos maiores.
O replay buffer do ZPPO é igual ao do Sleep do Google?
Não. O Sleep usa replay para distillation de memória de curto prazo para parâmetros de longo prazo. O ZPPO usa replay para *reforço seletivo de raciocínio*, com mecanismos ativos de comparação entre candidatos e reavaliação crítica do próprio output, é um loop de correção, não de consolidação.
Fontes
- byungkwanlee.github.iofonte original
- Categoria
- CEVIU IA
- Publicado
- 19 de junho de 2026
- Editoria
- CEVIU IA

