Prompts Compostos com RLVR
A metodologia Composition-RL reutilizou prompts "fáceis demais" com taxa de aprovação 1, combinando automaticamente múltiplos problemas em novas questões verificáveis para o treinamento de RLVR. Em modelos de 4B a 30B de parâmetros, a abordagem demonstrou melhoria no raciocínio em comparação com o treinamento no dataset original.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 16 de fevereiro de 2026
- Fonte
- CEVIU IA
