Prevendo Quando o Treinamento de RL Quebra a Monitorabilidade da Cadeia de Pensamento
Pesquisadores propõem um framework que prevê quando o treinamento de RL degrada a monitorabilidade da Cadeia de Pensamento (CoT) através do exame de conflitos de recompensas. Eles categorizaram recompensas como "Em Conflito", "Ortogonal" ou "Alinhado", prevendo seu impacto na transparência de CoT. Testes empíricos confirmaram a precisão do framework, mostrando que recompensas "Em Conflito" reduzem a transparência, enquanto recompensas "Ortogonal" e "Alinhado" a mantêm.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 04 de abril de 2026
- Fonte
- CEVIU IA
