Prevendo Quando o Treinamento de RL Quebra a Monitorabilidade da Cadeia de Pensamento

04 de abril de 2026

Pesquisadores propõem um framework que prevê quando o treinamento de RL degrada a monitorabilidade da Cadeia de Pensamento (CoT) através do exame de conflitos de recompensas. Eles categorizaram recompensas como "Em Conflito", "Ortogonal" ou "Alinhado", prevendo seu impacto na transparência de CoT. Testes empíricos confirmaram a precisão do framework, mostrando que recompensas "Em Conflito" reduzem a transparência, enquanto recompensas "Ortogonal" e "Alinhado" a mantêm.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 04 de abril de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?