Voltar

Prevendo Quando o Treinamento de RL Quebra a Monitorabilidade da Cadeia de Pensamento

Pesquisadores propõem um framework que prevê quando o treinamento de RL degrada a monitorabilidade da Cadeia de Pensamento (CoT) através do exame de conflitos de recompensas. Eles categorizaram recompensas como "Em Conflito", "Ortogonal" ou "Alinhado", prevendo seu impacto na transparência de CoT. Testes empíricos confirmaram a precisão do framework, mostrando que recompensas "Em Conflito" reduzem a transparência, enquanto recompensas "Ortogonal" e "Alinhado" a mantêm.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
04 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser