Quando LLMs Conseguem Raciocinar com Supervisão Fraca?
Este estudo revelou que modelos com fases de pré-saturação estendidas conseguem generalizar bem a partir de exemplos mínimos e são mais tolerantes a ruído, ao contrário de modelos que saturam rapidamente e falham nesse aspecto. A questão central identificada é o raciocínio infiel, onde os modelos tendem a memorizar respostas em vez de aprender um raciocínio que possa ser transferido para outras situações. O pre-training contínuo e o supervised fine-tuning, aplicados a rastros de raciocínio explícitos, mostram-se eficazes para aprimorar a fidelidade do raciocínio e a capacidade de generalização sob supervisão fraca.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 22 de abril de 2026
- Fonte
- CEVIU IA
