SWE-bench Verified Deixa de Ser Métrica de Codificação de Frontier
O SWE-bench Verified não mede mais de forma confiável o progresso em codificação de frontier. Isso se deve a falhas nos testes de muitas tarefas, que rejeitavam correções corretas, e à contaminação do benchmark, que transformou a exposição durante o treinamento em um fator significativo para as pontuações.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 24 de fevereiro de 2026
- Fonte
- CEVIU IA
