Voltar

SWE-bench Verified Deixa de Ser Métrica de Codificação de Frontier

O SWE-bench Verified não mede mais de forma confiável o progresso em codificação de frontier. Isso se deve a falhas nos testes de muitas tarefas, que rejeitavam correções corretas, e à contaminação do benchmark, que transformou a exposição durante o treinamento em um fator significativo para as pontuações.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
24 de fevereiro de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
SWE-bench Verified Deixa de Ser Métrica de Codificação de Frontier — CEVIU News