Muitos Pull Requests Aprovados pelo SWE-bench Não Seriam Integrados ao `main`

12 de março de 2026

Um estudo recente da METR evidenciou uma lacuna crucial entre o código gerado por IA que obtém aprovação em benchmarks automatizados e a sua efetiva aceitação por mantenedores humanos. Aproximadamente metade dos Pull Requests (PRs) criados por IA, que passaram nos testes automatizados do SWE-bench, foram posteriormente rejeitados pelos responsáveis pelos repositórios, mesmo após considerar e ajustar o "ruído de revisão". As justificativas mais comuns para as rejeições incluíam problemas como baixa qualidade de código, introdução de quebras em funcionalidades existentes ou falhas diretas na funcionalidade central do software, sublinhando a necessidade de aprimorar a capacidade da IA em gerar soluções robustas e integráveis.

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 12 de março de 2026
Fonte: CEVIU Web Dev

Quer receber mais sobre CEVIU Web Dev?