Muitos Pull Requests Aprovados pelo SWE-bench Não Seriam Integrados ao `main`
Um estudo recente da METR evidenciou uma lacuna crucial entre o código gerado por IA que obtém aprovação em benchmarks automatizados e a sua efetiva aceitação por mantenedores humanos. Aproximadamente metade dos Pull Requests (PRs) criados por IA, que passaram nos testes automatizados do SWE-bench, foram posteriormente rejeitados pelos responsáveis pelos repositórios, mesmo após considerar e ajustar o "ruído de revisão". As justificativas mais comuns para as rejeições incluíam problemas como baixa qualidade de código, introdução de quebras em funcionalidades existentes ou falhas diretas na funcionalidade central do software, sublinhando a necessidade de aprimorar a capacidade da IA em gerar soluções robustas e integráveis.
- Categoria
- CEVIU Web Dev
- Publicado
- 12 de março de 2026
- Fonte
- CEVIU Web Dev
