Voltar

Muitos Pull Requests Aprovados pelo SWE-bench Não Seriam Integrados ao `main`

Um estudo recente da METR evidenciou uma lacuna crucial entre o código gerado por IA que obtém aprovação em benchmarks automatizados e a sua efetiva aceitação por mantenedores humanos. Aproximadamente metade dos Pull Requests (PRs) criados por IA, que passaram nos testes automatizados do SWE-bench, foram posteriormente rejeitados pelos responsáveis pelos repositórios, mesmo após considerar e ajustar o "ruído de revisão". As justificativas mais comuns para as rejeições incluíam problemas como baixa qualidade de código, introdução de quebras em funcionalidades existentes ou falhas diretas na funcionalidade central do software, sublinhando a necessidade de aprimorar a capacidade da IA em gerar soluções robustas e integráveis.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Web Dev
Publicado
12 de março de 2026
Fonte
CEVIU Web Dev

Quer receber mais sobre CEVIU Web Dev?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Muitos Pull Requests Aprovados pelo SWE-bench Não Seriam Integrados ao `main` — CEVIU News