A Maioria dos Agentes de Codificação Invalida Mais de 75% de Suas Próprias Correções com o Tempo
Benchmarks tradicionais para agentes de codificação, como o SWE-bench, avaliam apenas correções pontuais de bugs, negligenciando a capacidade dos agentes de manter bases de código ao longo do tempo. O novo benchmark SWE-CI aborda essa falha, testando os modelos em ciclos de continuous integration que simulam meses de evolução de um codebase. Os resultados mostram que a maioria dos modelos introduz regressões em mais de 75% das tarefas, com apenas o Claude Opus atingindo uma taxa de zero-regressão superior a 50%.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Web Dev
- Publicado
- 09 de março de 2026
- Fonte
- CEVIU Web Dev
