A Maioria dos Agentes de Codificação Invalida Mais de 75% de Suas Próprias Correções com o Tempo

09 de março de 2026

Benchmarks tradicionais para agentes de codificação, como o SWE-bench, avaliam apenas correções pontuais de bugs, negligenciando a capacidade dos agentes de manter bases de código ao longo do tempo. O novo benchmark SWE-CI aborda essa falha, testando os modelos em ciclos de continuous integration que simulam meses de evolução de um codebase. Os resultados mostram que a maioria dos modelos introduz regressões em mais de 75% das tarefas, com apenas o Claude Opus atingindo uma taxa de zero-regressão superior a 50%.

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 09 de março de 2026
Fonte: CEVIU Web Dev

Quer receber mais sobre CEVIU Web Dev?