Voltar

A Maioria dos Agentes de Codificação Invalida Mais de 75% de Suas Próprias Correções com o Tempo

Benchmarks tradicionais para agentes de codificação, como o SWE-bench, avaliam apenas correções pontuais de bugs, negligenciando a capacidade dos agentes de manter bases de código ao longo do tempo. O novo benchmark SWE-CI aborda essa falha, testando os modelos em ciclos de continuous integration que simulam meses de evolução de um codebase. Os resultados mostram que a maioria dos modelos introduz regressões em mais de 75% das tarefas, com apenas o Claude Opus atingindo uma taxa de zero-regressão superior a 50%.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Web Dev
Publicado
09 de março de 2026
Fonte
CEVIU Web Dev

Quer receber mais sobre CEVIU Web Dev?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
A Maioria dos Agentes de Codificação Invalida Mais de 75% de Suas Próprias Correções com o Tempo — CEVIU News