ScarfBench: Novo benchmark para avaliar agentes de IA na migração de frameworks Java corporativos

30 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O ScarfBench é um benchmark aberto lançado pela IBM Research em 11 de março de 2026, com detalhes técnicos publicados no arXiv em 7 de maio de 2026 (revisado em 18 de maio de 2026). Ele foi criado para avaliar agentes de IA na migração entre frameworks Java corporativos, especificamente Spring, Jakarta EE e Quarkus, algo que benchmarks tradicionais não medem. Ao contrário de testes baseados em comparação sintática ou geração de código isolado, o ScarfBench exige que a aplicação migrada compile, seja implantada em ambiente conteinerizado e passe em testes comportamentais reais, validando funcionalidade, não só sintaxe.

O benchmark inclui 34 famílias de aplicações, gerando 204 tarefas de migração direcionadas: 29 casos focados em camadas únicas (como persistência ou injeção de dependência) e 5 aplicações completas. No total, abrange cerca de 151 mil linhas de código Java em 1.946 arquivos, com 1.331 testes desenvolvidos por especialistas. Cada tarefa exige, em média, edições em 11 arquivos e 370 linhas, mas pode ultrapassar 200 arquivos e 14 mil linhas em cenários completos.

Por que isso importa

Framework migration é uma das atividades mais caras e arriscadas da engenharia de software corporativa, mas também uma das menos automatizáveis até hoje. O ScarfBench mostra que os agentes de IA atuais ainda falham sistematicamente nessa tarefa: mesmo o melhor agente alcançou apenas 15,3% de sucesso em migrações focadas e 12,2% em aplicações completas. Mais revelador: apenas uma das 204 tarefas resultou em equivalência comportamental plena. Isso expõe uma lacuna crítica entre 'código que compila' e 'sistema que funciona', e desmonta a ilusão de que geração de código fonte equivale a modernização confiável.

A dificuldade não é uniforme: migrações entre Spring e Quarkus são as mais viáveis, enquanto Jakarta EE se mostrou o alvo mais problemático, especialmente em configurações de injeção de dependência e descritores de implantação. O benchmark também revelou que falhas operacionais, como problemas com Maven Wrapper, build tools e ambientes de execução, são tão frequentes quanto erros no código-fonte, o que reforça que modernização envolve muito mais do que substituir anotações.

Impacto para desenvolvedores

Para desenvolvedores e equipes de modernização Java, o ScarfBench não é só um teste, é um espelho realista do que os agentes de IA conseguem (e não conseguem) fazer hoje. Ele invalida a confiança cega em relatórios de 'sucesso' gerados pelos próprios agentes: em testes com Claude Code, por exemplo, o agente reportou 29 builds bem-sucedidas, mas apenas 22 realmente compilaram; um caso classificado como 'falha' acabou compilando corretamente. Isso obriga times a manter validação independente, build, deploy e testes end-to-end, como etapas obrigatórias, não opcionais.

O benchmark também muda o foco técnico: em vez de priorizar tradução de código, ele evidencia que o esforço maior está em resolver dependências cruzadas, especialmente em camadas de configuração, infraestrutura e runtime. A alta frequência de revisita a arquivos de pom.xml, application.properties e descriptors mostra que migração é um processo iterativo de resolução de contexto, não uma conversão linear. Time que adotar o ScarfBench como critério de avaliação terá uma métrica objetiva para comparar ferramentas de IA antes de apostar nelas em produção.

Perguntas frequentes

O que é o ScarfBench?

O ScarfBench é um benchmark aberto lançado pela IBM Research em 11 de março de 2026 para avaliar agentes de IA na migração entre frameworks Java corporativos, principalmente Spring, Jakarta EE e Quarkus. Diferente de benchmarks tradicionais, ele exige que a aplicação migrada compile, seja implantada em ambiente conteinerizado e passe em testes comportamentais, não apenas gere código sintaticamente correto.

Quais frameworks o ScarfBench avalia?

O ScarfBench avalia migrações entre três ecossistemas Java: Spring, Jakarta EE e Quarkus. Ele cobre pares assimétricos como Spring → Jakarta EE, Jakarta EE → Quarkus e Spring ↔ Quarkus, com resultados mostrando que Spring ↔ Quarkus é o par mais viável e Jakarta EE o mais desafiador para agentes de IA atuais.

Qual é o desempenho atual dos agentes de IA no ScarfBench?

Em avaliações com cinco agentes de última geração, o melhor resultado foi de 15,3% de sucesso em migrações focadas e 12,2% em aplicações completas. Apenas uma das 204 tarefas de migração direcionada resultou em equivalência comportamental completa. Os dados confirmam que a migração entre frameworks ainda é um problema aberto para IA, com falhas concentradas em build, deploy e dependências, não só no código-fonte.

Onde posso acessar o ScarfBench?

O ScarfBench é um projeto aberto. Seu código-fonte, harness de avaliação, rastreamentos de agentes e placar público estão disponíveis no GitHub e no arXiv. O artigo técnico foi publicado no arXiv em 7 de maio de 2026 e revisado em 18 de maio de 2026. Não há versão comercial fechada: tudo foi disponibilizado sob licença aberta para pesquisa e uso prático.

Fontes

huggingface.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 30 de junho de 2026
Editoria: CEVIU IA