Agentes de IA podem construir integrações reais com Stripe? Criamos um benchmark para descobrir

04 de março de 2026

A Stripe divulgou um novo benchmark para testar se agentes de IA podem construir autonomamente integrações de pagamentos completas. O estudo revelou que o Claude Opus 4.5 atingiu uma taxa de sucesso de 92% em tarefas full-stack , enquanto o GPT-5.2 da OpenAI obteve 73% em conjuntos de problemas de backend.

O benchmark, composto por 11 tarefas, mostrou que modelos líderes conseguiram navegar por UIs e depurar problemas em tempo real ao longo de uma média de 63 iterações. No entanto, eles ainda enfrentaram dificuldades em situações ambíguas e ocasionalmente ficaram travados durante workflows baseados em navegador , evidenciando a lacuna entre a geração de código e a engenharia de software pronta para produção ️.

Avalie este artigo:

Categoria: CEVIU DevOps
Publicado: 04 de março de 2026
Fonte: CEVIU DevOps

Quer receber mais sobre CEVIU DevOps?