Agentes de IA podem construir integrações reais com Stripe? Criamos um benchmark para descobrir
A Stripe divulgou um novo benchmark para testar se agentes de IA podem construir autonomamente integrações de pagamentos completas. O estudo revelou que o Claude Opus 4.5 atingiu uma taxa de sucesso de 92% em tarefas full-stack , enquanto o GPT-5.2 da OpenAI obteve 73% em conjuntos de problemas de backend.
O benchmark, composto por 11 tarefas, mostrou que modelos líderes conseguiram navegar por UIs e depurar problemas em tempo real ao longo de uma média de 63 iterações. No entanto, eles ainda enfrentaram dificuldades em situações ambíguas e ocasionalmente ficaram travados durante workflows baseados em navegador , evidenciando a lacuna entre a geração de código e a engenharia de software pronta para produção ️.
- Categoria
- CEVIU DevOps
- Publicado
- 04 de março de 2026
- Fonte
- CEVIU DevOps
