Voltar

Agentes de IA podem construir integrações reais com Stripe? Criamos um benchmark para descobrir

A Stripe divulgou um novo benchmark para testar se agentes de IA podem construir autonomamente integrações de pagamentos completas. O estudo revelou que o Claude Opus 4.5 atingiu uma taxa de sucesso de 92% em tarefas full-stack , enquanto o GPT-5.2 da OpenAI obteve 73% em conjuntos de problemas de backend.

O benchmark, composto por 11 tarefas, mostrou que modelos líderes conseguiram navegar por UIs e depurar problemas em tempo real ao longo de uma média de 63 iterações. No entanto, eles ainda enfrentaram dificuldades em situações ambíguas e ocasionalmente ficaram travados durante workflows baseados em navegador , evidenciando a lacuna entre a geração de código e a engenharia de software pronta para produção ️.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU DevOps
Publicado
04 de março de 2026
Fonte
CEVIU DevOps

Quer receber mais sobre CEVIU DevOps?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Agentes de IA podem construir integrações reais com Stripe? Criamos um benchmark para descobrir — CEVIU News