Avaliando o Raciocínio de Agentes de IA
A IBM Research emprega um benchmark executável, composto por milhares de APIs e documentos, para testar o raciocínio de agentes em múltiplas etapas e o uso de ferramentas. Este estudo revela lacunas de desempenho consistentes e modos de falha comuns nesses sistemas.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 16 de abril de 2026
- Fonte
- CEVIU IA
