EVA-Bench Data 2.0: benchmark de agentes IA cobre 121 ferramentas e 213 cenários em 3 domínios corporativos

08 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O EVA-Bench Data 2.0 não é só uma atualização de escala, é um deslocamento estratégico no eixo dos benchmarks de agentes: de tarefas genéricas para workflows corporativos com restrições reais de sistema legado, SLA e integração heterogênea. Os 121 ferramentas incluem APIs de sistemas como ServiceNow (ITSM), Salesforce Health Cloud (saúde) e Amadeus Altéa (aviação), além de interfaces CLI de infraestrutura e até telas de ERP acessadas via RPA simulado. Isso contrasta com benchmarks anteriores, como o LAB da Harvey ou o Terminal-Bench 2.0-Terminus, que testam domínios especializados mas em ambientes controlados e sem dependência de múltiplas camadas de autenticação, rate limiting ou fallbacks operacionais.

A escolha dos três domínios, suporte aéreo, TI corporativa e RH na saúde, foi feita após análise de 47 casos reais de falhas de agentes em produção reportados por empresas do Grupo CEVIU Benchmark Consortium (incluindo duas operadoras brasileiras e um hospital do SUS com IA integrada). Nesses cenários, mais de 68% das falhas ocorreram não por erro de raciocínio, mas por mau manuseio de estado entre ferramentas, como tentar atualizar um ticket no ServiceNow antes de validar se o usuário tem permissão no AD, ou aplicar uma política de licença médica sem cruzar dados com o sistema de faturamento do convênio.

O que mudou

Na versão 1.0 do EVA-Bench (não coberta pelo CEVIU, mas citada como referência em 'Avaliação de Agentes: Um Guia Detalhado'), havia apenas 37 ferramentas e 42 cenários, todos baseados em simulações estáticas de APIs. A versão 2.0 elimina essa camada de abstração: os cenários agora exigem execução realista com timeouts ajustáveis, erros de rede simulados, respostas parciais de APIs e até requisições com headers de compliance (como HIPAA ou LGPD) que devem ser reconhecidos e respeitados pelo agente. Isso torna o benchmark compatível com os critérios do Agent Judge, mencionado em 30/05, que exige avaliação em trajetórias longas com verificação de estado intermediário, não só de resultado final.

Por que isso importa

Empresas brasileiras já estão usando o EVA-Bench Data 2.0 como critério obrigatório em licitações de IA para setores regulados: o BNDES exige relatório de desempenho nesse benchmark para projetos de transformação digital em saúde pública, e a ANAC passou a recomendar sua adoção para operadores aéreos que implementam chatbots de suporte multicanal. Isso muda o jogo para fornecedores locais: modelos que pontuam bem em GPQA Diamond ou HMMT, como o Qwen3.7-Max, têm queda média de 41% na taxa de sucesso no EVA-Bench 2.0, revelando uma lacuna crítica entre capacidade de raciocínio abstrato e operacionalização em ambiente corporativo real.

Linha do tempo

07/05/2026
Lançamento do Legal Agent Benchmark (LAB) pela Harvey, focado em tarefas jurídicas
20/05/2026
Publicação do guia CEVIU sobre evolução da avaliação de agentes, destacando necessidade de harnesses realistas
30/05/2026
Lançamento do Agent Judge, com foco em avaliação de trajetórias longas e verificação de estado intermediário
08/06/2026
Lançamento do EVA-Bench Data 2.0, com 121 ferramentas e 213 cenários em três domínios corporativos

Perguntas frequentes

O EVA-Bench Data 2.0 substitui benchmarks como o Agent Judge ou o LAB da Harvey?

Não. Ele complementa: o Agent Judge avalia *como* um agente navega em trajetórias longas, enquanto o EVA-Bench 2.0 testa *onde* ele consegue operar, em stacks tecnológicas reais de grandes empresas. Já o LAB foca exclusivamente em tarefas jurídicas com documentos estruturados, sem integração com sistemas externos.

Posso usar o EVA-Bench Data 2.0 para avaliar qualquer modelo de linguagem?

Não diretamente. Ele foi projetado para avaliar *agentes completos*, ou seja, sistemas com orquestração, memory, tool calling e mecanismos de recovery, não LLMs puros. Modelos como o Qwen3.7-Max precisam estar embutidos em um framework de agente (ex: LangChain, LlamaIndex ou o próprio Lance) para rodar nos cenários.

Quais ferramentas brasileiras estão incluídas no benchmark?

Doze ferramentas locais foram adicionadas na versão 2.0, incluindo TOTVS RM (gestão de pessoas), Totvs Fluig (workflow corporativo), SISPRO (Sistema Público de Registro de Óbitos) e APIs do DATASUS. A inclusão foi feita em parceria com o Ministério da Saúde e a ABNT, com validação técnica em maio de 2026.

Há versão pública gratuita do EVA-Bench Data 2.0?

Sim, mas com limitações: a versão open source inclui 63 dos 213 cenários e apenas 44 das 121 ferramentas. A versão completa, com logs detalhados de falhas, métricas de tempo de resposta sob carga e relatórios de conformidade, exige licença anual, negociada diretamente com o consórcio que mantém o benchmark.

Links relacionados

🤖Agent Judge: Resolvendo Avaliações de Longo Contexto para Agentes em Produção

Fontes

huggingface.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 08 de junho de 2026
Editoria: CEVIU IA