Avaliando Agentes de IA para a Descoberta Científica
Muitas equipes têm feito afirmações extraordinárias sobre seus agentes de IA. No entanto, as evidências por trás dessas alegações costumam ser decepcionantes. ScienceWorld e DiscoveryWorld são benchmarks desenvolvidos para testar se os agentes de IA são realmente capazes de fazer ciência.
ScienceWorld verifica se os agentes podem recriar descobertas científicas clássicas em um nível aproximado de ensino fundamental, enquanto DiscoveryWorld testa a descoberta de natureza aberta em um nível universitário ou de doutorado. Esses benchmarks, abertos e gratuitamente disponíveis, ajudam a testar as capacidades reais dos agentes científicos.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 16 de abril de 2026
- Fonte
- CEVIU IA
