Apresentando o BenchBench: Um Benchmark Para Modelos de IA Criarem Benchmarks
O BenchBench é um novo benchmark que avalia a capacidade dos modelos de IA de criar outros benchmarks. Ele funciona como uma ótima métrica tanto para as habilidades dos modelos quanto para testar sua autoconsciência, focando na criatividade e não apenas na capacidade de resolução de problemas. Nos testes, apenas o GPT 5.2 se destacou, enquanto outros modelos, como o Opus 4.6 e o GPT 5.5, tiveram dificuldades em desenvolver um benchmark realmente útil e desafiador para terceiros.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 26 de maio de 2026
- Fonte
- CEVIU IA
