Estamos ficando sem benchmarks para delimitar as capacidades da IA
A suíte Time Horizon da METR está sendo saturada. Modelos de IA de fronteira conseguem realizar de forma confiável quase todas as tarefas da suíte, exceto talvez uma dúzia, o que torna difícil estabelecer um limite superior para o seu horizonte temporal. A criação e avaliação de novos benchmarks estão se tornando mais caras. A situação provavelmente piorará à medida que o progresso da IA continuar. É provável que, até meados de 2027, nenhum resultado de benchmark de 2026 ou anterior seja capaz de descartar capacidades perigosas em sistemas de IA de fronteira.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 08 de abril de 2026
- Fonte
- CEVIU IA
