Estamos ficando sem benchmarks para delimitar as capacidades da IA

08 de abril de 2026

A suíte Time Horizon da METR está sendo saturada. Modelos de IA de fronteira conseguem realizar de forma confiável quase todas as tarefas da suíte, exceto talvez uma dúzia, o que torna difícil estabelecer um limite superior para o seu horizonte temporal. A criação e avaliação de novos benchmarks estão se tornando mais caras. A situação provavelmente piorará à medida que o progresso da IA continuar. É provável que, até meados de 2027, nenhum resultado de benchmark de 2026 ou anterior seja capaz de descartar capacidades perigosas em sistemas de IA de fronteira.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 08 de abril de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?