Voltar

Estamos ficando sem benchmarks para delimitar as capacidades da IA

A suíte Time Horizon da METR está sendo saturada. Modelos de IA de fronteira conseguem realizar de forma confiável quase todas as tarefas da suíte, exceto talvez uma dúzia, o que torna difícil estabelecer um limite superior para o seu horizonte temporal. A criação e avaliação de novos benchmarks estão se tornando mais caras. A situação provavelmente piorará à medida que o progresso da IA continuar. É provável que, até meados de 2027, nenhum resultado de benchmark de 2026 ou anterior seja capaz de descartar capacidades perigosas em sistemas de IA de fronteira.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
08 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser