Voltar

Até que ponto os ganhos de raciocínio em IA são enviesados pela expansão de 10.000x do corpus de treinamento?

O desempenho em benchmarks oferece estimativas enviesadas da generalização out-of-distribution se os dados de treinamento de LLMs estiverem poluídos com dados de teste dos próprios benchmarks. Filtros de descontaminação comuns falham em detectar duplicatas semânticas ️. Isso sugere que os ganhos recentes em benchmarks são confundidos – a prevalência de contaminação suave significa que os avanços refletem tanto melhorias genuínas de compatibilidade quanto o acúmulo de dados de teste e dados de teste efetivos nos crescentes corpora de treinamento .

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
17 de fevereiro de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser
Até que ponto os ganhos de raciocínio em IA são enviesados pela expansão de 10.000x do corpus de treinamento? — CEVIU News