Até que ponto os ganhos de raciocínio em IA são enviesados pela expansão de 10.000x do corpus de treinamento?
O desempenho em benchmarks oferece estimativas enviesadas da generalização out-of-distribution se os dados de treinamento de LLMs estiverem poluídos com dados de teste dos próprios benchmarks. Filtros de descontaminação comuns falham em detectar duplicatas semânticas ️. Isso sugere que os ganhos recentes em benchmarks são confundidos – a prevalência de contaminação suave significa que os avanços refletem tanto melhorias genuínas de compatibilidade quanto o acúmulo de dados de teste e dados de teste efetivos nos crescentes corpora de treinamento .
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 17 de fevereiro de 2026
- Fonte
- CEVIU IA
