power-law: análise detalhada sobre o funcionamento e as limitações das scaling laws

26 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O termo power-law descreve a relação matemática entre tamanho do modelo, volume de dados e compute no treinamento de IA. A análise publicada por Lilian Weng não lança um novo framework, mas organiza o estado da arte sobre como essas leis de escala funcionam na prática. O mecanismo é direto. A perda de treinamento cai de forma previsível à medida que aumentamos parâmetros e tokens, seguindo uma curva que vira reta em escala log-log. Para times de infraestrutura e pesquisadores, essa previsibilidade permite estimar custos e alocar FLOPs antes de rodar treinos bilionários. O workflow padrão envolve ajustar curvas em modelos pequenos e extrapolar para arquiteturas maiores.

As limitações aparecem quando a extrapolação ignora ruídos nos dados ou a saturação do regime de aprendizado. A história mostra que a fórmula inicial de Kaplan (2020) superestimou o tamanho ideal do modelo, recomendando parar o treino antes da convergência. O trabalho posterior do Chinchilla corrigiu isso ao provar que dobrar parâmetros exige dobrar tokens na mesma proporção. A análise também destaca que contagens diferentes de parâmetros, como excluir ou incluir embeddings, distorcem o expoente em regimes pequenos. Quem opera pipelines de LLM precisa mapear onde a lei de escala quebra, geralmente na região de erro irredutível ou quando a qualidade do dataset limita o ganho marginal.

Por que isso importa

Entender essas relações define o orçamento de GPU de qualquer laboratório sério. Treinar modelos com compute mal alocado queima milhões em eletricidade e ociosidade de hardware. As leis de escala transformam decisões de engenharia em matemática aplicada. Elas permitem que times de ML troquem suposições por projeções numéricas de token, largura de rede e steps de otimização. A correção trazida pelo Chinchilla mudou a corrida atual por IA, forçando a indústria a priorizar datasets maiores e mais limpos em vez de apenas empilhar parâmetros. Quem ignora o ponto de saturação entrega modelos que parecem maiores, mas generalizam menos.

Linha do tempo

1992
Amari e colaboradores derivam os primeiros modelos teóricos de curvas de aprendizado via aproximação bayesiana.
2017
Hestness demonstra empiricamente que o erro de generalização segue lei de potência independente da arquitetura.
2020
Kaplan populariza o conceito em Transformers e define a alocação inicial de compute.
2022
O paper Chinchilla corrige a proporção modelo-tokens e mostra que modelos gigantes da época estavam subtreinados.
2024
Pearce e Song reconciliam as discrepâncias matemáticas causadas pela contagem de parâmetros de embedding.
2026-06-26
Publicação da análise detalhada sobre o funcionamento, alocação de compute e limitações práticas das scaling laws.

Perguntas frequentes

Qual a diferença entre as leis de Kaplan e Chinchilla para alocação de compute?

Kaplan recomendou crescer o modelo mais rápido que os dados, sugerindo parar o treino antes da convergência. Chinchilla demonstrou experimentalmente que o modelo deve ser menor e treinado com quatro vezes mais tokens no mesmo orçamento de FLOPs. O consenso atual segue a proporção linear de Chinchilla para evitar subtreinamento.

Por que a curva de perda vira uma reta em escala log-log?

A relação segue uma função de potência típica de sistemas complexos, onde ganhos marguais diminuem à medida que a escala aumenta. Plotar os eixos em logaritmo lineariza essa curva de decaimento exponencial. Isso permite ajustar constantes matemáticas com regressão simples em vez de treinar modelos gigantes para cada teste de hipótese.

O que define o limite prático onde a lei de escala para de valer?

O limite ocorre na região de erro irredutível, ditado por ruído intrínseco no dataset ou capacidade máxima da arquitetura. Adicionar mais parâmetros ou tokens nessa fase só consome compute sem reduzir a perda real. Engenheiros monitoram essa quebra analisando a divergência entre train loss e test loss.

Contar ou ignorar parâmetros de embedding altera o resultado do scaling?

Sim, a exclusão de embeddings distorce o cálculo em modelos pequenos, onde essas camadas representam fração relevante do total. O estudo de Pearce e Song mostrou que o expoente de escala só converge para o valor real de Chinchilla em regimes de parâmetros muito altos. Laboratórios precisam padronizar a contagem para manter as projeções consistentes.

Fontes

lilianweng.github.iofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 26 de junho de 2026
Editoria: CEVIU IA