Como os tamanhos de modelos podem escalar de 2023 a 2031

23 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

A escala de modelos de IA não é só uma questão de mais parâmetros, é um equilíbrio entre memória, velocidade de acesso e poder de treinamento. O artigo mostra que, mesmo com avanços em HBM como HBM4E e HBM5, o limite real de tamanho não vem da capacidade de treinar, mas da capacidade de servir. Se um modelo precisa gerar 80 tokens por segundo, e cada leitura de peso exige passar por múltiplas unidades de memória em sequência, o número de estágios no pipeline fica restrito. Isso força um teto: mesmo que tenha compute para treinar um modelo de 1,4 quadrilhão de parâmetros em 2031, ele só será viável se a arquitetura de servidor conseguir lê-lo rápido o suficiente. A diferença entre um H100 e um sistema Feynman não é só potência, é latência. Um H200 demora 30 ms para ler toda sua HBM; um chip Feynman de 2030, com HBM5 e pilhas mais altas, reduz isso para 14 ms. Isso permite mais estágios no pipeline e, por consequência, modelos maiores. Mas o gargalo real está na disponibilidade de dados únicos. Se só existem 200 trilhões de tokens únicos para treinar, e o modelo ótimo exigiria 800 trilhões, a solução não é apenas aumentar o tamanho, é repetir dados ou aumentar a esparsidade. Isso torna os modelos de 2031 não apenas maiores, mas mais complexos de otimizar.

Por que isso importa

Essa análise muda a forma como se pensa em investimento em IA. Empresas não devem apenas correr atrás de mais GPUs, precisam projetar infraestrutura de inferência tão bem quanto a de treinamento. Um modelo de 1,4 quadrilhão de parâmetros pode ser treinado, mas se não couber em 8 sistemas Kyber Feynman com latência aceitável, ele vira um experimento caro. A escolha entre FP4, FP8 e BF16 não é técnica, é estratégica. FP8 reduz o tamanho do modelo pela metade na memória, mas exige mais poder de processamento. Se a NVIDIA aposta em FP8 no Rubin, é porque já sabe que o futuro não é em parâmetros brutos, mas em eficiência de acesso. Isso também explica por que modelos como o DeepSeek-V3 usam expert parallelism dentro de um único sistema: cruzar limites de rack quebra a latência. O próximo grande salto não virá de um novo algoritmo, mas de uma nova configuração de rack, de uma nova forma de organizar memória e rede. Quem entender isso primeiro, domina o próximo ciclo de inovação.

Perguntas frequentes

Por que um modelo com mais parâmetros não é sempre mais rápido?

Porque a velocidade de geração de tokens depende de quanto tempo leva para ler os pesos da memória HBM. Modelos maiores exigem mais dados sendo lidos por ciclo, o que aumenta a latência. Mesmo com mais GPUs, se os dados precisam passar por vários estágios em série, o tempo total sobe. A solução não é mais hardware, mas menos leituras por token, por isso a esparsidade e o uso de MoE são cruciais.

O que é esparsidade em modelos de IA e por que ela importa?

Esparsidade refere-se à fração de parâmetros que são realmente usados em cada inferência. Em modelos MoE, apenas um subconjunto de 'experts' é ativado por entrada. Um modelo com 8x esparsidade usa apenas 1/8 dos parâmetros por token. Isso permite que modelos maiores sejam servidos sem aumentar a latência, pois menos memória precisa ser lida por requisição. Sem esparsidade, modelos grandes seriam inviáveis por causa da memória.

Como a memória HBM limita o tamanho dos modelos?

Cada chip tem uma quantidade fixa de HBM, e cada leitura completa da memória leva um tempo mínimo. Se um modelo é tão grande que exige mais da metade da HBM por passagem, e ele está distribuído em vários sistemas em pipeline, o tempo total de leitura soma. Para manter 80 tokens/s, o tempo total de leitura não pode ultrapassar 37,5 ms. Isso limita o número de sistemas que podem ser usados em série, e, por consequência, o tamanho máximo do modelo que pode ser servido.

Por que a falta de dados únicos força modelos a ficarem maiores?

Quando há menos dados únicos disponíveis do que o ideal para treinar um modelo otimizado, os treinadores repetem os mesmos dados várias vezes. Isso leva a overfitting, então a solução é aumentar o número de parâmetros ativos para absorver mais informação. Um modelo de 2031 pode ser 4 vezes maior do que o necessário se os dados fossem ilimitados, porque ele precisa compensar a escassez de dados com complexidade.

Fontes

lesswrong.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 23 de junho de 2026
Editoria: CEVIU IA