Calculando custos de inference em escala com aritmética simples

15 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O cálculo de custo por usuário em 2026 não é mais um exercício de adivinhação, é aritmética aplicada com base em três pilares reais: largura de banda de memória (não apenas TFLOPS), eficiência do KV cache e taxa de ocupação real da GPU. A B200, por exemplo, não entrega seus 9.000 TFLOPS FP4 em produção porque seu gargalo é o acesso à HBM3e: 8 TB/s de largura de banda versus 562 operações por byte carregado. Isso significa que, sem otimizações como PagedAttention e GQA, você desperdiça 98% do potencial computacional, os núcleos ficam ociosos esperando dados.

Modelos como Llama 3, Mistral Large 3 e DeepSeek V3 já nascem com GQA embutido, reduzindo o KV cache em até 8× em comparação com MHA tradicional. Isso não é um ajuste pós-treino: é uma escolha arquitetural que define o custo operacional desde o primeiro token gerado. E o FP8 não é só 'mais rápido', é o ponto de equilíbrio entre precisão e throughput: ele reduz o footprint de memória em 2× sem exigir recalibração pesada, permitindo servir modelos de 32B com contexto de 200k tokens em uma única B200, algo inviável com FP16.

Por que isso importa

Em 2026, o preço por milhão de tokens saída caiu para US$ 0,075 (Gemini Flash), mas esse número é irrelevante se seu motor de inferência não aproveita a memória HBM3e com eficiência. Um SaaS que ignora PagedAttention ou usa GQA incorretamente paga até 6× mais por usuário do que um concorrente com a mesma GPU. A lucratividade não vem do modelo, mas da forma como você orquestra matmuls, cache e alocação de VRAM. Se sua app tem 80% de tempo ocioso por sessão, não é problema de hardware, é sinal de que você pode escalar de 50 para 500 usuários por B200 com ajustes de software, não de infraestrutura.

Perguntas frequentes

Por que o tamanho do contexto afeta tanto o custo se o KV cache é reutilizado?

O KV cache cresce linearmente com o número de tokens no histórico. Para 200k tokens e d=8192, mesmo com GQA, o cache consome ~26GB por usuário. Em uma B200 com 192GB de VRAM, isso limita a concorrência, não pela GPU ociosa, mas pela memória saturada. O PagedAttention resolve isso, mas só se implementado corretamente.

FP8 realmente compensa em produção, ou é só marketing?

Compensa, e muito. O FP8 reduz o tráfego de memória em 2× em relação ao FP16, alinhando-se melhor com a largura de banda da HBM3e. Em testes reais com vLLM + B200, o throughput aumenta 1,6× com perda de precisão inferior a 0,3% em tarefas de geração de texto. É o sweet spot entre custo e qualidade em 2026.

Por que a B200 é 4× mais rápida que a H100 em LLMs, mas não em todos os benchmarks?

A B200 foi projetada para cargas de trabalho de inferência, não treinamento. Seus Tensor Cores de 5ª geração priorizam operações FP4 e int8 com suporte nativo a sparsity e quantização dinâmica. Em matmuls esparsos típicos de LLMs decodificadores, ela bate a H100 por margem ampla, mas em cargas densas de treinamento, a vantagem cai para 1,3×.

Como saber se meu produto está subutilizando GPUs?

Verifique duas métricas: uso contínuo de VRAM acima de 85% (indica gargalo de memória) e utilização de GPU abaixo de 30% (indica ociosidade de núcleos). Se ambos ocorrem juntos, seu bottleneck é o KV cache mal gerenciado. Se só a VRAM está cheia, você precisa de GQA ou quantização. Se só a GPU está ociosa, seu batching está errado.

Fontes

injuly.infonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 15 de junho de 2026
Editoria: CEVIU IA