Engenharia de inference para LLMs: como otimizar prefill e decode com trade-offs técnicos

16 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O prefill e o decode não são só fases distintas, são dois mundos físicos diferentes dentro da mesma GPU. Prefill é um surto de cálculo paralelo: todos os tokens do prompt passam por todas as camadas ao mesmo tempo, saturando as unidades de FP16/FP8 da GPU. Decode é um loop sequencial que depende inteiramente da velocidade com que os pesos saem da VRAM para as unidades de cálculo, e aí é que entram as arquiteturas Blackwell, com suporte nativo a NVFP4 e largura de banda de memória de até 2,4 TB/s. Em 2026, isso deixou de ser teoria: modelos de 70B em INT4 rodam em uma única GPU de 96GB, e o AutoQ do TensorFlow reduziu modelos sem perda perceptível de qualidade, tornando a quantização operacionalmente trivial para equipes de infra.

A decodificação especulativa evoluiu além do draft-model básico: o Saguaro (SSD), lançado em março, usa um segundo nível de especulação sobre o rascunho, como um modelo prevendo o que o rascunho vai prever. Isso elevou a taxa de aceitação MTP-1 do DeepSeek V3 para >80%, com ganhos reais de 1,8x em TPS. E a desagregação deixou de ser conceito: o llm-d, aceito no CNCF Sandbox em março, já roda em produção com aumento de 70% em TPS sob carga real, porque separa não só os recursos, mas as métricas de escalabilidade: prefill escala com FLOPs, decode escala com bandwidth, e cada um tem seu próprio orçamento de custo.

O que mudou

Em abril, CEVIU destacou o trilema throughput-latência-custo como estrutura central. Hoje, essa tensão foi parcialmente dissolvida por técnicas que atacam mais de um vetor simultaneamente: o prefix caching reduz tanto latência quanto custo (tokens cacheados têm preço menor), e a desagregação permite escalar prefill e decode independentemente, o que antes exigia compromisso rígido entre TTFT e TPS. Também em abril, falamos de balanceamento de carga ciente de cache; agora, sabemos que roteamento round-robin degrada acerto de cache em até 90%, mas frameworks como llm-d usam cache-aware routing embutido, mantendo taxas de acerto acima de 85% mesmo com milhares de requisições por segundo.

Por que isso importa

Porque inferência deixou de ser um problema de 'rodar o modelo' e virou um problema de engenharia de sistema em camadas: desde o formato dos pesos (INT4/NVFP4) até a topologia de rede entre GPUs (NVLink vs RoCE). Um time de dev que não entende o impacto do posicionamento de variáveis no prompt sobre o prefix caching está pagando 3x mais por tokens de entrada. Quem ignora que o Saguaro exige ajuste fino de temperatura no draft model perde metade do ganho de throughput. E quem ainda dimensiona servidores LLM como se fossem APIs REST está jogando dinheiro fora, a economia de 80% com self-hosting só existe com otimização intencional em todas as seis camadas.

Linha do tempo

07/04/2026
CEVIU publica análise sobre engenharia de contexto e queda de precisão com aumento de tokens de entrada
17/04/2026
CEVIU detalha falhas de balanceamento de carga tradicional em LLMs e impacto no cache de prompt
23/04/2026
CEVIU define o trilema throughput-latência-custo como estrutura central da engenharia de inference
05/05/2026
CEVIU explica o pipeline de inference e a divisão física entre prefill e decode
20/05/2026
CEVIU apresenta Context Pruning como técnica complementar à otimização de entrada
16/06/2026
Nova guia técnica detalha os seis trade-offs essenciais para otimização de prefill e decode

Perguntas frequentes

Qual técnica oferece maior ROI para um time pequeno começando a hospedar LLMs?

Prefix caching + quantização INT4. O primeiro exige apenas reestruturar o prompt (colocar system message no início, input do usuário no final) e integrar um cache KV persistente. A segunda é quase plug-and-play com bibliotecas como llama.cpp ou vLLM, e já entrega 30, 50% de ganho em TPS e TTFT com zero mudança no código de aplicação.

Por que a desagregação não é viável para todos, mesmo com ferramentas como llm-d?

Ela exige monitoramento granular de cada fase: você precisa saber em tempo real quanto seu tráfego é composto por prompts curtos (que rodam melhor no decode-only) versus longos (que precisam de prefill dedicado). Sem esse perfil de carga, a desagregação gera overhead de rede e complexidade operacional sem retorno mensurável.

Como a decodificação especulativa afeta a qualidade das respostas?

A taxa de rejeição dos tokens gerados pelo draft model é crítica. Se o MTP-1 (primeiro token aceito) cair abaixo de 70%, erros se acumulam, especialmente em raciocínio passo a passo. Modelos como DeepSeek V3 foram projetados com draft compatibility em mente, mas usar um draft genérico com um modelo de produção pode causar quedas de coerência em respostas longas.

O que mudou na quantização desde 2025, e por que ela deixou de ser 'arriscada'?

Em 2025, quantização exigia fine-tuning pós-conversão e sacrifício em tarefas sensíveis como matemática ou código. Em 2026, técnicas como AWQ (Activation-aware Weight Quantization) e o AutoQ do TensorFlow aplicam compressão adaptativa: pesos de attention ficam em FP8, linear layers em INT4, e o KV cache em FP16, tudo automaticamente. Resultado: perda de precisão <0,3% em benchmarks de código e raciocínio, mesmo em modelos de 70B.

Fontes

blog.bytebytego.comfonte original

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 16 de junho de 2026
Editoria: CEVIU Web Dev