DFlash e Spec V2 revolucionam a speculative decoding com ganhos de throughput expressivos

16 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O DFlash não é só mais um drafter: é uma mudança de paradigma na decodificação especulativa. Enquanto EAGLE-3 e MTP nativos (como os do Gemma 4) ainda geram rascunhos sequencialmente, mesmo que no modelo menor , , o DFlash usa difusão em bloco para produzir 16 tokens de uma vez, com um único forward pass. Isso elimina o gargalo de latência intrínseco à autoregressão no draft, tornando o processo verdadeiramente hardware-friendly em B200s e TPUs.

A injeção de KV do modelo alvo no drafter é o segundo salto técnico. Diferente de métodos anteriores que usam features do alvo só na entrada do drafter (como o Medusa ou EAGLE), o DFlash injeta representações ocultas diretamente nos caches KV de cada camada do modelo rascunho. Isso mantém a condição forte ao longo da geração, e explica por que aceitação média sobe mesmo com drafters mais profundos. Não é só mais rápido: é mais preciso por design, sem trade-off entre speed e quality.

O que mudou

Em maio, a cobertura CEVIU tratava de MTP como o estado da arte, com acelerações de até 3x no Gemma 4 e ganhos de 1.8x em rollouts de RL. Agora, em junho, o DFlash + Spec V2 entrega >4.3x no Qwen 3.5 397B-A17B, superando até essa nova geração de MTP nativa. O que era rumor sobre 'injeção de contexto' virou código concreto no SGLang V2; o que era benchmark teórico em GPU A100 virou produção real em B200 com 8 TB/s de largura de banda HBM3e. E o Xiaomi MiMo v2.5-Pro-UltraSpeed já está usando isso em escala: 1.200 tps em modelo de 1T de parâmetros, algo impensável com MTP puro.

Por que isso importa

Isso não é otimização incremental. É a primeira vez que uma técnica de speculative decoding atinge eficiência próxima ao limite físico de hardware moderno: aproveita plenamente o throughput FP4 do B200 (9.000 TFLOPS) e reduz sincronizações host-device ao mínimo viável. Para operadores de LLMs, significa cortar custos de inferência em até 60% em workloads de baixa latência, como agentes interativos ou APIs de tempo real. Para desenvolvedores de modelos, abre espaço para usar arquiteturas maiores (como o Qwen 3.5 com 262k de contexto) sem pagar o preço usual em throughput. A barreira não é mais o modelo, mas a infraestrutura, e agora ela está sendo quebrada.

Linha do tempo

01/05/2026
CEVIU reporta uso de decodificação especulativa em rollouts de RL com ganho de throughput de até 1.8x
06/05/2026
CEVIU cobre lançamento de drafters MTP para Gemma 4 com aceleração de até 3x
07/05/2026
CEVIU destaca TokenSpeed, motor de inference otimizado para workloads de agentes
15/06/2026
Lançamento oficial do DFlash e Spec V2 pelo consórcio Z Lab, Modal e SGLang
16/06/2026
Publicação da notícia atual com benchmarks em Qwen 3.5 397B-A17B e B200

Perguntas frequentes

DFlash funciona apenas com Qwen 3.5 ou pode ser adaptado a outros modelos?

Funciona com qualquer LLM baseado em Transformer. A Z Lab já disponibilizou drafters para Qwen 3-8B, Gemma 4 e DeepSeek-V4 no Hugging Face. O treinamento exige apenas acesso aos pesos do modelo alvo e um dataset pequeno de saídas, não é necessário re-treinar o modelo principal.

Qual é a diferença prática entre Spec V1 e Spec V2 no SGLang?

O V1 sincroniza o host com a GPU em cada etapa do ciclo de verificação. O V2 usa overlap scheduling: enquanto a GPU processa o lote N, o host já aloca KV para N+1 e limpa metadados do lote N-1. Isso eliminou 33% do overhead, e foi essencial para que o DFlash entregue seu potencial completo.

Por que o DFlash tem vantagem sobre MTP nativo, se ambos preveem múltiplos tokens?

MTP nativo ainda depende da estrutura autoregressiva do próprio modelo, ele 'desenrola' internamente os tokens, consumindo ciclos de GPU e memória. O DFlash é um modelo separado, leve e paralelo: gera o bloco inteiro em um único passo, com custo fixo independente do tamanho do bloco. Isso escala melhor em concorrência alta e modelos gigantes.

É possível usar DFlash sem o SGLang?

Sim, mas com esforço extra. O DFlash já tem suporte oficial no vLLM v0.20.1+. No entanto, o Spec V2 com overlap scheduling e injeção KV otimizada está exclusivo no SGLang, e é onde os ganhos de 4.3x foram medidos. Para produção, o stack completo (Z Lab + Modal + SGLang) é o caminho mais direto.

Fontes

lmsys.orgfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 16 de junho de 2026
Editoria: CEVIU IA