Como acelerar modelos para codegen

23 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

Morph LLM não está só acelerando modelos de código, está redefinindo onde a otimização começa. Enquanto a maioria dos esforços em speculative decoding foca em arquiteturas genéricas (como EAGLE-3 ou DFlash), o Morph treina cada drafter *especificamente* nos outputs de coding do modelo-alvo: diffs, edits, repetições de contexto, símbolos já na tela. Isso explica o salto de 1,93x para 3,07x, não é só mais um draft pequeno, é um modelo que aprendeu o ritmo do agente programador: 97% de tokens repetidos entre turns, prompts 37x a 2.494x maiores que as respostas. A aceleração vem da fidelidade ao workload, não à escala.

O Autoresearch de kernels vai além de ajuste fino: ele transforma a otimização em busca automatizada com verificação rigorosa contra traces reais de agentes, não benchmarks sintéticos. Isso permite extrair 162 tok/s de uma RTX PRO 6000 de $7K, superando até um H100 de $25K. Já o interconnect over PCIe não é 'substituição pobre' do NVLink: é uma reengenharia do fluxo de dados. Ao unir o drafter treinado (que aumenta hit rate) com o HiCache distribuído via TCP, o Morph faz o tempo de primeiro token cair 84%, porque pular o prefill vale mais que a latência da rede.

O que mudou

Em maio, o CEVIU cobriu o DFlash atingindo 6x em Qwen3-8B e os drafters multi-token do Gemma 4 com ganhos de até 3x, mas todos usavam drafters genéricos ou pré-treinados em dados abertos. Agora, o Morph mostra que o salto real vem do *treino específico no output do próprio modelo-alvo*. O ganho de 3,07x não é incremental: é o primeiro caso documentado em produção de um drafter treinado exclusivamente em outputs de coding (não em web text), validado em modelos como Qwen, GLM e DeepSeek. Também é a primeira vez que kernels são autopesquisados *em hardware acessível* (RTX PRO 6000, MI250), não só em H100, e que o cache distribuído via TCP vira vantagem prática, não fallback.

Por que isso importa

Agentes de programação estão virando infraestrutura crítica, não um experimento. Se cada segundo de latência custa produtividade em editores, CI/CD ou pair programming assistido, então 84% menos tempo até o primeiro token muda SLA. Mais importante: essa abordagem desafia a lógica de 'escalar mais' como única saída. Morph prova que, para workloads intensivos e repetitivos como coding, otimizar o *uso* dos pesos abertos, com treino direcionado, kernels adaptados e comunicação redesenhada, gera ganhos maiores que trocar hardware. É IA aplicada com foco cirúrgico, não com força bruta.

Linha do tempo

2026-02-09
Lançamento do DFlash, com speedup de até 6x em Qwen3-8B usando decodificação especulativa em bloco
2026-05-01
Aplicação da decodificação especulativa em rollouts de RL, com ganhos de throughput de até 1,8x
2026-05-06
Publicação de otimizações com drafters multi-token para Gemma 4, alcançando até 3x de aceleração
2026-05-08
Divulgação da aceleração de 3x no Gemma do Google via decodificação especulativa
2026-06-22
Lançamento do Morph LLM com drafter treinado em outputs específicos, kernels autopesquisados e interconnect over PCIe

Perguntas frequentes

Por que treinar o drafter nos próprios outputs do modelo é tão diferente de usar um drafter genérico?

Porque código tem padrões fortes: repetição de estruturas, símbolos locais, diffs incrementais. Um drafter treinado em web text não reconhece esses sinais. Treinado em 1 milhão de edits reais, ele prevê melhor onde o agente vai colar, copiar ou modificar, aumentando a taxa de aceitação e reduzindo passes no modelo grande.

Como é possível superar um H100 com uma RTX PRO 6000?

Não é sobre raw FLOPS. É sobre eliminar desperdício: o Autoresearch ajusta kernels de atenção, cache e all-reduce especificamente para essa GPU, enquanto soluções genéricas rodam a 7% da performance ótima nela. Aqui, 162 tok/s vem de otimização precisa, não de mais transistores.

Por que usar TCP para cache distribuído funciona, se é mais lento que RDMA?

Porque o drafter treinado + kernels eficientes elevam a taxa de acerto do cache para >80%. Quando um prefixo falta na GPU e na RAM local, buscar via TCP ainda é mais rápido que refazer todo o prefill, especialmente com prompts longos. A economia de cálculo compensa a latência da rede.

Isso serve só para agentes de programação?

Por enquanto, sim, e é intencional. O artigo enfatiza que o Morph não busca generalização. Ele explora um fato técnico crítico: coding é o workload com maior repetição de contexto e menor entropia entre turns. Outros domínios (como chat ou RAG) têm padrões diferentes e exigiriam novos drafters, kernels e caches.

Links relacionados

Fontes

morphllm.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 23 de junho de 2026
Editoria: CEVIU IA