Mercury 2, da Inception Labs, supera o DiffusionGemma do Google no próprio jogo
Aprofundamento CEVIU
Aprofundamento
O Mercury 2 não é só mais rápido, ele representa uma mudança de paradigma na arquitetura de inferência para modelos de raciocínio. Enquanto a maioria dos LLMs ainda usa decodificação autoregressiva (um token por vez, com feedback contínuo), o Mercury 2 adota diffusion text como camada central: inicia com um bloco inteiro de tokens ruidosos e refina tudo em poucos passos paralelos. Isso reduz drasticamente a latência de chamadas curtas e repetidas, exatamente o que subagentes precisam em sistemas orquestrados. A diferença prática? Não é só 'responder rápido', mas permitir que dezenas de chamadas simultâneas de pequeno porte (como validação de código, roteamento de requisição ou compressão de contexto) rodem sem engarrafar o pipeline.
A escolha técnica tem implicações diretas no custo operacional: segundo o caso da Augment Code, trocar Claude Opus 4.7 por Mercury 2 cortou 90% do custo em subagentes de compacção, porque cada chamada gera 1.000 tokens/s em hardware padrão, sem exigir chips especializados como os usados pela OpenAI em sua solução de 1.000 t/s com Cerebras (cobertura CEVIU de 16/02). Isso coloca a difusão textual não como curiosidade, mas como nova camada de infraestrutura para agentes reais.
O que mudou
Na cobertura CEVIU de 10/06 e 11/06, o DiffusionGemma era apresentado como um modelo experimental aberto, otimizado pela NVIDIA para execução local, mas com desempenho questionável em benchmarks rigorosos (69,1% no AIME 2026). O Mercury 2, lançado 12 dias depois, mostra que a abordagem diffusion já evoluiu para entregar tanto velocidade quanto qualidade aplicada: 90% no mesmo AIME, mantendo os 1.000 tokens/s. Ou seja, saiu do estágio 'prova de conceito' para 'produto de produção'. Também mudou o posicionamento estratégico: enquanto o DiffusionGemma prioriza acessibilidade (open weights, Hugging Face), o Mercury 2 aposta em API fechada, foco em subagentes e integração vertical, alinhado ao que a Inception chama de 'Pareto frontier' entre qualidade, velocidade e custo.
Por que isso importa
Isso importa porque muda quem controla o ritmo dos sistemas de IA. Modelos lentos forçam arquiteturas conservadoras: poucos agentes, chamadas raras, lógica centralizada. Com diffusion LLMs rápidos e baratos como o Mercury 2, dá para distribuir o trabalho, ter um agente verificando segurança, outro resumindo logs, um terceiro gerando sugestões de commit, tudo em milissegundos. Não é sobre substituir GPT-5 ou Gemini 3.5 Flash em raciocínio profundo, mas sobre tirar o gargalo de latência que impedia a escala real de agentes. E isso já está acontecendo: empresas como Augment Code já o usam em produção, não como experimento, mas como peça crítica de infraestrutura.
Linha do tempo
OpenAI e Anthropic revelam modos rápidos de inferência com chips especializados, mas ainda baseados em arquitetura autoregressiva
Lançamento de drafters de Multi-Token Prediction para Gemma 4, acelerando inferência com decodificação especulativa
Google DeepMind lança DiffusionGemma como modelo experimental aberto; NVIDIA o otimiza para execução local em GPUs
CEVIU detalha que o DiffusionGemma alcança até 4x mais velocidade em GPUs, mas com queda de qualidade em benchmarks avançados
Inception Labs lança Mercury 2, modelo diffusion com 1.000 tokens/s e 90% no AIME 2026, posicionado como solução para subagentes em produção
Perguntas frequentes
Mercury 2 é realmente mais rápido que o DiffusionGemma, ou só nas métricas de laboratório?
É mais rápido na prática: ambos atingem ~1.000 tokens/s, mas o Mercury 2 mantém essa taxa com qualidade superior em benchmarks reais como AIME 2026 (90% vs 69,1%). O DiffusionGemma sacrifica precisão para ganhar velocidade; o Mercury 2 equilibra as duas.
Posso rodar o Mercury 2 localmente, como o DiffusionGemma?
Não. É um modelo fechado, disponível apenas via API ou cloud. Diferentemente do DiffusionGemma, que é open-weight e já tem suporte nativo em RTX PRO e GeForce via NVIDIA, o Mercury 2 não oferece pesos para download nem runtime local.
Para quais casos de uso o Mercury 2 faz mais sentido do que um modelo tradicional como o Gemini 3.5 Flash?
Quando você precisa de muitas chamadas curtas e rápidas, como em orquestração de agentes, autocomplete em tempo real, processamento paralelo de logs ou rotinas de pré-processamento. O Gemini 3.5 Flash (Low) é eficiente em tarefas de engenharia de software, mas não foi projetado para alta frequência de chamadas de baixa latência como o Mercury 2.
Por que usar diffusion para texto se já existe há anos para imagens?
Porque o problema é o mesmo: gerar estruturas coerentes a partir de ruído. Em texto, isso elimina o loop sequencial de previsão, o modelo não espera o token anterior para gerar o próximo. Isso reduz a dependência de memória e permite paralelização real em hardware comum, não só em chips exóticos.
Fontes
- decrypt.cofonte original
- Categoria
- CEVIU IA
- Publicado
- 23 de junho de 2026
- Editoria
- CEVIU IA
