MiMo UltraSpeed: novo modelo da Xiaomi processa 1.000 tokens por segundo e deixa ChatGPT e Claude para trás

Q: O MiMo UltraSpeed está disponível no Hugging Face?

Sim. A Xiaomi publicou o checkpoint MiMo-V2.5-Pro-FP4-DFlash no Hugging Face. O TileRT também liberou módulos selecionados no GitHub, mas o runtime completo e a API UltraSpeed são acessados apenas via convite durante o teste limitado.

09 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O MiMo-V2.5-Pro-UltraSpeed não é um modelo novo do zero, mas uma versão otimizada do MiMo-V2.5-Pro, lançado em abril de 2026, ativada via sistema TileRT. Ele usa três técnicas combinadas: quantização MXFP4 só nas camadas de especialistas (MoE Experts), decodificação especulativa DFlash com modelo de rascunho baseado em difusão e o runtime TileRT com Kernel de Motor Persistente. Essa arquitetura de codesign permite mais de 1.000 tokens/s em 8 GPUs, com picos próximos a 1.200 tokens/s, desempenho inédito para modelos de um trilhão de parâmetros em hardware comercial.

A Xiaomi disponibilizou o checkpoint MiMo-V2.5-Pro-FP4-DFlash abertamente no Hugging Face, e o TileRT liberou módulos selecionados no GitHub. O acesso ao modo UltraSpeed é restrito: teste limitado de API de 9 a 23 de junho de 2026, apenas para empresas e devs profissionais, com limite de 10 entradas na fila por dia e sessões de até 30 minutos. Não há plano de tokens, o custo é fixo, três vezes maior que a versão padrão do MiMo-V2.5-Pro, mas com até dez vezes mais saída gerada.

Por que isso importa

Isso mostra que a aceleração de LLMs já saiu da fase de otimizações pontuais e entrou em um estágio de integração profunda entre modelo, formato numérico e runtime. O TileRT não é só um scheduler: ele elimina o overhead de lançamento de operadores com um kernel residente na GPU e usa Warp Specialization para sincronizar dados, computação e comunicação. Isso explica por que o MiMo-V2.5-Pro-UltraSpeed supera marcos como Eagle-3 em cenários reais de codificação, com média de 6,30 tokens aceitos por passagem de rascunho. É um sinal claro de que a próxima geração de inferência vai ser definida por sistemas, não só por modelos.

Impacto para desenvolvedores

Desenvolvedores que usam APIs de LLMs agora têm uma opção com latência extremamente baixa para aplicações sensíveis a tempo, como IDEs inteligentes, assistência em tempo real ou agentes interativos com múltiplos turnos. Mas o custo e as restrições de acesso exigem avaliação cuidadosa: o UltraSpeed não é plug-and-play. Requer adaptação ao fluxo de tokenização e à lógica de rascunho do DFlash. A disponibilidade do checkpoint no Hugging Face e dos módulos do TileRT no GitHub abre espaço para testes locais e personalização, mas sem suporte oficial para inferência offline ainda. O foco atual é em nuvem, com API controlada pela Xiaomi.

Perguntas frequentes

O que é o MiMo-V2.5-Pro-UltraSpeed?

É uma versão de alta velocidade do modelo MiMo-V2.5-Pro, lançado pela Xiaomi em parceria com o TileRT. Ele não é um modelo distinto, mas uma configuração otimizada que combina quantização MXFP4 nas camadas MoE, decodificação especulativa DFlash e o runtime TileRT para atingir mais de 1.000 tokens por segundo em 8 GPUs.

Quando o MiMo UltraSpeed foi lançado?

O MiMo-V2.5-Pro-UltraSpeed foi lançado em 8 de junho de 2026 como modo de serviço do MiMo-V2.5-Pro. O teste limitado de API ocorre de 9 a 23 de junho de 2026, exclusivamente para empresas e desenvolvedores profissionais.

Qual é a diferença entre MiMo-V2.5-Pro e MiMo-V2.5-Pro-UltraSpeed?

O MiMo-V2.5-Pro é o modelo base, lançado em abril de 2026, com arquitetura MoE de um trilhão de parâmetros e suporte multimodal. O UltraSpeed é uma camada de otimização de inferência sobre ele, usando MXFP4, DFlash e TileRT, que entrega até dez vezes mais saída com custo triplicado, mas sem alterar a estrutura ou os pesos do modelo original.

O MiMo UltraSpeed está disponível no Hugging Face?

Sim. A Xiaomi publicou o checkpoint MiMo-V2.5-Pro-FP4-DFlash no Hugging Face. O TileRT também liberou módulos selecionados no GitHub, mas o runtime completo e a API UltraSpeed são acessados apenas via convite durante o teste limitado.

Links relacionados

Fontes

decrypt.cofonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 09 de junho de 2026
Editoria: CEVIU IA