MiMo UltraSpeed: novo modelo da Xiaomi processa 1.000 tokens por segundo e deixa ChatGPT e Claude para trás
Aprofundamento CEVIU
Aprofundamento
A Xiaomi não lançou só um modelo mais rápido. Ela co-desenhou um sistema completo com a TileRT, onde o MiMo-V2.5-Pro-UltraSpeed (1 trilhão de parâmetros, MoE) é apenas a ponta visível de uma cadeia técnica que inclui quantização FP4 seletiva em Experts, decodificação especulativa DFlash, que propõe blocos inteiros de tokens em paralelo, não um por um, e o runtime TileRT, um motor baseado em 'tiles' e compilador que reescala dinamicamente computação, I/O e comunicação. Isso explica como atinge 1.000–1.200 t/s em 8 GPUs padrão, sem silício personalizado: é otimização de baixo nível aplicada com precisão cirúrgica, não força bruta. O modelo anterior, MiMo-V2-Flash (dezembro/2025), fazia 150 t/s, ou seja, o salto não é incremental, mas arquitetural.
O contexto recente mostra que essa corrida por velocidade não é isolada: o Kimi K2.6 da Cerebras também bateu 1.000 t/s em maio, mas usando o Wafer Scale Engine, hardware dedicado; o Mercury 2 da Inception Labs usou difusão para chegar lá, com trade-offs em raciocínio; já o MiMo-V2.5-Pro-UltraSpeed faz isso em hardware comercial, com qualidade mantida graças ao QAT (quantização consciente do treinamento) e à granularidade da aplicação do FP4, só nos Experts, enquanto outras camadas ficam em FP8. É a primeira vez que um modelo dessa escala rompe a barreira dos 1.000 t/s sem sacrificar compatibilidade com infraestrutura existente.
O que mudou
O MiMo-V2.5-Pro-UltraSpeed representa uma evolução concreta em relação ao MiMo-V2-Flash (dezembro/2025): subiu de 150 para 1.000+ tokens por segundo, incorporou DFlash (técnica inédita na linha MiMo), integrou o runtime TileRT como parte do stack nativo (antes era opcional) e passou de um modelo otimizado para latência média para um focado em throughput extremo com garantia de qualidade via QAT. Também é a primeira versão da família a usar quantização FP4 seletiva em MoE, algo que só aparecia em rumores sobre testes internos da Xiaomi em abril, agora confirmado e produtivo.
Por que isso importa
Velocidade de inferência não é só sobre respostas rápidas. Modelos que geram mais de 1.000 tokens por segundo tornam viável rodar agentes autônomos com múltiplas etapas de raciocínio em tempo real, como análise de documentos legais completos, geração simultânea de código + testes + documentação, ou orquestração de workflows industriais com feedback contínuo. Isso muda a economia de uso: o custo por token cai drasticamente mesmo com preço 3× maior, porque a saída por dólar sobe 10×. E, ao fazer isso em hardware padrão, a Xiaomi reduz a dependência de aceleradores exóticos, abrindo espaço para empresas menores adotarem modelos frontier sem ter que reescrever toda sua infraestrutura.
Linha do tempo
Lançamento do MiMo-V2-Flash, com 150 tokens por segundo
Subquadratic lança modelo com janela de 12 milhões de tokens
DeepSeek divulga preview do V4-Pro (1,6 trilhão de parâmetros, 49 bilhões ativos)
Cerebras executa Kimi K2.6 com 1.000 tokens por segundo em hardware dedicado
NVIDIA lança Nemotron Ultra 550B com suporte a NVFP4
MiniMax anuncia M3 com 1 milhão de tokens de contexto e multimodalidade
Xiaomi e TileRT lançam MiMo-V2.5-Pro-UltraSpeed com 1.000+ tokens por segundo em 8 GPUs padrão
Perguntas frequentes
O MiMo-V2.5-Pro-UltraSpeed é realmente 15 vezes mais rápido que ChatGPT?
Sim, comparado ao GPT-5 (ChatGPT), que opera em torno de 178 t/s, e muito mais que o GPT-4 (15 t/s) ou Claude Opus (71 t/s). A Xiaomi atinge 1.000–1.200 t/s em configuração padrão de 8 GPUs, não em hardware especializado nem em benchmarks artificiais.
O que é DFlash e por que ele muda as regras da inferência?
DFlash é uma técnica de decodificação especulativa que prevê blocos inteiros de tokens em uma única passagem paralela, em vez de gerar um por um. Em testes, acelera até 6× sem perda de qualidade, quase 2,5× mais rápido que o EAGLE-3, o padrão anterior em eficiência especulativa.
Por que usar FP4 só nos Experts e não no modelo inteiro?
Experts em arquiteturas MoE são os módulos mais pesados em memória e largura de banda. Aplicar FP4 só neles reduz o consumo de VRAM e aumenta o throughput, sem afetar a precisão crítica de camadas como normas, atenção ou head de saída, que ficam em FP8. Isso preserva a qualidade mesmo com compressão agressiva.
Esse modelo está disponível para todos?
Não. O acesso é restrito a um teste de API entre 9 e 23 de junho de 2026, com inscrição por aplicação. Prioriza empresas e devs com casos de uso comerciais reais, não é aberto ao público geral nem para experimentação acadêmica.
- Categoria
- CEVIU IA
- Publicado
- 09 de junho de 2026
- Fonte
- CEVIU IA
