Mais rápida, maior e mais forte: NVIDIA Blackwell domina o MLPerf Training 6.0

16 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O MLPerf Training 6.0, publicado em 16 de junho de 2026, confirma que a arquitetura NVIDIA Blackwell é a única plataforma capaz de executar todos os sete benchmarks da suíte, incluindo os dois novos modelos Mixture of Experts (MoE): DeepSeek-V3 671B e GPT-OSS-20B. A NVIDIA estabeleceu recorde no treinamento do DeepSeek-V3 671B em 2,02 minutos usando 8.192 GPUs GB300 NVL72 em infraestrutura da CoreWeave, e também alcançou 7,07 minutos para o Llama 3.1 405B com 8.192 GPUs GB200 NVL72 na Microsoft Azure. Esses resultados não são apenas sobre velocidade: eles validam a escalabilidade real da Blackwell em clusters massivos, graças à interconexão NVLink de quinta geração e ao suporte nativo a treinamento em baixa precisão com NVFP4, usado inclusive no pré-treinamento do modelo Nemotron 3 Ultra de 550 bilhões de parâmetros.

A Blackwell foi anunciada oficialmente na GTC 2024 (18 de março de 2024) como sucessora da Hopper, com 208 bilhões de transistores em processo TSMC 4NP e um design inovador de dois dies conectados por 10 TB/s. Seus Tensor Cores Ultra oferecem até 2x mais aceleração na camada de atenção e 1,5x mais FLOPS de IA que as GPUs Blackwell padrão. Já os sistemas GB200 e GB300 NVL72 operam como uma única GPU unificada, 72 GPUs integradas em rack líquido, e exigem resfriamento avançado devido ao consumo de até 1 kW por GPU.

Por que isso importa

Para equipes de IA no Brasil e no mundo, esses resultados significam que o tempo entre ideia e modelo funcional encolheu drasticamente: treinar um modelo MoE de 671 bilhões de parâmetros em menos de 3 minutos reduz ciclos de experimentação de semanas para horas. Isso impacta diretamente custos operacionais, pois cada minuto de treinamento evitado representa economia em energia, infraestrutura e mão de obra especializada. Mais importante: a confiabilidade em escala, com detecção proativa de falhas, recuperação automática via NVRx e rerouting de rede em milissegundos, transforma treinamento em produção viável, não em aposta arriscada. Não é só performance bruta: é infraestrutura projetada para rodar 24/7 em ambientes críticos, como os usados por grandes provedores de nuvem brasileiros que já adotam Blackwell via parceiros como Dell e Supermicro.

Impacto para desenvolvedores

Desenvolvedores de modelos no Brasil agora têm uma referência objetiva para escolher infraestrutura: se seu workflow envolve MoE, pré-treinamento de LLMs densos ou fine-tuning em grande escala, a Blackwell demonstrou superioridade mensurável em todas as dimensões, tempo, escala e confiabilidade. O suporte a NVFP4 permite treinar modelos maiores com menos memória, reduzindo gargalos comuns em pipelines baseados em PyTorch ou JAX. Já a integração com Spectrum-X Ethernet e Quantum InfiniBand dá flexibilidade para montar clusters otimizados conforme a stack local, sem depender de soluções proprietárias fechadas. E, embora as GPUs RTX 50 (Blackwell para consumo) tenham sido lançadas em janeiro de 2025, o foco real para devs de IA está nas plataformas GB200/GB300 NVL72, disponíveis desde o final de 2024 via parceiros como Cisco, HPE e QCT, e já em uso ativo por empresas brasileiras em nuvem híbrida e data centers próprios.

Perguntas frequentes

Quando o MLPerf Training 6.0 foi publicado?

Os resultados do MLPerf Training 6.0 foram publicados em 16 de junho de 2026. É a versão mais recente da série de benchmarks revisados por pares para treinamento de IA.

O que é o DeepSeek-V3 671B e por que ele aparece no MLPerf Training 6.0?

O DeepSeek-V3 671B é um modelo Mixture of Experts (MoE) de 671 bilhões de parâmetros, introduzido como novo benchmark no MLPerf Training 6.0 para refletir tendências reais de arquitetura de modelos. A NVIDIA foi a única a submeter resultado para ele, alcançando 2,02 minutos com 8.192 GPUs GB300 NVL72.

Qual é a diferença entre GB200 NVL72 e GB300 NVL72?

A plataforma GB300 NVL72 entrega até 1,6x mais desempenho que a GB200 NVL72 na mesma escala, graças a melhorias como maior densidade de computação com NVFP4, capacidade expandida de memória e teto de potência mais alto. Ambas integram 72 GPUs Blackwell em rack líquido e operam como uma única GPU unificada.

O que é NVFP4 e por que importa para treinamento de IA?

NVFP4 é uma técnica de treinamento em baixa precisão desenvolvida pela NVIDIA para a arquitetura Blackwell. Ela aumenta o desempenho mantendo a precisão exigida em pré-treinamento e fine-tuning, e foi usada, por exemplo, no treinamento do modelo Nemotron 3 Ultra de 550 bilhões de parâmetros.

Fontes

blogs.nvidia.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 16 de junho de 2026
Editoria: CEVIU IA