CEVIU Logo
Voltar
NVIDIA Vera Rubin: o que se sabe sobre a próxima arquitetura de chips de IA

NVIDIA Vera Rubin: o que se sabe sobre a próxima arquitetura de chips de IA

Aprofundamento CEVIU

Aprofundamento

A plataforma NVIDIA Vera Rubin não é um único chip, mas uma arquitetura de sistema em rack com sete chips co-projetados, incluindo a GPU Rubin (TSMC N3, 336 bilhões de transistores, dois dies), a CPU Vera (88 núcleos Olympus ARMv9.2-A, 176 threads) e aceleradores especializados como o Groq 3 LPU. Ela entrou em produção total em junho de 2026, com amostras entregues a clientes desde fevereiro e primeiros envios previstos para o terceiro trimestre de 2026. Os sistemas Vera Rubin NVL4 devem chegar a fabricantes globais no quarto trimestre de 2026, enquanto provedores de nuvem começam a receber os racks a partir do outono de 2026.

O desempenho é focado em inferência de IA agente e modelos de longo contexto: a GPU Rubin entrega 50 PFLOPS em NVFP4, 2,5× mais que Blackwell e 5× mais que a B200, com até 22 TB/s de largura de banda HBM4 (envios iniciais em torno de 20 TB/s). A CPU Vera oferece 1,2 TB/s de LPDDR5X e acesso coerente à memória das GPUs via NVLink-C2C a 1,8 TB/s. A configuração NVL72 atinge 3,6 exaflops de inferência NVFP4, e a NVL144 supera a Blackwell Ultra (GB300 NVL72) em 3,3× por rack.

Por que isso importa

A Vera Rubin resolve gargalos críticos de IA agente: latência alta, custo por token elevado e limitações de contexto. Com 50% mais memória por GPU e quase 3× mais largura de banda que a Blackwell, ela reduz pressão sobre caches KV e permite execução estável de modelos com contextos de centenas de milhares de tokens. A NVIDIA afirma que o custo por milhão de tokens em inferência de IA agente cai para um décimo comparado à Blackwell, um fator decisivo para operações comerciais escaláveis de agentes autônomos.

Além disso, a arquitetura é a base da próxima geração de 'fábricas de IA': sistemas Vera Rubin já estão sendo integrados em supercomputadores para clima, energia e descoberta de fármacos. Sua adoção por todos os grandes provedores de nuvem (AWS, Google Cloud, Azure, Oracle Cloud) está alinhada com a projeção da NVIDIA de US$ 1 trilhão em vendas cumulativas de chips de IA até o final de 2027, o dobro da estimativa anterior para 2026.

Impacto para desenvolvedores

Para desenvolvedores, a Vera Rubin muda o cenário de otimização: suporte nativo a NVFP4, memória HBM4 e interconexão NVLink-C2C exigem atualizações em pilhas de inferência como TensorRT-LLM e vLLM. Modelos que sofrem com 'KV cache thrashing' em Blackwell ganham ganhos reais de throughput e redução de pico de latência. A CPU Vera também abre espaço para orquestração local de agentes, com 88 núcleos ARM dedicados a gerenciamento de estado, roteamento entre modelos e pré-processamento de contexto, sem depender de CPUs x86 externas.

No entanto, não há SDK público ou documentação oficial ainda disponível. A integração inicial será via fornecedores como Dell, HPE e Lenovo, com imagens de sistema pré-configuradas para frameworks como Triton Inference Server. Desenvolvedores devem priorizar testes com quantização FP4/NVFP4 e ajuste de batch size em ambientes de staging com hardware de referência, já que o salto de desempenho só se materializa com cargas bem adaptadas à nova hierarquia de memória e interconexão.

Perguntas frequentes

O que é a NVIDIA Vera Rubin?

A Vera Rubin é a próxima arquitetura de sistema em rack da NVIDIA, sucessora da Blackwell. Não é um único chip, mas uma plataforma integrada com GPU Rubin, CPU Vera (baseada em núcleos Olympus ARM), NVLink 6 Switch, ConnectX-9 SuperNIC e outros componentes projetados para IA agente e inferência de longo contexto. Entrou em produção total em junho de 2026.

Quando a Vera Rubin vai estar disponível?

Amostras foram entregues a clientes em fevereiro de 2026. Primeiros envios estão previstos para o terceiro trimestre de 2026, com sistemas Vera Rubin NVL4 disponíveis via fabricantes globais no quarto trimestre de 2026. Provedores de nuvem devem começar a disponibilizá-la a partir do outono de 2026.

Qual é a diferença entre Vera Rubin e Blackwell?

A Vera Rubin promete 5× mais desempenho de inferência NVFP4 que a B200, 50% mais memória por GPU e quase 3× mais largura de banda de memória. Usa TSMC N3 (3nm), HBM4, NVLink-C2C entre CPU e GPU, e é otimizada para IA agente, ao passo que a Blackwell (B200/GB200) foca em treinamento e inferência em escala de trilhão de parâmetros com menor eficiência por token em agentes.

O que é a Vera Rubin Ultra?

A Rubin Ultra é uma versão avançada confirmada para o segundo semestre de 2027. Usará a arquitetura de rack Kyber NVL576, com 576 dies de GPU por rack, cada um entregando ~100 PFLOPS NVFP4 e até 32 TB/s de largura de banda HBM4e. A CPU Vera permanece, mas a interconexão evolui para NVLink 7.

Fontes

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Hardware
Publicado
30 de junho de 2026
Editoria
CEVIU Hardware

Quer receber mais sobre CEVIU Hardware?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser