CEVIU Logo
Voltar

NVIDIA Blackwell lidera em primeiro benchmark de infraestrutura para IA agentic

Aprofundamento CEVIU

Aprofundamento

O AgentPerf, lançado em abril de 2024 pela Artificial Analysis, é o primeiro benchmark do mundo focado exclusivamente em infraestrutura para IA agentic, não em modelos isolados, mas em quantos agentes concorrentes um sistema consegue executar com baixa latência e alta eficiência energética. Ele simula cargas reais: sessões de codificação multi-turn com raciocínio intercalado (como no DeepSeek V4 Pro), chamadas de ferramentas e contextos variáveis em 12+ linguagens. A métrica-chave é 'agentes por megawatt', normalizada por acelerador, o que elimina viés de escala e força comparações justas entre arquiteturas.

A NVIDIA Blackwell Ultra NVL72 (parte da plataforma GB300) liderou a rodada inicial com 20× mais agentes por megawatt que a geração Hopper, resultado diretamente ligado ao seu design físico: 72 GPUs B200 + 36 CPUs Grace em rack resfriado a líquido, interconexão NVLink de 130 TB/s, 37 TB de memória unificada e largura de banda entre dies de 10 TB/s via NV-HBI. Isso permite que cada agente execute múltiplas etapas (planejamento, tool calling, reflexão) sem gargalos de comunicação ou calor.

Por que isso importa

IA agentic não é só sobre 'mais tokens', é sobre execução autônoma. Um único agente pode fazer 50 chamadas de API, gerar código, testá-lo, corrigir erros e submeter PRs sem intervenção. Isso exige infraestrutura que sustente centenas de fluxos paralelos com baixa latência por passo. O AgentPerf mede exatamente isso: se seu rack entrega 100 agentes com <500ms de tempo para o primeiro token e >12 tokens/s, ele está pronto para produção. Sem benchmarks assim, empresas gastam milhões em GPUs que travam sob carga real de agentes, como já relatado por equipes da Accenture e Thoughtworks em testes internos com Llama-3-MoE e o1-preview.

Impacto para desenvolvedores

Para devs e SREs, o resultado do AgentPerf muda a forma de dimensionar infraestrutura. Não basta olhar para FLOPS ou VRAM: agora é preciso priorizar largura de banda NVLink, latência de memória unificada e eficiência térmica por watt. A Blackwell Ultra NVL72 atinge 144 petaFLOPS de inferência com 132, 140 kW, ou seja, um único rack substitui dezenas de servidores Hopper em cenários de orquestração de agentes. Isso impacta decisões práticas: escolher GB300 NVL72 em vez de clusters de H100 reduz custos operacionais em até 40%, segundo dados preliminares da Equinix em testes com frameworks como LangGraph e AutoGen. E para quem usa workstations, as novas RTX Pro 4000 SFF (Blackwell, 70W TDP) já rodam agentes locais com desempenho compatível com servidores anteriores, útil para desenvolvimento iterativo antes de escalar para cloud.

Perguntas frequentes

O que é o AgentPerf e por que é o primeiro benchmark para IA agentic?

O AgentPerf é uma ferramenta de avaliação de hardware lançada em abril de 2024 pela Artificial Analysis. É o primeiro benchmark do setor que mede quantos agentes de IA concorrentes um sistema consegue executar com metas de latência (tempo para o primeiro token) e throughput (tokens por segundo), usando trajetórias reais de codificação com raciocínio intercalado e chamadas de ferramentas. Diferentemente de benchmarks como MLPerf, ele não avalia apenas inferência estática, mas a capacidade de sustentar fluxos multi-etapa autônomos.

Qual é a diferença entre Blackwell Ultra NVL72 e GB200 NVL72?

A Blackwell Ultra NVL72 faz parte da plataforma GB300, enquanto o GB200 NVL72 é da geração anterior. A GB300 traz 72 GPUs B200 (não B100), 36 CPUs Grace, interconexão NVLink de 130 TB/s (contra 90 TB/s no GB200), 37 TB de memória unificada (contra 28 TB) e consumo de 132, 140 kW. A NVIDIA afirma que a GB300 oferece 1,5× mais desempenho de IA e 50× mais produção de fábrica de IA que o GB200.

Quando as GPUs Blackwell Ultra NVL72 estarão disponíveis comercialmente?

Segundo anúncios oficiais da NVIDIA na GTC 2024 e atualizações em maio de 2024, os sistemas GB300 NVL72 estão sendo entregues a parceiros estratégicos (como Oracle Cloud, AWS e Microsoft Azure) desde junho de 2024. A disponibilidade geral para clientes empresariais está prevista para o final de 2024, com ampliação global até o primeiro trimestre de 2025.

O que é IA agentic e por que ela exige hardware diferente?

IA agentic refere-se a sistemas que planejam, tomam decisões e executam ações multi-etapas de forma autônoma, como um agente que depura código, chama APIs, revisa saída e itera sozinho. Isso exige hardware com baixa latência entre etapas, alta largura de banda para comunicação entre modelos e ferramentas, e eficiência energética para manter centenas de instâncias simultâneas. GPUs projetadas só para treinamento (como Hopper) falham nessa carga, mesmo com alto pico de FLOPS.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
12 de junho de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser