Voltar

Como construímos os modelos DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B mais performáticos em Droplets de GPU NVIDIA HGX™ B300 da DigitalOcean

A DigitalOcean anunciou a general availability do DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B em sua plataforma Serverless Inference. A plataforma alcançou as velocidades de output mais rápidas entre todos os provedores testados, com o DeepSeek V3.2 entregando 230 tokens por segundo e tempo para o primeiro token em menos de 1 segundo para 10.000 tokens de input.

Esse desempenho notável foi obtido com o uso de GPUs NVIDIA HGX B300, que contam com 288GB de memória. As otimizações incluíram a aplicação da quantization NVFP4, que resultou em uma redução de 1.8x na pegada de memória, e ajustes customizados ao framework de serving vLLM, realizados em colaboração com a Inferact.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU DevOps
Publicado
29 de abril de 2026
Fonte
CEVIU DevOps

Quer receber mais sobre CEVIU DevOps?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser