Como construímos os modelos DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B mais performáticos em Droplets de GPU NVIDIA HGX™ B300 da DigitalOcean

29 de abril de 2026

A DigitalOcean anunciou a general availability do DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B em sua plataforma Serverless Inference. A plataforma alcançou as velocidades de output mais rápidas entre todos os provedores testados, com o DeepSeek V3.2 entregando 230 tokens por segundo e tempo para o primeiro token em menos de 1 segundo para 10.000 tokens de input.

Esse desempenho notável foi obtido com o uso de GPUs NVIDIA HGX B300, que contam com 288GB de memória. As otimizações incluíram a aplicação da quantization NVFP4, que resultou em uma redução de 1.8x na pegada de memória, e ajustes customizados ao framework de serving vLLM, realizados em colaboração com a Inferact.

Avalie este artigo:

Categoria: CEVIU DevOps
Publicado: 29 de abril de 2026
Fonte: CEVIU DevOps

Quer receber mais sobre CEVIU DevOps?