Como construímos os modelos DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B mais performáticos em Droplets de GPU NVIDIA HGX™ B300 da DigitalOcean
A DigitalOcean anunciou a general availability do DeepSeek V3.2, MiniMax-M2.5 e Qwen 3.5 397B em sua plataforma Serverless Inference. A plataforma alcançou as velocidades de output mais rápidas entre todos os provedores testados, com o DeepSeek V3.2 entregando 230 tokens por segundo e tempo para o primeiro token em menos de 1 segundo para 10.000 tokens de input.
Esse desempenho notável foi obtido com o uso de GPUs NVIDIA HGX B300, que contam com 288GB de memória. As otimizações incluíram a aplicação da quantization NVFP4, que resultou em uma redução de 1.8x na pegada de memória, e ajustes customizados ao framework de serving vLLM, realizados em colaboração com a Inferact.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU DevOps
- Publicado
- 29 de abril de 2026
- Fonte
- CEVIU DevOps
