MoE Inference Mais Rápida com Warp Decode
O 'warp decode' da Cursor é um design de kernel que reorganiza a MoE inference em torno dos neurônios de saída, em vez dos experts. Essa abordagem atinge um throughput aproximadamente 1.8x maior e melhora a precisão numérica em GPUs Blackwell.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 08 de abril de 2026
- Fonte
- CEVIU IA
