Como a NetEase Games reduziu o cold start de LLMs de 42 minutos para 30 segundos
O autoescalonamento serverless de GPU funciona de forma eficaz apenas quando o acesso aos dados do modelo é preaquecido, compartilhado e consciente de namespace. Em testes de benchmark, o tempo de startup melhorou de 42 minutos para 14 minutos com o caching do Alluxio, e depois para menos de um minuto com o prefetching do Fluid totalmente otimizado.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 11 de maio de 2026
- Fonte
- CEVIU Dados
