Voltar

Como a NetEase Games reduziu o cold start de LLMs de 42 minutos para 30 segundos

O autoescalonamento serverless de GPU funciona de forma eficaz apenas quando o acesso aos dados do modelo é preaquecido, compartilhado e consciente de namespace. Em testes de benchmark, o tempo de startup melhorou de 42 minutos para 14 minutos com o caching do Alluxio, e depois para menos de um minuto com o prefetching do Fluid totalmente otimizado.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU Dados
Publicado
11 de maio de 2026
Fonte
CEVIU Dados

Quer receber mais sobre CEVIU Dados?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser