Voltar
⚙️CEVIU IA

Prefill-as-a-Service: KVCache de Modelos de Próxima Geração Pode Atravessar Datacenters

Prefill-as-a-Service (PrfaaS) é uma arquitetura de serving cross-datacenter que descarrega seletivamente o prefill de contexto longo para clusters de prefill autônomos e densos em compute. Em seguida, transfere o KVCache resultante via Ethernet comercial para clusters locais de PD para decodificação. Esta abordagem combina a eficiência KV do lado do modelo com um offloading seletivo do lado do sistema, agendamento sensível à largura de banda e alocação de requisições sensível ao cache.

O design do PrfaaS elimina a exigência de que aceleradores heterogêneos compartilhem o mesmo fabric RDMA de baixa latência, permitindo o escalonamento independente da capacidade de prefill e decodificação entre clusters fracamente acoplados. Uma implantação heterogênea aumentada por PrfaaS alcança maior throughput de serving, consumindo apenas uma largura de banda cross-datacenter modesta.

Avalie este artigo:
Compartilhar:
Categoria
CEVIU IA
Publicado
20 de abril de 2026
Fonte
CEVIU IA

Quer receber mais sobre CEVIU IA?

Conteúdo curado diariamente, direto no seu e-mail.

Conteúdo curado diariamenteDiversas categoriasCancele quando quiser