Prefill-as-a-Service: KVCache de Modelos de Próxima Geração Pode Atravessar Datacenters
Prefill-as-a-Service (PrfaaS) é uma arquitetura de serving cross-datacenter que descarrega seletivamente o prefill de contexto longo para clusters de prefill autônomos e densos em compute. Em seguida, transfere o KVCache resultante via Ethernet comercial para clusters locais de PD para decodificação. Esta abordagem combina a eficiência KV do lado do modelo com um offloading seletivo do lado do sistema, agendamento sensível à largura de banda e alocação de requisições sensível ao cache.
O design do PrfaaS elimina a exigência de que aceleradores heterogêneos compartilhem o mesmo fabric RDMA de baixa latência, permitindo o escalonamento independente da capacidade de prefill e decodificação entre clusters fracamente acoplados. Uma implantação heterogênea aumentada por PrfaaS alcança maior throughput de serving, consumindo apenas uma largura de banda cross-datacenter modesta.
- Categoria
- CEVIU IA
- Publicado
- 20 de abril de 2026
- Fonte
- CEVIU IA
