Netflix simplifica batch compute com Kueue
Aprofundamento CEVIU
Aprofundamento
A Netflix migrou sua plataforma de batch compute para o Kueue, sistema de enfileiramento e agendamento nativo do Kubernetes, substituindo o antigo Compute Managed Batch (CMB). A mudança foi feita sem impacto para os usuários finais, mantendo compatibilidade total com a API existente. Internamente, a arquitetura evoluiu: tenants internos viraram Cohorts, e leaf tenants foram mapeados para ClusterQueues e LocalQueues. O Kueue agora gerencia filas, prioridades e alocação justa de recursos em múltiplos clusters Titus, aproveitando primitivas nativas como v1.Pod e batch/v1.Job.
Um ponto técnico crucial foi a adoção de preemption baseado em fair sharing. Enquanto o CMB só aplicava divisão justa na admissão, e não podia interromper jobs já rodando , , o Kueue permite que workloads de baixa prioridade sejam preemptados quando há demanda por capacidade reservada ou por cargas mais críticas. Isso aumentou diretamente a utilização média dos recursos, especialmente em reservas ociosas, que agora podem ser emprestadas com garantia de recuperação sob demanda.
Por que isso importa
Essa migração mostra como grandes empresas estão substituindo sistemas proprietários por componentes do ecossistema Kubernetes, reduzindo custo operacional e acelerando inovação. Ao adotar o Kueue, a Netflix passa a ter acesso imediato a novas funcionalidades da comunidade, como all-or-nothing scheduling e topology-aware placement, sem precisar desenvolvê-las do zero. Além disso, o modelo de fair sharing com preemption melhora a eficiência do uso de infraestrutura, um ganho direto em custos e desempenho para pipelines de dados e treinamento de modelos, que dependem fortemente de execução em lote escalável.
Linha do tempo
Lançamento do Compute Managed Batch (CMB), solução interna de batch compute da Netflix
Netflix conclui migração total do CMB para o Kueue, simplificando o batch compute com tecnologia nativa do Kubernetes
Perguntas frequentes
O que é Kueue e por que a Netflix escolheu ele?
Kueue é um sistema de fila e agendamento de jobs em lote nativo do Kubernetes. A Netflix escolheu porque integra com o scheduler nativo do kube-scheduler, mantém compatibilidade com perfis de agendamento do Titus, suporta hardware heterogêneo e oferece recursos avançados como preemption e escalonamento justo. Outras soluções, como YuniKorn ou Volcano, exigiriam substituir partes críticas do agendamento, o que poderia comprometer eficiência.
Como a migração afetou os usuários do batch compute?
Nenhum usuário precisou alterar suas aplicações ou fluxos. A migração foi transparente, com API mantida idêntica. A mudança ocorreu apenas na camada de operação, onde tenants foram convertidos automaticamente para estruturas equivalentes no Kueue. Até o rollback foi possível com um clique na interface interna.
Qual o impacto do preemption no uso de recursos?
Com o CMB, uma vez que um job era admitido, ele rodava até o fim, mesmo se outros tenants tivessem maior prioridade. Agora, o Kueue pode interromper trabalhos de baixa prioridade para alocar recursos a cargas mais críticas. Isso evita subutilização de reservas e melhora o turnaround de workloads importantes, aumentando a eficiência geral do cluster.
Fontes
- netflixtechblog.comfonte original
- Categoria
- CEVIU Dados
- Publicado
- 25 de junho de 2026
- Editoria
- CEVIU Dados

