AWS: o que se sabe sobre a alta nos preços de IA em nuvem e os rumores de redução de custos
Aprofundamento CEVIU
Aprofundamento
A AWS aumentou os preços dos EC2 Capacity Blocks for ML duas vezes em 2026: +15% em janeiro e +20% previsto para 1º de julho de 2026. Esses blocos permitem reservar antecipadamente GPUs Nvidia de última geração, como P6-B300 (US$14,04/h), P5e (US$5,97/h) e outras séries P5/P4de, garantindo disponibilidade para treinamento pesado ou fine-tuning de modelos. A justificativa oficial é 'atualização periódica baseada em oferta e demanda', mas a pressão real vem de gargalos físicos: a produção global de HBM (high-bandwidth memory) está esgotada até 2026 e pode se estender até 2030, limitando diretamente quantas GPUs avançadas podem ser fabricadas e implantadas nos data centers.
Isso não é só um problema da AWS. Apple, Xbox e até Elon Musk citaram aumentos sem precedentes em chips de memória como fator-chave para repassar custos. Analistas como Peter Berezin (BCA Research) destacam que a escassez de HBM dá poder de precificação aos hyperscalers, AWS, Microsoft, Google e Oracle, porque clientes com workloads críticos de IA têm poucas alternativas quando a capacidade de GPU está apertada. Rumores de redução de preços de IA em nuvem são infundados: não há sinal de reversão nessa tendência no curto prazo.
Por que isso importa
O aumento nos Capacity Blocks não é um ajuste isolado, é um indicador de que a infraestrutura de IA está atingindo limites físicos, não apenas de software. Enquanto otimizações de modelo e inferência mais eficientes continuam a reduzir o custo por requisição, o investimento total em capacidade computacional segue subindo porque a demanda por treinamento e fine-tuning de modelos maiores cresce mais rápido do que a oferta de hardware. Isso impacta diretamente o orçamento de startups, equipes de pesquisa e empresas que dependem de capacidade reservada para garantir SLAs, ciclos de entrega e conformidade com cronogramas de lançamento.
Ou seja: não é só sobre 'quanto custa uma hora de GPU'. É sobre previsibilidade operacional. Quando a reserva de capacidade fica mais cara e menos disponível, o risco de interrupção de treinos, atrasos em experimentos e dependência de estratégias alternativas (como Spot Instances ou migração para chips próprios) aumenta, e isso tem custo oculto em tempo, qualidade de dados e time-to-market.
Impacto para desenvolvedores
Desenvolvedores e engenheiros de ML precisam repensar estratégias de provisionamento. Capacidade reservada (Capacity Blocks) agora é mais cara e menos acessível, então vale priorizar opções com melhor custo-benefício para cada workload: Trainium2 (US$4,80/h) oferece até 50% de economia em treinamento versus H100; Elastic Inference reduz custos de inferência em até 75%; e Graviton3 corta até 50% nos custos de inferência em certos cenários no SageMaker. O recurso 'Scale Down to Zero' também evita cobrança em endpoints ociosos, útil para APIs de POC ou ambientes de teste.
Além disso, táticas de FinOps ganham urgência prática: Savings Plans ainda entregam 30, 72% de desconto em workloads estáveis; Spot Instances mantêm até 90% de desconto para treinos tolerantes a falhas; e redimensionar instâncias antes de reservar pode gerar 15, 30% de economia imediata. O foco deixou de ser só 'escolher a GPU certa' para 'escolher a combinação certa de hardware, modo de compra e automação de ciclo de vida'.
Perguntas frequentes
Quando entra em vigor o aumento de 20% nos EC2 Capacity Blocks for ML da AWS?
O aumento de cerca de 20% nos preços dos EC2 Capacity Blocks for ML entra em vigor em 1º de julho de 2026. Esse reajuste foi anunciado pela AWS e afeta as taxas horárias de reserva para instâncias com GPUs Nvidia das séries P6-B300, P6-B200, P5, P5e, P5en e P4de. Não é retroativo nem aplicável a outros modelos de compra como On-Demand ou Savings Plans.
O que são EC2 Capacity Blocks for ML e por que estão mais caros?
São blocos de capacidade de GPU reserváveis antecipadamente na AWS, usados principalmente para treinamento pesado ou fine-tuning de modelos de IA com garantia de disponibilidade. Estão mais caros porque a AWS cita 'oferta e demanda' como justificativa, mas a pressão real vem de restrições físicas na cadeia de suprimentos, especialmente a escassez global de HBM (high-bandwidth memory), componente crítico para GPUs avançadas como as da série Blackwell da Nvidia.
Existe alguma alternativa mais barata à GPU da Nvidia na AWS para treinamento de IA?
Sim. Os chips Trainium2 da AWS são projetados especificamente para treinamento de deep learning e custam US$4,80 por hora, significativamente menos do que instâncias equivalentes com GPUs H100. A AWS afirma que o Trainium2 oferece até 50% de economia em custos de treinamento comparado a instâncias EC2 com GPUs Nvidia. Também há opções como Elastic Inference e Graviton3 para inferência, com reduções de até 75% e 50% respectivamente em cenários específicos.
Os rumores de redução de preços de IA em nuvem na AWS são verdadeiros?
Não. Não há rumores confiáveis ou anúncios oficiais da AWS sobre redução de preços para serviços de IA de ponta em 2026. Pelo contrário: analistas e relatos de mercado indicam que os custos devem permanecer elevados ou subir, impulsionados pela escassez de hardware especializado (HBM, GPUs) e alta demanda. A AWS manteve inalterados os preços de Trainium, On-Demand e Savings Plans, mas isso não representa uma redução, apenas estabilidade em outras modalidades.
Fontes
- businessinsider.comfonte original
- Categoria
- CEVIU IA
- Publicado
- 30 de junho de 2026
- Editoria
- CEVIU IA

