AWS: o que se sabe sobre a alta nos preços de IA em nuvem e os rumores de redução de custos

30 de junho de 2026

Resumo

A Amazon Web Services (AWS) tem implementado aumentos nos preços de alguns de seus principais serviços de inteligência artificial (IA) em nuvem. Os preços dos EC2 Capacity Blocks for Machine Learning, que permitem aos clientes reservar capacidade de GPU de alto desempenho, foram elevados duas vezes em 2026, com um aumento de aproximadamente 15% em janeiro e outro de cerca de 20% previsto para entrar em vigor em 1º de julho de 2026. Esses aumentos afetam as taxas horárias para a reserva de tipos de instâncias baseadas em GPUs Nvidia, incluindo as séries P6-B300, P6-B200, P5, P5e, P5en e P4de. A AWS justificou os ajustes de preços como uma atualização periódica baseada na oferta e demanda de mercado. Os chips de IA Trainium próprios da AWS e outras opções de compra, como On-Demand e Savings Plans para GPUs, permanecem inalterados.

Contrariando as especulações de uma IA em nuvem mais barata, analistas e o mercado indicam que não há rumores de que a AWS planeje reduzir os custos de seus serviços de IA em um futuro próximo. Pelo contrário, a tendência sugere que os custos de computação de IA de ponta devem permanecer elevados ou até subir, impulsionados pela alta demanda e restrições na cadeia de suprimentos de hardware especializado, como memórias de alta largura de banda (HBM). Embora o custo por inferência de modelo possa diminuir no longo prazo devido a otimizações tecnológicas, o investimento total em capacidade computacional de IA tende a continuar crescendo.

Aprofundamento CEVIU

Aprofundamento

A AWS aumentou os preços dos EC2 Capacity Blocks for ML duas vezes em 2026: +15% em janeiro e +20% previsto para 1º de julho de 2026. Esses blocos permitem reservar antecipadamente GPUs Nvidia de última geração, como P6-B300 (US$14,04/h), P5e (US$5,97/h) e outras séries P5/P4de, garantindo disponibilidade para treinamento pesado ou fine-tuning de modelos. A justificativa oficial é 'atualização periódica baseada em oferta e demanda', mas a pressão real vem de gargalos físicos: a produção global de HBM (high-bandwidth memory) está esgotada até 2026 e pode se estender até 2030, limitando diretamente quantas GPUs avançadas podem ser fabricadas e implantadas nos data centers.

Isso não é só um problema da AWS. Apple, Xbox e até Elon Musk citaram aumentos sem precedentes em chips de memória como fator-chave para repassar custos. Analistas como Peter Berezin (BCA Research) destacam que a escassez de HBM dá poder de precificação aos hyperscalers, AWS, Microsoft, Google e Oracle, porque clientes com workloads críticos de IA têm poucas alternativas quando a capacidade de GPU está apertada. Rumores de redução de preços de IA em nuvem são infundados: não há sinal de reversão nessa tendência no curto prazo.

Por que isso importa

O aumento nos Capacity Blocks não é um ajuste isolado, é um indicador de que a infraestrutura de IA está atingindo limites físicos, não apenas de software. Enquanto otimizações de modelo e inferência mais eficientes continuam a reduzir o custo por requisição, o investimento total em capacidade computacional segue subindo porque a demanda por treinamento e fine-tuning de modelos maiores cresce mais rápido do que a oferta de hardware. Isso impacta diretamente o orçamento de startups, equipes de pesquisa e empresas que dependem de capacidade reservada para garantir SLAs, ciclos de entrega e conformidade com cronogramas de lançamento.

Ou seja: não é só sobre 'quanto custa uma hora de GPU'. É sobre previsibilidade operacional. Quando a reserva de capacidade fica mais cara e menos disponível, o risco de interrupção de treinos, atrasos em experimentos e dependência de estratégias alternativas (como Spot Instances ou migração para chips próprios) aumenta, e isso tem custo oculto em tempo, qualidade de dados e time-to-market.

Impacto para desenvolvedores

Desenvolvedores e engenheiros de ML precisam repensar estratégias de provisionamento. Capacidade reservada (Capacity Blocks) agora é mais cara e menos acessível, então vale priorizar opções com melhor custo-benefício para cada workload: Trainium2 (US$4,80/h) oferece até 50% de economia em treinamento versus H100; Elastic Inference reduz custos de inferência em até 75%; e Graviton3 corta até 50% nos custos de inferência em certos cenários no SageMaker. O recurso 'Scale Down to Zero' também evita cobrança em endpoints ociosos, útil para APIs de POC ou ambientes de teste.

Além disso, táticas de FinOps ganham urgência prática: Savings Plans ainda entregam 30, 72% de desconto em workloads estáveis; Spot Instances mantêm até 90% de desconto para treinos tolerantes a falhas; e redimensionar instâncias antes de reservar pode gerar 15, 30% de economia imediata. O foco deixou de ser só 'escolher a GPU certa' para 'escolher a combinação certa de hardware, modo de compra e automação de ciclo de vida'.

Perguntas frequentes

Quando entra em vigor o aumento de 20% nos EC2 Capacity Blocks for ML da AWS?

O aumento de cerca de 20% nos preços dos EC2 Capacity Blocks for ML entra em vigor em 1º de julho de 2026. Esse reajuste foi anunciado pela AWS e afeta as taxas horárias de reserva para instâncias com GPUs Nvidia das séries P6-B300, P6-B200, P5, P5e, P5en e P4de. Não é retroativo nem aplicável a outros modelos de compra como On-Demand ou Savings Plans.

O que são EC2 Capacity Blocks for ML e por que estão mais caros?

São blocos de capacidade de GPU reserváveis antecipadamente na AWS, usados principalmente para treinamento pesado ou fine-tuning de modelos de IA com garantia de disponibilidade. Estão mais caros porque a AWS cita 'oferta e demanda' como justificativa, mas a pressão real vem de restrições físicas na cadeia de suprimentos, especialmente a escassez global de HBM (high-bandwidth memory), componente crítico para GPUs avançadas como as da série Blackwell da Nvidia.

Existe alguma alternativa mais barata à GPU da Nvidia na AWS para treinamento de IA?

Sim. Os chips Trainium2 da AWS são projetados especificamente para treinamento de deep learning e custam US$4,80 por hora, significativamente menos do que instâncias equivalentes com GPUs H100. A AWS afirma que o Trainium2 oferece até 50% de economia em custos de treinamento comparado a instâncias EC2 com GPUs Nvidia. Também há opções como Elastic Inference e Graviton3 para inferência, com reduções de até 75% e 50% respectivamente em cenários específicos.

Os rumores de redução de preços de IA em nuvem na AWS são verdadeiros?

Não. Não há rumores confiáveis ou anúncios oficiais da AWS sobre redução de preços para serviços de IA de ponta em 2026. Pelo contrário: analistas e relatos de mercado indicam que os custos devem permanecer elevados ou subir, impulsionados pela escassez de hardware especializado (HBM, GPUs) e alta demanda. A AWS manteve inalterados os preços de Trainium, On-Demand e Savings Plans, mas isso não representa uma redução, apenas estabilidade em outras modalidades.

Fontes

businessinsider.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 30 de junho de 2026
Editoria: CEVIU IA