Nunca desperdice um token: como evitar perdas de custo em chamadas de IA

17 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O artigo de Sunil Pai não é só sobre 'não perder tokens', é sobre reconstruir a camada de infraestrutura entre agentes e LLMs. A falha que gera o desperdício não está no código do seu agente, mas na arquitetura: quando um processo morre (por deploy, OOM ou evicção), a conexão HTTP com o provedor some com ele. Você paga pelos tokens gerados até aquele instante, mas perde o acesso a eles. A solução proposta, um buffer como Durable Object no Cloudflare, move essa conexão para fora do ciclo de vida do agente. Isso transforma o stream em um ativo durável: os tokens são escritos em SQLite assim que saem do modelo, e qualquer leitor (browser, agente reiniciado ou ferramenta de monitoramento) pode acessá-los a partir de um índice de evento.

Isso explica por que a OpenAI conseguiu implementar algo semelhante nativamente no Responses API: ela controla toda a pilha. Já Anthropic e Gemini exigem rechamadas porque sua infraestrutura não mantém o estado da geração após o drop da conexão. O ponto crítico, confirmado por testes recentes no AI Gateway, é que resumir por event index, não por byte offset ou tempo, é o único jeito confiável de garantir correspondência exata. E isso só funciona se o buffer for gerenciado em infraestrutura que nunca é reimplantada junto com seu código: gateway, não worker.

O que mudou

Em abril de 2026, a CEVIU já alertava que comparar preços por milhão de tokens era enganoso, agora sabemos que até o *modo como você paga* por eles muda radicalmente. Em junho de 2026, o Cloudflare AI Gateway lançou suporte real a resume durável (com cf-aig-run-id e recuperação por event index), validado com seis modelos diferentes. Isso é uma virada: antes, a única opção para evitar dupla cobrança era construir sua própria camada de buffer (como o DO hack descrito por Pai). Hoje, basta ativar uma flag no gateway, e o recurso já está rodando em tráfego real, não em beta teórico. Também houve mudança regulatória: o Google impôs limites máximos de gastos mensais na API Gemini em abril, e a Anthropic reverteu sua mudança para créditos baseados em uso em 15 de junho, reconhecendo que modelos de faturamento devem acompanhar a realidade operacional, incluindo o risco de tokens perdidos.

Por que isso importa

Um token desperdiçado não é só um centavo perdido. É um sintoma de arquitetura frágil. Em um agente com três chamadas de ferramenta por turno, uma única evicção durante a segunda chamada pode custar até 30 vezes mais com GPT-4o-mini do que com Claude Sonnet, não pela eficiência do modelo, mas pelo preço por token de saída. E isso escala: equipes que usam roteamento inteligente (como reportado em 9 de junho) ainda pagam duas vezes se o buffer não sobreviver ao deploy. A inferência durável fecha essa brecha técnica e financeira. Mais importante: ela muda o contrato entre desenvolvedor e infra. Agora, o gateway assume a responsabilidade de entregar o que foi pago, não apenas o que foi solicitado.

Linha do tempo

07/04/2026
CEVIU publica análise sobre desperdício de tokens com Claude por prompts ineficientes e históricos longos
17/04/2026
CEVIU mostra que preço por milhão de tokens é enganoso e depende de eficiência do tokenizer e tipo de conteúdo
15/05/2026
CEVIU introduz a Razão de Eficiência de Inference como métrica para medir impacto financeiro real de LLMs
09/06/2026
CEVIU detalha como roteamento inteligente reduz custos em agentes, mas não resolve o problema de tokens perdidos em falhas
12/06/2026
CEVIU revela que uso excessivo de modelos frontier é a principal causa de faturas de IA fora de controle
17/06/2026
Publicação da solução técnica para evitar desperdício de tokens com inferência durável e buffer no gateway

Perguntas frequentes

O que exatamente é 'inferência durável'?

É uma arquitetura que isola a conexão com o provedor de IA de seu processo de aplicação. Quando seu agente cai, o stream continua sendo consumido e persistido por um serviço independente (como um Durable Object ou gateway gerenciado). Os tokens já gerados ficam disponíveis para recuperação imediata, sem nova chamada à API e sem nova cobrança.

Quais provedores já suportam isso nativamente?

Apenas a OpenAI oferece algo equivalente hoje: o modo Background na Responses API, com resumo por sequence_number. Anthropic e Google Gemini ainda exigem rechamadas em caso de interrupção, o que gera nova cobrança e não garante continuidade fiel do raciocínio ou uso de ferramentas. O Cloudflare AI Gateway está fechando essa lacuna para todos os provedores a partir de junho de 2026.

Por que usar event index em vez de byte offset ou tempo?

Byte offsets variam conforme a codificação e compressão do stream; timestamps não são únicos em ambientes distribuídos. Event index é determinístico: cada chunk emitido pelo modelo recebe um número sequencial no momento da gravação no log durável. É a única forma de garantir que 'resumir do evento 31' retorne exatamente os mesmos bytes, mesmo em sistemas com múltiplos leitores e produtores.

Isso resolve o problema de 'streaming travado' em produção?

Sim, e é um dos principais casos de uso. Quando um modelo fica preso gerando tokens (ex: loop de raciocínio infinito), o buffer isolado permite que você cancele o leitor sem matar a geração. O stream continua sendo gravado, e você pode inspecionar os chunks armazenados para diagnóstico, ou retomar a partir de onde parou, sem refazer tudo. O Cloudflare já endureceu essa recuperação no Agents SDK v0.14.0.

Links relacionados

💰Gastos com tokens fora de controle? Como o roteamento inteligente reduz custos em agentes LLM

Fontes

sunilpai.devfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 17 de junho de 2026
Editoria: CEVIU IA