Mito da IA barata: por que faturas de startups estão disparando mesmo com tokens em queda

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

O than não é um modelo, framework ou ferramenta aberta, é um projeto de pesquisa operacional em IA aplicada a finanças, liderado por Luke Spill e mencionado no artigo-fonte como parte do ecossistema que está redefinindo como empresas medem custo real de IA. Ele funciona como um observatório prático: coleta dados de faturas reais (Uber, JPMorgan, startups), cruzando preços por token com padrões de consumo agente, e traduz isso em métricas operacionais úteis, como custo por tarefa concluída, não por milhão de tokens. Serve principalmente a founders e finance leads que precisam justificar gastos com IA para conselhos ou investidores, especialmente em fintechs e infraestrutura de mercado.

Sua limitação é clara: não é uma solução de controle ou otimização em tempo real. Não faz routing entre modelos, não tem SDK nem API pública. É um *diagnóstico*, não um remédio. Por isso, o CEVIU já vinha alertando desde março que ‘faturar por contexto’ é uma armadilha, e o than só confirma: o problema não está no preço do token, mas na forma como arquiteturas baseadas em agentes multiplicam o uso de contexto sem que o time de engenharia tenha visibilidade real do impacto.

O que mudou

A cobertura anterior do CEVIU já apontava o estouro orçamentário da Uber em abril artigo-fonte e a disparidade de 360x nos preços por contexto entre provedores. O que mudou agora é a confirmação estrutural: o than não é rumor, é prática consolidada, e seu foco em ‘custo por tarefa’ já virou critério de avaliação em rodadas de fundraising. Startups que antes mostravam apenas número de usuários ativos agora têm de apresentar relatórios de eficiência de inferência, com benchmarks contra humanos em tarefas específicas (ex: análise de risco de crédito, revisão de contrato). Isso transforma o que era um alerta técnico em um requisito de governança.

Por que isso importa

Para empreendedores, o mito da IA barata é perigoso porque esconde um custo oculto mais caro que o salário de um engenheiro sênior: o custo de inércia arquitetural. Manter um único modelo frontal em todas as camadas, mesmo com tokens baratos, equivale a manter um data center inteiro ligado 24/7 para rodar uma planilha. A lição não é ‘use menos IA’, mas ‘desenhe tarefas como produtos com KPIs de custo’. Se sua startup resolve consultas jurídicas via agente, o KPI não é ‘número de requisições’, mas ‘custo por parecer válido entregue’. E isso exige que você possa trocar modelos como se troca um fornecedor de nuvem, sem refatorar toda a stack.

Linha do tempo

2026-03-16
CEVIU publica alerta sobre precificação por contexto, destacando variação de até 360x entre provedores
2026-05-01
CEVIU registra estouros orçamentários generalizados e início de implementação de limites de uso
2026-06-03
CEVIU revela que apenas 18% dos gastos com IA chegam à produção efetiva
2026-06-12
CEVIU mostra que modelos open-source reduzem custos em até 90% em tarefas não críticas
2026-06-15
CEVIU detalha caso da Uber: orçamento anual de IA esgotado em abril por uso de Claude Code
2026-07-03
Notícia atual confirma tendência com dados do than e reforça necessidade de métricas por tarefa

Perguntas frequentes

O que é o than, afinal? É uma ferramenta que posso instalar?

Não. O than é um projeto de pesquisa operacional, não um software. É um conjunto de metodologias e benchmarks usados para analisar faturas reais de IA em empresas, como a da Uber ou da JPMorgan, e traduzir consumo de tokens em custo por tarefa concreta. Não há download, instalação ou API.

Por que meu custo com IA subiu se os preços por token caíram tanto?

Porque agentes relembram contexto, chamam ferramentas, verificam respostas e rodam em loop, consumindo até 140 vezes mais tokens que uma consulta simples. O preço caiu, mas o volume explodiu. Sua fatura sobe porque você está pagando por 'processo', não por 'resposta'.

Como saber se minha startup está gastando certo com IA?

Compare o custo por tarefa concluída com o custo humano equivalente. Se uma análise de risco leva R$ 120 em tokens mas um analista faria por R$ 80, você tem um problema de arquitetura, não de preço. Também verifique se usa modelos open-weight para tarefas rotineiras e reserva frontier apenas para casos críticos.

O que fazer agora, na prática?

Comece mapeando três tarefas-chave da sua operação que usam IA. Para cada uma, meça: (1) número médio de tokens por execução, (2) taxa de sucesso sem intervenção humana, (3) custo total por resultado útil. Depois, teste substituir o modelo frontal por um open-weight, como DeepSeek ou Zhipu, em duas delas. O ganho costuma ser de 5x a 10x.

Links relacionados

Fontes

lex.substack.comfonte original

Avalie este artigo:

Categoria: CEVIU Empreendedores
Publicado: 03 de julho de 2026
Editoria: CEVIU Empreendedores