Estratégia do roteamento inteligente: por que a maior parte das tarefas de IA pode esperar
Aprofundamento CEVIU
Aprofundamento
O Most não é um modelo de linguagem, nem uma biblioteca de inferência, é uma arquitetura de execução para agentes baseados em LLM que prioriza o roteamento como núcleo da estratégia de produto. Ele opera em três camadas: um classificador de habilidades (que traduz intenções brutas em operações concretas, como 'draft-a-reply'), um roteador (que decide, sem ler o prompt, qual tier de modelo executa a tarefa com base em complexidade, contexto e taxa histórica de sucesso) e um seletor de modelo (que escolhe o LLM mais barato dentro do tier, desde que atenda ao limiar de confiança). O diferencial está na separação rígida entre classificação (problema de linguagem) e roteamento (problema de escalonamento): isso permite A/B testar modelos independentemente da intenção do usuário, além de isolar falhas e ajustar pesos via feedback assíncrono noturno, sem impacto em tempo real.
Isso muda o papel do PM: em vez de otimizar por acurácia ou latência isoladas, ele passa a gerenciar trade-offs entre custo, confiabilidade e tempo de resposta como métricas de produto. A decisão de 'qual modelo usar' deixa de ser técnica e vira estratégica, definida por SLAs de tarefa, não por benchmarks de benchmark.
O que mudou
A cobertura anterior do CEVIU já destacava o roteamento como vetor de redução de custos Tom Tunguz, mas o artigo atual mostra que o Most evoluiu de conceito teórico para runtime concreto com dois mecanismos operacionais: (1) um preditor síncrono que antecipa falhas com cinco sinais (ex: cadeias longas de dependências ou prompts sensíveis a segurança), e (2) um loop fechado noturno que reajusta pesos do roteador com base em avaliação em lote, rodando em infraestrutura assíncrona própria ('Sail') para manter custo próximo de zero. Isso transforma o roteador de filtro estático em um sistema adaptativo com memória de falhas.
Por que isso importa
Para PMs de produtos de IA, o Most desloca o ponto de alavancagem: não é mais sobre escolher o melhor modelo disponível, mas sobre definir quais tarefas *precisam* de resposta em tempo real, e quantas podem ser enfileiradas, adiadas ou delegadas a SLMs locais. Isso redefine KPIs: a métrica-chave deixa de ser 'token throughput' e passa a ser 'percentual de tarefas roteadas para execução assíncrona sem degradação percebida pelo usuário'. Empresas que adotam essa lógica conseguem escalar uso de IA sem escalar fatura, como fez a Coinbase, que cortou gastos pela metade enquanto o volume de tokens crescia exponencialmente.
Linha do tempo
CEVIU publica análise sobre Small Language Models como pilar de redução de custos em IA empresarial
CEVIU detalha o Inference Router da DigitalOcean como exemplo prático de roteamento em nível de infraestrutura
CEVIU explica como roteamento inteligente corta custos em agentes LLM ao evitar loops desnecessários com modelos frontier
CEVIU publica nova análise sobre o Most, mostrando evolução para runtime com feedback síncrono e assíncrono
Perguntas frequentes
O Most é uma ferramenta open-source que posso instalar?
Não há repositório público confirmado no artigo-fonte. O Most é descrito como uma arquitetura implementada internamente, com runtime próprio. Não é um pacote instalável, mas um padrão de projeto replicável, como o Inference Router da DigitalOcean, citado em nossa cobertura anterior.
Como o Most se diferencia de um load balancer tradicional?
Um load balancer distribui tráfego igualmente entre instâncias. O Most toma decisões baseadas em semântica da tarefa: ele classifica a intenção, avalia risco e complexidade, e direciona para tiers distintos, local, assíncrono ou frontier, com critérios técnicos e de negócio explícitos, não apenas capacidade de CPU.
Posso usar o Most com modelos fechados como GPT-4 ou Claude?
Sim. O roteador não depende de licença ou tipo de modelo. Ele funciona com qualquer LLM acessível via API ou local, desde que integrado aos três níveis: classificador, roteador e seletor. A flexibilidade é parte do design, modelos são substituíveis por camada.
Quais são as limitações práticas do Most hoje?
Requer uma camada de classificação de habilidades bem treinada, o que exige dados de operações reais. Também depende de observabilidade robusta para alimentar o feedback noturno. Sem histórico de falhas, o loop adaptativo não converge. E não resolve problemas de qualidade intrínseca do modelo: só redireciona, não corrige.
Links relacionados
Fontes
- tomtunguz.comfonte original
- Categoria
- CEVIU Gestão de Produtos
- Publicado
- 03 de julho de 2026
- Editoria
- CEVIU Gestão de Produtos

