Maior parte do trabalho de IA pode esperar: o poder do roteamento de tarefas

03 de julho de 2026

Aprofundamento CEVIU

Aprofundamento

O Most é um projeto de runtime para agentes de IA que implementa roteamento em três camadas: classificador de habilidades (identifica a operação solicitada), roteador (decide qual camada de modelo executa a tarefa) e seletor de modelo (escolhe o modelo mais barato dentro da camada, respeitando limiares de confiança). Ele não é uma biblioteca aberta com repositório público, nenhuma fonte menciona código-fonte disponível. Funciona com sinais síncronos (como risco de escrita ou dependências longas) e feedback noturno via avaliação em lote, ajustando pesos do roteador com inferência assíncrona em Sail. O foco não é substituir LLMs, mas estruturar o fluxo para que até 80% das requisições, como rascunhos de respostas ou sumarizações de repositórios, rodem em modelos locais ou em modo batch, sem exigir resposta em tempo real.

Isso difere do que vimos em março com os blueprints de workflows artigo original: lá, a ênfase era na modelagem pré-definida de decisões; aqui, é no *desvio dinâmico* baseado em features observáveis (complexidade, tamanho de contexto, taxa histórica de sucesso). Também não é só sobre SLMs, é sobre camadas hierárquicas de execução, onde o local compute é tratado como quase gratuito e o async batch é duas ordens de grandeza mais barato que a inferência em tempo real.

O que mudou

Em maio, a cobertura CEVIU já apontava que SLMs estavam redefinindo arquiteturas empresariais, com redução de custos de inference de até 90%. Em junho, reforçamos que o roteamento inteligente resolve loops caros em agentes LLM. Agora, o Most concretiza essa evolução: não só direciona tarefas simples para modelos menores, mas introduz mecanismos operacionais reais, predição síncrona de falhas e ajuste noturno por avaliação em lote, que transformam roteamento de conceito teórico em sistema com feedback fechado. A novidade não é usar SLMs, mas orquestrar camadas com sinais objetivos e atualização contínua, sem depender de prompts para decidir o modelo.

Por que isso importa

Empresas que já usam agentes em produção estão batendo no teto de custo porque escalam o modelo, não o fluxo. O Most mostra que o gargalo deixou de ser o modelo e virou a arquitetura de execução, e que resolver isso exige código enxuto (o roteador), não mais capacidade bruta. Para engenheiros de backend e DevOps de IA, isso significa que otimizar gasto agora passa por instrumentar features como complexidade estimada e histórico de sucesso por operação, não por trocar de LLM. E para líderes técnicos, é um sinal claro: antes de escolher o próximo modelo frontier, desenhe o roteador.

Linha do tempo

2026-02-25
CEVIU publica análise sobre produtividade de modelos de IA, destacando que o volume de compute demandado é tão relevante quanto a capacidade
2026-03-05
CEVIU cobre transição de prompts para blueprints de workflows complexos com árvores de decisão
2026-03-09
CEVIU detalha arquitetura condutor-especialistas para escalar sistemas multiagente além de 120 agentes
2026-05-05
CEVIU mostra que Small Language Models reduzem custos de inference em até 90% ao assumir tarefas rotineiras
2026-06-09
CEVIU explica como roteamento inteligente corta gastos com tokens em agentes LLM ao evitar loops caros
2026-07-02
CEVIU publica análise do Most, runtime com roteamento em três camadas, feedback síncrono e ajuste noturno por avaliação em lote

Perguntas frequentes

O Most é uma biblioteca open source que posso instalar?

Não. Nenhuma fonte menciona repositório, código-fonte ou pacote instalável. O Most é descrito como um runtime interno usado pelo autor em seu agente, não como ferramenta distribuída. Não há GitHub, PyPI ou Docker Hub associados.

Como o Most decide se uma tarefa vai para um modelo local ou para uma LLM?

Ele não analisa o prompt diretamente. Usa o rótulo do classificador de habilidades (ex: 'draft-a-reply') somado a features objetivas: complexidade estimada, tamanho do contexto, taxa histórica de sucesso naquela operação e capacidade de recuperação de memória local. O roteador é um problema de escalonamento, não de linguagem.

Qual a diferença entre o classificador de habilidades e o roteador no Most?

O classificador é um modelo de linguagem que identifica a intenção ('summarize-a-repo'). O roteador é um componente de infraestrutura que, com base nesse rótulo e em métricas técnicas, decide a camada de execução. Misturá-los no prompt prejudica testes A/B e torna a arquitetura opaca.

O Most depende de alguma infraestrutura específica, como Sail ou Kubernetes?

O artigo cita o uso de Sail para avaliação noturna em modo assíncrono, mas não exige Sail como dependência. O conceito de roteamento em camadas é independente de stack, o que importa é a capacidade de medir features como complexidade e histórico de falhas, e de executar tarefas em modo batch ou local.

Links relacionados

Fontes

tomtunguz.comfonte original

Avalie este artigo:

Categoria: CEVIU
Publicado: 03 de julho de 2026
Editoria: CEVIU