Avaliador de traces 100x mais barato: Fireworks e LangChain usam Qwen-3.5-35B para detectar falhas em chatbots com precisão de ponta

16 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Qwen-3.5-35B-A3B usado aqui não é um modelo denso comum: é uma arquitetura MoE esparsa, com 35 bilhões de parâmetros totais mas apenas ~3 bilhões ativos por token, o que explica a redução de custo de até 100x sem perda de desempenho. Ele incorpora o Gated DeltaNet, técnica que melhora raciocínio e codificação mesmo com poucos parâmetros ativados. Isso contrasta diretamente com o Grok 4.3 da xAI (lançado em 1º/05), que também busca mais inteligência por dólar, mas via otimização de inferência em modelos densos. Já o Qwen 3.7 Plus, lançado pela Fireworks em 13/06, três dias antes desta notícia, traz multimodalidade e suporte nativo para loops de agentes, sugerindo que a infraestrutura de avaliação agora se alinha com a próxima geração de modelos que ela mesma avalia.

A escolha de treinar só no dataset chat-langchain, e ainda assim superar todos os modelos de fronteira no Fleet, mostra que 'perceived error' é realmente um sinal universal em traces multi-turno. Isso reforça o que o CEVIU já apontou em 30/05 sobre o Agent Judge: avaliações de longo contexto não precisam ser feitas com modelos gigantes, mas com modelos bem ajustados ao sinal certo. E o fato de o LangSmith Engine (lançado em 2026) já usar análise de traces para sugerir correções automática confirma que avaliar não é só diagnóstico, é o primeiro passo de uma cadeia de autoaperfeiçoamento contínuo.

O que mudou

Em 30/05, o CEVIU cobriu o Agent Judge como uma solução para avaliações de longo contexto, mas ainda baseada em LLMs genéricos com prompt engineering avançado. Agora, em 16/06, há um salto: um modelo especializado, fine-tuned com LoRA, que opera como um juiz embutido na infraestrutura de observabilidade. Não é mais um prompt ou um wrapper, é um componente treinado, com métrica definida ('perceived error'), validada em dois domínios distintos e integrado nativamente ao LangSmith. Isso transforma avaliação de qualidade de agente de tarefa pontual em recurso de plataforma.

Por que isso importa

Quando 57% das empresas já têm agentes em produção, mas 32% citam qualidade como principal barreira, um avaliador 100x mais barato muda a economia da observabilidade. Antes, escalar avaliações exigia trade-offs entre custo e acurácia, agora é possível rodar julgamentos em 100% dos traces, não só em amostras. Isso viabiliza detecção de falhas sutis (como frustração do usuário sem erro objetivo), que alimentam melhorias reais em loops de feedback contínuo. E como o LangSmith Fleet já oferece sandboxes seguras desde 14/05, essa nova camada de avaliação fecha o ciclo: detecta, isola e corrige, tudo dentro da mesma stack.

Linha do tempo

23/04/2026
Perplexity lança pipeline de SFT + RL para modelos aumentados por busca
01/05/2026
xAI lança Grok 4.3 com foco em custo por inteligência
22/05/2026
CEVIU cobre verificação formal viável para agentes de IA
22/05/2026
Alibaba lança Qwen3.7-Max, modelo proprietário de fronteira para agentes
30/05/2026
CEVIU cobre Agent Judge para avaliações de longo contexto
13/06/2026
Fireworks lança Qwen 3.7 Plus, modelo multimodal para loops de agentes
16/06/2026
Fireworks e LangChain lançam avaliador de traces com Qwen-3.5-35B para 'perceived error'

Perguntas frequentes

O que é 'perceived error' e por que ele importa mais do que 'erro objetivo'?

É quando o usuário acha que o assistente errou, mesmo que a resposta seja tecnicamente correta. Exemplos: repetir a pergunta, corrigir a saída ou pedir de novo. Isso captura fricção real na experiência, não só falhas lógicas. É mais útil para melhorar produtividade do que métricas puramente técnicas.

Por que usar Qwen-3.5-35B-A3B em vez de um modelo menor como Haiku?

Modelos menores falharam em reconhecer padrões multi-turno nos testes iniciais. O Qwen-3.5-35B-A3B, mesmo sendo MoE, tem capacidade de raciocínio suficiente para analisar sequências inteiras de diálogo, e sua arquitetura esparsa garante baixo custo. Em testes, superou Haiku, Sonnet e Opus em acurácia e preço.

Esse avaliador funciona fora do ecossistema LangChain?

Sim. A transferência para o dataset Fleet, um ambiente completamente distinto do chat-langchain, provou que ele generaliza bem. Qualquer sistema que exporte traces no formato LangSmith (com mensagens humanas e de IA) pode usá-lo. Não depende de ferramentas específicas, só do sinal comportamental.

Como isso se relaciona com a verificação formal de agentes mencionada em 22/05?

A verificação formal garante que um agente faça algo certo por construção. Esse avaliador garante que ele *pareça* certo para o usuário. São complementares: um evita bugs antes do deploy, o outro detecta falhas de experiência em produção, e agora, com custo viável, ambos podem rodar em escala.

Links relacionados

🤖Agent Judge: Resolvendo Avaliações de Longo Contexto para Agentes em Produção

Fontes

langchain.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 16 de junho de 2026
Editoria: CEVIU IA