Braintrust lança Topics: inteligência para analisar traces de agentes em produção

08 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

O Topics da Braintrust não é só mais uma ferramenta de observabilidade: é um sistema que transforma traces, rastros caóticos de agentes em produção, em dados estruturados e acionáveis, sem depender de regras manuais ou de ajuste forçado ao contexto dos modelos. Enquanto ferramentas como LangSmith ou Datadog monitoram latência, erros e consumo de tokens, o Topics opera no nível semântico: ele extrai intenções, problemas e sentimentos diretamente dos milhares de spans gerados por um agente, usando um pipeline inspirado no Clio da Anthropic, mas com adaptações práticas para escala industrial. A chave está na substituição do embedding bruto por resumos gerados por LLMs antes da clusterização, o que evita truncamentos artificiais e preserva a intenção original mesmo em traces de milhões de tokens.

Isso conecta-se diretamente com o que a Anthropic vem construindo desde maio: os NLAs (autoencoders de linguagem natural) traduzem ativações em texto legível, e os workflows dinâmicos do Claude Code lidam com tarefas maiores que uma única passagem. O Topics opera no mesmo universo, mas do lado oposto da equação: não interpreta o que o modelo 'pensa', mas o que ele *faz* em produção, em tempo real e em volume. E faz isso com uma arquitetura que prioriza SQL como camada de consulta final, alinhando-se à visão da Anthropic sobre analytics self-service baseado em governança de contexto, não em mágica de geração.

O que mudou

Em maio, a CEVIU cobriu o Agent Judge, que resolve avaliações de longo contexto para agentes, mas ainda dependia de orquestração manual de trajetórias e verificação externa. O Topics vai além: ele automatiza a descoberta de padrões agregados, como 'usuários repetidamente pedindo reembolso após falha em integração com Stripe', e persiste esses rótulos como colunas SQL consultáveis. Isso não era possível com a versão anterior do Braintrust, que focava em rastreamento e avaliação pontual (como no artigo de 21/05 sobre Cortex). Agora, com Topics, a plataforma vira um sistema de feedback contínuo: falhas reais viram testes de regressão em minutos, e intenções emergentes viram novos datasets de treino, tudo sem escrever uma linha de código de classificação.

Por que isso importa

Agentes de IA não falham como APIs: eles desviam, improvisam e escondem erros silenciosos em loops de ferramentas. Monitorar apenas métricas técnicas (latência, erro 5xx) é como tentar diagnosticar um acidente de trânsito olhando só para o velocímetro. O Topics muda essa lógica, trazendo observabilidade semântica para o centro. Para empresas como Notion ou Stripe, que já usam a Braintrust, isso significa identificar em horas, não em semanas, se um novo agente está interpretando mal pedidos de suporte em português brasileiro ou gerando respostas tecnicamente corretas, mas com tom inadequado para clientes financeiros. É menos sobre 'o que quebrou' e mais sobre 'o que o usuário realmente quis, e por que o agente entendeu errado'.

Linha do tempo

08/05/2026
Anthropic lança NLAs para traduzir ativações de modelos em texto legível
21/05/2026
CEVIU detalha monitoramento de agentes Cortex com métricas por span
30/05/2026
Anthropic apresenta workflows dinâmicos no Claude Code para tarefas complexas
30/05/2026
Lançamento do Agent Judge para avaliação de longo contexto em agentes
08/06/2026
Braintrust lança Topics, camada de inteligência para análise automatizada de traces de agentes em produção

Perguntas frequentes

O Topics substitui ferramentas como LangSmith ou Datadog?

Não. Ele complementa. Enquanto LangSmith rastreia execuções individuais e Datadog monitora infraestrutura, o Topics analisa padrões agregados em milhares de traces simultaneamente, e converte esses padrões em dados SQL. É observabilidade de alto nível, não de baixo nível.

Como o Topics lida com custo e privacidade ao usar LLMs para resumir traces?

O pipeline usa LLMs localmente ou em ambientes controlados, com resumos feitos em batches otimizados. A Braintrust não envia dados brutos para nuvens externas; os embeddings e clusters são gerados internamente, e só metadados anônimos (como rótulos de 'Task' ou 'Issue') são persistidos para consulta.

Quais são as facetas pré-configuradas e posso criar minhas próprias?

As facetas padrão são 'Task' (intenção do usuário), 'Issues' (problemas operacionais ou de conformidade) e 'Sentiment'. Mas o sistema permite definir facetas personalizadas via SQL ou interface, por exemplo, 'GDPR_Compliance_Status' ou 'Payment_Flow_Success_Rate', integrando diretamente com regras de negócio existentes.

O Topics funciona apenas com agentes baseados no Claude ou com qualquer stack de IA?

Com qualquer stack. Ele se conecta via OpenTelemetry ou protocolo MCP da Braintrust, aceitando traces de agentes construídos com LangChain, LlamaIndex, AutoGen ou até sistemas proprietários. A empresa já tem clientes usando com stacks que vão do Mistral 3 até o Claude IV e modelos finetunados internamente.

Links relacionados

🤖Agent Judge: Resolvendo Avaliações de Longo Contexto para Agentes em Produção

Fontes

x.comfonte original

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 08 de junho de 2026
Editoria: CEVIU IA