Braintrust lança Topics: inteligência sobre traces de agentes em produção em larga escala
Aprofundamento CEVIU
Aprofundamento
O Topics não é só mais um dashboard de traces: é uma camada de inteligência que transforma dados brutos de agentes em insights acionáveis, usando uma arquitetura inspirada no Clio da Anthropic, mas adaptada para produção real. Enquanto o Clio foi concebido como ferramenta de pesquisa interna com foco em privacidade e agregação estatística (como na análise de 1 milhão de conversas com Claude), o Topics opera em tempo quase real, com modelos hospedados na Baseten (brain-facet-*, brain-embedding-*, brain-agent-*), UMAP + HDBSCAN para clustering e c-TF-IDF para extração de palavras-chave. Ele processa traces com milhões de tokens sem sobrecarregar LLMs, graças ao resumo prévio gerado por um modelo próprio, um salto técnico em relação a abordagens que tentam enfiar o trace inteiro no contexto do embedding.
A Braintrust já vinha construindo essa infraestrutura desde agosto de 2025, com o lançamento do Loop, agente que otimiza prompts, avaliadores e datasets automaticamente. Agora, o Topics fecha o ciclo: se o Loop melhora os componentes, o Topics revela *o que está realmente acontecendo* quando esses componentes rodam em escala. Clientes como Instacart e Notion usam isso para detectar padrões sutis, como um aumento de 'Issues' em tarefas de revisão de código ou queda de 'Sentiment' em interações com suporte, antes que virem reclamações em massa.
O que mudou
Em maio, a CEVIU cobriu o Agent Judge (30/05) e o monitoramento de spans no Cortex (21/05), ambos focados em métricas pontuais: latência, erro, consumo de token. O Topics vai além: não mede desempenho, mas interpreta comportamento. Enquanto o Agent Judge avalia trajetórias longas com critérios fixos, o Topics descobre novos padrões sem regra prévia, como um cluster de 'Task' que surge do nada em agentes de codificação, sinalizando novas demandas dos usuários. Também evolui o que foi anunciado no beta de 25/02: agora está em disponibilidade geral desde 01/06, com facetas pré-configuradas ('Task', 'Issues', 'Sentiment') e suporte a personalização, algo não mencionado na fase inicial.
Por que isso importa
Agentes não falham com erros 500, eles falham com alucinações silenciosas, instruções mal interpretadas ou respostas tecnicamente corretas mas fora do contexto. Ferramentas tradicionais de observabilidade não capturam isso. O Topics muda o jogo: transforma um fluxo caótico de spans em uma taxonomia viva de intenções, problemas e tons. Isso permite correções proativas, como um cliente que já lança 5–10 pull requests por dia com base nas classificações do Topics. Em um cenário onde 50% das empresas devem adotar agentes até 2027 (Deloitte), ter visibilidade sobre *o que o agente entendeu*, não só o que ele fez, deixa de ser luxo e vira requisito de operação.
Linha do tempo
Braintrust lança o Loop, agente que automatiza a otimização de prompts, agentes e avaliadores
Topics entra em versão beta
CEVIU publica análise sobre monitoramento de spans em agentes Cortex
CEVIU cobre o Agent Judge, ferramenta para avaliação de longo contexto em agentes
Topics entra em disponibilidade geral
Braintrust anuncia oficialmente o Topics como camada de inteligência para traces de agentes em produção
Perguntas frequentes
O Topics substitui ferramentas como Langfuse ou Datadog?
Não. Ele complementa. Langfuse e Datadog rastreiam spans, métricas e logs. O Topics opera *em cima* desses dados, adicionando camadas semânticas: o que aquele span representa, por que ele falhou, qual intenção do usuário ele atendeu, ou não. É como colocar um analista de IA dentro do pipeline de observabilidade.
Como o Topics lida com privacidade, comparado ao Clio da Anthropic?
Diferente do Clio, projetado para anonimização estrita e agregação em escala de pesquisa, o Topics é voltado para equipes de engenharia que precisam depurar casos específicos. Ele não exige anonimização prévia, mas oferece controle granular: as facetas podem ser configuradas para evitar dados sensíveis, e o resumo gerado pelo LLM atua como filtro, reduzindo a exposição do trace bruto.
Quais modelos o Topics usa, e posso trocá-los?
A Braintrust usa modelos próprios hospedados na Baseten (brain-facet-*, brain-embedding-*, brain-agent-*), mas a arquitetura é modular. A documentação oficial indica suporte para substituição de modelos de embedding e sumarização, desde que compatíveis com o formato de entrada esperado. Não há suporte nativo para modelos de terceiros como o Mistral ou Grok ainda.
O Topics funciona com agentes construídos em frameworks como LangChain ou LlamaIndex?
Sim. Ele ingere traces em formato OpenTelemetry (OTLP), o padrão universal para observabilidade de agentes. Qualquer framework que exporte traces nesse formato, LangChain, LlamaIndex, AutoGen, ou até soluções proprietárias, pode alimentar o Topics sem adaptação.
- Categoria
- CEVIU IA
- Publicado
- 05 de junho de 2026
- Fonte
- CEVIU IA
