Ankur Goyal: como agentes de codificação estão redefinindo benchmarking e avaliações de IA

16 de junho de 2026

Aprofundamento CEVIU

Aprofundamento

Ankur Goyal não está só usando agentes de codificação, ele está redefinindo o que é rigor técnico em engenharia de software. Enquanto a maioria dos times ainda vê IA como ferramenta de escrita, ele a trata como um coengenheiro sistêmico: capaz de rodar milhares de variações de formato de coluna (Parquet, Arrow, Delta), motores (DataFusion, DuckDB, Velox) e índices (Bloom, Roaring, LSM) em máquinas EC2 dedicadas, por dias seguidos, com dados reais do Brainstore, seu banco de dados interno otimizado para traces de IA. Isso não é 'benchmarking assistido'. É uma nova camada de CI/CD: infraestrutura testável, mensurável e iterável como código-fonte.

O segundo pilar, os evals como PRDs modernos, também é mais concreto do que parece. Não se trata de adicionar mais métricas ao dashboard. É substituir especificações abertas ('o sistema deve ser útil') por funções de pontuação geradas por IA (ex: Claude escrevendo um prompt avaliador que mede tom, precisão factual e capacidade de citar fontes da documentação), executadas em lote sobre centenas de perguntas reais de usuários. E isso já virou exigência operacional: desde abril de 2026, um PRD para IA na Braintrust exige seis seções obrigatórias além do escopo tradicional, incluindo framework de eval, guardrails explícitos e plano de monitoramento contínuo.

O que mudou

Em abril de 2026, Goyal defendia evals como 'especificações convertidas em código executável'. Em junho de 2026, ele entrega o que faltava: a infraestrutura para rodá-las em escala industrial. O Codex da Braintrust, integrado ao Brainstore, agora executa workflows completos de benchmarking de infraestrutura, não só testando modelos de linguagem, mas também formatos de armazenamento, motores de execução e até filtros bloom em produção simulada. Isso transforma o que era um conceito teórico (evals como PRDs) em um pipeline automatizado que alimenta decisões arquitetônicas reais, como trocar um index inteiro após uma semana de experimentos contínuos.

Por que isso importa

Isso muda a economia do tempo de engenharia. Um time que levaria semanas para testar três combinações de storage + engine agora avalia 37 opções em paralelo, com dados reais, sem intervenção manual. Mais importante: torna a qualidade técnica não negociável. Se sua avaliação de IA depende de 'vibe check' de um PM, você já está atrasado. Se ela depende de um dataset de 124 perguntas reais, uma função de pontuação gerada por Claude e um loop de feedback com o designer David codificado em critérios objetivos, você está alinhado com o novo padrão de entrega de software nativo em IA.

Linha do tempo

23/04/2026
CEVIU publica 'A Entrevista Nativa de IA', destacando a transição do engenheiro de construtor para orquestrador de agentes
05/05/2026
CEVIU analisa o salário de $570 mil como sinal da mudança de valor: de escrita de código para design de fluxos com IA
01/06/2026
CEVIU mostra que testes ganham protagonismo com IA, pois menos tempo é gasto em boilerplate
04/06/2026
CEVIU define os novos valores da engenharia: guardrails rígidos, ciclos de feedback e orquestração consciente de agentes
16/06/2026
Ankur Goyal lança metodologia prática de benchmarking com agentes e evals como PRDs obrigatórios

Perguntas frequentes

O que diferencia os 'evals' de Ankur Goyal dos testes unitários tradicionais?

Testes unitários validam comportamento esperado de código. Evals validam comportamento esperado de *saída de IA*, como tom, utilidade, precisão factual e coerência com contexto externo. Eles usam datasets reais de usuários, não casos artificiais, e são executados em lote com funções de pontuação geradas por IA, não por regras fixas.

Por que usar dados de produção no benchmarking com agentes, se há risco de vazamento?

Goyal usa dados de produção *com extrema cautela*: apenas cópias anônimas em armazenamento de objetos, isoladas em ambientes EC2 dedicados. O ganho é real, resultados representativos de carga real. O risco é mitigado por controle de acesso granular e pipelines de limpeza automática, não por evitar o dado.

Como o 'David Loop' evita que a IA substitua o julgamento humano?

Ele não evita, ele opera em duas fases distintas. Primeiro, a IA atinge 90% da qualidade com critérios objetivos. Só então o humano intervém com 'vibe check'. Mas o feedback dele (ex: 'o tom soa patronizante') vira um novo critério de eval imediatamente codificado, expandindo, não substituindo, sua expertise.

Qual o papel do Brainstore nessa metodologia?

É o alicerce técnico. Bancos de dados tradicionais travam com traces de IA que chegam a centenas de MB por interação. O Brainstore foi construído internamente para suportar esse volume e complexidade, permitindo que os agentes de benchmarking acessem dados reais de performance, com baixa latência e alta concorrência, sem comprometer a estabilidade do sistema produtivo.

Links relacionados

Fontes

chatprd.aifonte original

Avalie este artigo:

Categoria: CEVIU Web Dev
Publicado: 16 de junho de 2026
Editoria: CEVIU Web Dev