O Que Aconteceu Quando Apliquei a Ideia de Autoresearch de Karpathy na Inferência de LLM

26 de março de 2026

Manthan Gupta desenvolveu o Auto-Inference-Optimiser para permitir que um agente de IA otimize a velocidade de inferência de LLM enquanto mantém a qualidade fixa no Apple Silicon. O uso de amostragem argmax e simplificação do código de inferência proporcionou os maiores ganhos de throughput, enquanto a maioria das opções de ajuste e quantização do cache KV não tiveram efeito ou até mesmo foram prejudiciais. O projeto destaca que um controle rigoroso e observável é crucial para distinguir ganhos reais de performance de ruídos ou ilusões de benchmark.

Avalie este artigo:

Categoria: CEVIU IA
Publicado: 26 de março de 2026
Fonte: CEVIU IA

Quer receber mais sobre CEVIU IA?