🖥️CEVIU IA
O Que Aconteceu Quando Apliquei a Ideia de Autoresearch de Karpathy na Inferência de LLM
Manthan Gupta desenvolveu o Auto-Inference-Optimiser para permitir que um agente de IA otimize a velocidade de inferência de LLM enquanto mantém a qualidade fixa no Apple Silicon. O uso de amostragem argmax e simplificação do código de inferência proporcionou os maiores ganhos de throughput, enquanto a maioria das opções de ajuste e quantização do cache KV não tiveram efeito ou até mesmo foram prejudiciais. O projeto destaca que um controle rigoroso e observável é crucial para distinguir ganhos reais de performance de ruídos ou ilusões de benchmark.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 26 de março de 2026
- Fonte
- CEVIU IA
