Desenvolvimentos Recentes em Arquiteturas de LLMs: KV Sharing, mHC e Compressed Attention
O tamanho do KV-cache, o tráfego de memória e o custo da attention rapidamente se tornam as principais restrições à medida que modelos de raciocínio e fluxos de trabalho de agentes mantêm mais tokens por mais tempo. Desenvolvedores de LLMs estão adicionando um número crescente de truques arquitetônicos para reduzir custos. A maioria das mudanças parece pequenos ajustes, mas algumas são alterações de design bastante intrincadas. Este artigo examina essas mudanças arquitetônicas com foco no que muda dentro do bloco transformer, residual stream, KV cache e computação de attention.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 20 de maio de 2026
- Fonte
- CEVIU IA
