Algoritmo de compressão TurboQuant da Google pode reduzir uso de memória de LLMs em 6x
TurboQuant da Google é um algoritmo de compressão que reduz o impacto de memória de grandes modelos de linguagem enquanto aumenta a velocidade e mantém a precisão. Ele diminui o tamanho do cache de chave-valor, evitando a necessidade de recomputação. Testes iniciais mostram um aumento de desempenho de 8x e uma redução de uso de memória de 6x, sem perda de qualidade. Técnicas de compressão como a TurboQuant podem melhorar a qualidade das saídas de modelos para dispositivos edge sem enviar dados para a nuvem.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 26 de março de 2026
- Fonte
- CEVIU IA
