Context pruning: corte tokens de LLMs sem perder qualidade
O Context Pruning é a prática de remover seletivamente tokens, sentenças ou passagens de baixo valor da entrada de um LLM para reduzir custos, latência e, frequentemente, melhorar a qualidade da saída. Inclui técnicas como pruning em nível de token, sentença/chunk, baseado em attention e pruning dinâmico progressivo por camada, e funciona melhor quando combinado com caching semântico.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU Dados
- Publicado
- 20 de maio de 2026
- Fonte
- CEVIU Dados
