Apresentando Attention Residuals: Repensando a agregação depth-wise
Conexões residuais têm tradicionalmente dependido de uma acumulação uniforme fixa. A introdução dos Attention Residuals propõe uma nova abordagem, substituindo a recorrência depth-wise padrão por um mecanismo de atenção aprendido e dependente da entrada, aplicado sobre as camadas precedentes. Isso capacita as redes a recuperar seletivamente representações passadas, mitigando de forma natural a diluição e o crescimento do hidden-state. Validados na arquitetura Kimi Linear, os Attention Residuals demonstraram ganhos consistentes de desempenho em tarefas subsequentes.
Avalie este artigo:
Compartilhar:
- Categoria
- CEVIU IA
- Publicado
- 16 de março de 2026
- Fonte
- CEVIU IA
