什么是多头注意力?

多头注意力(Multi-head Attention)是一种在深度学习模型中广泛应用的注意力机制扩展形式,其核心在于将输入序列通过多个独立的“注意力头”并行处理,每个头在不同的表示子空间中计算元素间的相关性,最终合并结果以增强模型捕捉长距离 […]