在Transformer架构的自注意力机制(Self-Attention Mechanism)中,向量点积的几何意义——即衡量两个向量之间的相似性——被直接且核心地应用于计算注意力权重。该机制依赖点积来评估输入序列中不同位置之间的相关性,从而实现对上下文信息的动态聚合。

自注意力机制的基本原理

自注意力机制的核心目标是:使序列中的每个位置能够根据语义相关性,动态地聚合序列中其他位置的信息。

例如,在句子 “The cat sat on the mat because it was tired” 中,模型需要确定代词 “it” 的指代对象。自注意力通过计算 “it” 与其他词之间的语义匹配程度,增强其与先行词(如 “cat”)的关联,从而实现指代消解。

点积在自注意力中的具体实现

自注意力机制涉及三个线性变换后的向量:查询向量(Query, Q)、键向量(Key, K)和值向量(Value, V)。其计算过程如下:

第一步:生成 Query、Key 和 Value 向量

对于输入序列中的每个 token,通过可学习的线性变换生成对应的 Q、K、V 向量:

  • Query (Q):表示当前 token 所需查询的信息类型。
  • Key (K):表示该 token 可提供的信息特征。
  • Value (V):表示该 token 所包含的实际内容信息。

所有 Q、K、V 均由同一输入序列经不同权重矩阵变换得到,因此称为”自”注意力。

第二步:计算注意力分数

注意力分数通过 Query 与所有 Key 的点积计算:

$$
\text{Score}_{i,j} = \mathbf{Q}_i \cdot \mathbf{K}_j
$$

其中:

  • $i$ 表示目标位置(当前处理的 token),
  • $j$ 表示源位置(被关注的 token)。

该点积结果反映了 Query 向量 $\mathbf{Q}_i$ 与 Key 向量 $\mathbf{K}_j$ 在语义空间中的相似性。点积值越大,表明两个向量方向越接近,语义相关性越高。

第三步:缩放与归一化

为防止高维空间中点积结果过大导致梯度不稳定,引入缩放因子 $\sqrt{d_k}$,其中 $d_k$ 为 Key 向量的维度:

$$
\text{Scaled Score}_{i,j} = \frac{\mathbf{Q}_i \cdot \mathbf{K}_j}{\sqrt{d_k}}
$$

随后,对每个位置 $i$ 的所有缩放分数应用 Softmax 函数,得到归一化的注意力权重:

$$
\alpha_{i,j} = \text{Softmax}\left( \frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d_k}} \right)
$$

Softmax 确保所有权重非负且总和为1,可解释为概率分布。

第四步:加权求和 Value 向量

利用归一化后的注意力权重对所有 Value 向量进行加权求和,生成当前 token 的输出表示:

$$
\mathbf{O}_ i = \sum_{j=1}^{n} \alpha_{i,j} \mathbf{V}_j
$$

其中 $n$ 为序列长度。该输出向量融合了与当前 token 语义最相关的上下文信息。

实例分析:指代消解

考虑句子:[The] [cat] [sat] [on] [the] [mat] [because] [it] [was] [tired]

当处理 token “it”(位置8)时:

  1. 生成其 Query 向量 $\mathbf{Q}_8$。
  2. 计算 $\mathbf{Q}_8$ 与所有前序 token 的 Key 向量的点积:
    • $\mathbf{Q}_8 \cdot \mathbf{K}_2$(对应 “cat”)得分较高,因其语义匹配。
    • $\mathbf{Q}_8 \cdot \mathbf{K}_1$(对应 “The”)得分较低,因其语义无关。
  3. 经 Softmax 归一化后,”cat” 对应的注意力权重显著高于其他 token。
  4. 最终输出 $\mathbf{O}_8$ 主要由 $\mathbf{V}_2$(”cat” 的 Value)主导,实现语义绑定。

该过程使模型能够准确解析代词指代关系。

总结:点积的作用与意义

概念 在自注意力机制中的体现
点积作为相似性度量 Query 与 Key 的点积量化语义匹配程度
方向一致性 点积值大表明两向量方向接近,语义相关性强
缩放与归一化 缩放防止数值溢出,Softmax 转换为概率权重
信息聚合 权重用于加权聚合 Value 向量,生成上下文感知的表示

综上所述,点积是自注意力机制中实现”注意力”功能的数学基础。它通过量化 Query 与 Key 之间的语义相似性,指导模型在处理每个 token 时动态地聚焦于最相关的上下文信息,从而有效捕捉长距离依赖和复杂语义结构。