向量点积公式在自注意力机制中的应用?

在Transformer架构的自注意力机制（Self-Attention Mechanism）中，向量点积的几何意义——即衡量两个向量之间的相似性——被直接且核心地应用于计算注意力权重。该机制依赖点积来评估输入序列中不同位置之间的相关性，从而实现对上下文信息的动态聚合。

自注意力机制的基本原理

自注意力机制的核心目标是：使序列中的每个位置能够根据语义相关性，动态地聚合序列中其他位置的信息。

例如，在句子 “The cat sat on the mat because it was tired” 中，模型需要确定代词 “it” 的指代对象。自注意力通过计算 “it” 与其他词之间的语义匹配程度，增强其与先行词（如 “cat”）的关联，从而实现指代消解。

自注意力机制涉及三个线性变换后的向量：查询向量（Query, Q）、键向量（Key, K）和值向量（Value, V）。其计算过程如下：

对于输入序列中的每个 token，通过可学习的线性变换生成对应的 Q、K、V 向量：

所有 Q、K、V 均由同一输入序列经不同权重矩阵变换得到，因此称为”自”注意力。

注意力分数通过 Query 与所有 Key 的点积计算：

$$
\text{Score}_{i,j} = \mathbf{Q}_i \cdot \mathbf{K}_j
$$

其中：

该点积结果反映了 Query 向量 $\mathbf{Q}_i$ 与 Key 向量 $\mathbf{K}_j$ 在语义空间中的相似性。点积值越大，表明两个向量方向越接近，语义相关性越高。

为防止高维空间中点积结果过大导致梯度不稳定，引入缩放因子 $\sqrt{d_k}$，其中 $d_k$ 为 Key 向量的维度：

$$
\text{Scaled Score}_{i,j} = \frac{\mathbf{Q}_i \cdot \mathbf{K}_j}{\sqrt{d_k}}
$$

随后，对每个位置 $i$ 的所有缩放分数应用 Softmax 函数，得到归一化的注意力权重：

$$
\alpha_{i,j} = \text{Softmax}\left( \frac{\mathbf{Q}_i \mathbf{K}_j^T}{\sqrt{d_k}} \right)
$$

Softmax 确保所有权重非负且总和为1，可解释为概率分布。

利用归一化后的注意力权重对所有 Value 向量进行加权求和，生成当前 token 的输出表示：

$$
\mathbf{O}_ i = \sum_{j=1}^{n} \alpha_{i,j} \mathbf{V}_j
$$

其中 $n$ 为序列长度。该输出向量融合了与当前 token 语义最相关的上下文信息。

考虑句子：[The] [cat] [sat] [on] [the] [mat] [because] [it] [was] [tired]

当处理 token “it”（位置8）时：

生成其 Query 向量 $\mathbf{Q}_8$。
计算 $\mathbf{Q}_8$ 与所有前序 token 的 Key 向量的点积：
- $\mathbf{Q}_8 \cdot \mathbf{K}_2$（对应 “cat”）得分较高，因其语义匹配。
- $\mathbf{Q}_8 \cdot \mathbf{K}_1$（对应 “The”）得分较低，因其语义无关。
经 Softmax 归一化后，”cat” 对应的注意力权重显著高于其他 token。
最终输出 $\mathbf{O}_8$ 主要由 $\mathbf{V}_2$（”cat” 的 Value）主导，实现语义绑定。

该过程使模型能够准确解析代词指代关系。

概念	在自注意力机制中的体现
点积作为相似性度量	Query 与 Key 的点积量化语义匹配程度
方向一致性	点积值大表明两向量方向接近，语义相关性强
缩放与归一化	缩放防止数值溢出，Softmax 转换为概率权重
信息聚合	权重用于加权聚合 Value 向量，生成上下文感知的表示

综上所述，点积是自注意力机制中实现”注意力”功能的数学基础。它通过量化 Query 与 Key 之间的语义相似性，指导模型在处理每个 token 时动态地聚焦于最相关的上下文信息，从而有效捕捉长距离依赖和复杂语义结构。