为什么向量点积越大，表示两个向量之间的相似度越高？

这是一个非常深刻且重要的问题！理解“为什么向量点积越大，相似度越高”，是掌握现代机器学习（尤其是注意力机制、推荐系统、语义搜索等）的关键基础，我们来一步步拆解。

1. 向量点积的数学定义

给定两个向量 a 和 b，它们的点积（Dot Product）定义为：

$$
\mathbf{a} \cdot \mathbf{b} = \sum_{i=1}^{n} a_i b_i = a_1 b_1 + a_2 b_2 + \cdots + a_n b_n
$$

但还有一个几何定义，它才是理解“相似度”的关键：

$$
\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}| |\mathbf{b}| \cos \theta
$$

其中：

我们关心的是方向上的相似性，而不是大小。两个向量越“相似”，意味着它们指向的方向越接近。

来看不同夹角下的 $\cos \theta$ 值：

夹角 $\theta$	$\cos \theta$	向量关系	相似度
0°	1	完全同向	最高 ✅
45°	~0.707	方向接近	高
90°	0	正交（无关）	一般
135°	~-0.707	方向相反	低
180°	-1	完全反向	最低 ❌

👉 所以：向量方向越接近，$\cos \theta$ 越大（越接近1）。

从公式 $\mathbf{a} \cdot \mathbf{b} = |\mathbf{a}| |\mathbf{b}| \cos \theta$ 可以看出：

假设我们有两个二维向量，代表两个词的语义向量：

计算点积：

即使不做归一化，也能看出趋势。

如果向量没有归一化，点积还会受到向量长度的影响。

例如：

虽然 c 和 a 的夹角是45°，但点积比 b 小。这是因为 b 更长。

所以，在比较相似度时，通常使用余弦相似度（即归一化后的点积），它只关注方向，忽略长度。

但在某些场景（如注意力机制），不归一化的点积也有意义——它同时考虑了“方向相似性”和“强度”。

在Transformer的自注意力中：

所以，点积在这里就是“语义相似度”的度量。

所以，点积越大，说明两个向量在方向上越一致，语义上越相似——这就是它在注意力机制、推荐系统、搜索中被广泛使用的核心原因。