李宏毅机器学习-Self-Attention

这是我学习李宏毅机器学习时记录的一些笔记，希望能对你有所帮助😊

1. 引言：处理向量集合的挑战

传统神经网络通常处理固定大小的向量输入，但现实应用中输入常为长度可变的向量集合，例如：

Self-attention 能有效处理此类输入，让模型在处理每个向量时动态考虑集合中其他向量的信息

处理序列中的向量时，需结合上下文信息。例如判断句子 “I saw a saw” 中第二个 “saw” 的词性时，必须考虑其上下文。

Self-attention 的核心：

以输入向量序列 $a^1, a^2, a^3, a^4$ 为例：

对每个输入向量 $a^i$：

$$\begin{aligned}
q^i &= W^q a^i \
k^i &= W^k a^i \
v^i &= W^v a^i
\end{aligned}$$
（$W^q, W^k, W^v$ 为可学习的权重矩阵）

计算向量 $a^1$ 对 $a^i$ 的注意力分数：
$$\alpha_{1,i} = q^1 \cdot k^i$$
（点积运算衡量向量间的相关性）

使用 Softmax 将分数转化为概率分布：
$$\alpha’{1,i} = \frac{\exp(\alpha{1,i})}{\sum_j \exp(\alpha_{1,j})}$$
（保证 $\sum_i \alpha’_{1,i} = 1$）

以归一化分数为权重，对所有 Value 加权求和：
$$b^1 = \sum_i \alpha’_{1,i} v^i$$
（最终输出 $b^1$ 融合了全局相关信息）

⚡ 优势：对序列中所有向量的计算可并行执行，parallel

通过矩阵运算高效实现上述过程：

步骤	计算式	说明
输入矩阵	$I = [a^1;a^2;…]$	堆叠输入向量
Q/K/V矩阵	$\begin{aligned} Q &= I W^q \ K &= I W^k \ V &= I W^v \end{aligned}$	批量生成向量
注意力矩阵	$A = K^T Q$	计算所有注意力分数
归一化	$A’ = \text{softmax}(A)$	行方向归一化
输出	$O = V A’$	加权求和结果

自注意力本身不包含位置信息，需显式添加位置编码 $e^i$：
$$\tilde{a}^i = a^i + e^i$$
编码方式：

固定模式：正弦/余弦函数
$$e^i_t = \begin{cases}
\sin(\omega_k t) & i=2k \
\cos(\omega_k t) & i=2k+1
\end{cases}$$
可学习模式：随机初始化并训练更新

特性	Self-Attention	CNN	RNN
感受野	动态全局	固定局部	顺序局部
长距离依赖	强	需多层堆叠	弱（梯度消失）
并行计算	高	高	低
计算复杂度	$O(n^2 d)$	$O(k n d^2)$	$O(n d^2)$
数据需求	大型数据集	中小数据集	中小数据集

与CNN关系：可视为动态感受野的复杂卷积
与RNN关系：解决了并行计算与长距离依赖问题