Skip to main content

Study

abbr.stand formeaning
GQAGrouped Query Attention分组查询注意力
MHAMulti-Head Attention多头注意力
MLAMulti-Head Latent Attention多头潜在注意力
MoEMixture of Experts专家混合

Transformer

Attention Is All You Need

  • 2017-06, by Ashish Vaswani et al.
  • 引入 Transformer 模型架构,改变了自然语言处理领域
  • 打破了顺序处理的枷锁,实现了大规模并行计算。
  • 极大地提升了模型捕捉“长距离依赖”的能力。
  • RNN/LSTM 的时代与困境
    • 计算效率低下 (无法并行) - 海量训练数据不现实
    • 长距离依赖问题 (信息丢失)
  • 用自注意力机制 (Self-Attention) 实现并行计算
  • 用自注意力机制解决长距离依赖
  • 深远实际意义
    • 奠定了现代大语言模型 (LLM) 的基础
    • 开启了“预训练+微调”的新范式
    • 推动了模型规模的“军备竞赛”
    • 跨领域的范式转移
  • Attention Is All You Need

  1. 生成 Q, K, V
  • 对于输入序列中的每一个词嵌入向量,都通过乘以 WQW_Q, WKW_K, WVW_V 矩阵生成对应的 Q, K, V 向量。
  1. 计算注意力分数 (Score)
  • 当前处理的词的 Q 向量与所有词的 K 向量进行点积,得到注意力分数。
Score(Q,K)=QKTScore(Q, K) = Q \cdot K^T
  1. 归一化 (Normalization)
  • 将分数转换成一个总和为 1 的概率分布
  • 得到 注意力权重
Attention(Q,K,V)=softmax(QKT/sqrt(dk))VAttention(Q, K, V) = softmax(QK^T / sqrt(d_k))V
  1. 加权求和 (Weighted Sum)
ContextVector=AttentionWeightsVContext Vector = Attention Weights \cdot V