📚 Scaled Dot-Product Attention
Attention(Q, K, V) = softmax(QKT / √dk) · V
Q = 当前 token 的「查询」 · K = 各 token 的「键」 · V = 各 token 的「值」
每个词生成三个向量 Q/K/V。计算 Q 与所有 K 的点积 → softmax 得权重 → 对 V 加权求和,得到融合了上下文的新表示。
配套阅读:图解 Transformer(中文译文) — plan.md 推荐的可视化长文,涵盖 Q/K/V、多头注意力与编解码器全流程(英文原文)
🎮 点击 Query 词查看注意力
句子: — 点击下方词作为 Query,观察它「关注」哪些 Key。
✅ 检测题(5 题)
1. Self-Attention 中「Self」的含义是?
2. 为什么要除以 √dk?
3. 多头注意力(Multi-Head)的作用是?
4. GPT 解码器的因果掩码(Causal Mask)做什么?
5. 阶段 4 tiny-llm 61 行代码主要实现什么?