Self-Attention 注意力 | 必学必会演示

📚 Scaled Dot-Product Attention

Attention(Q, K, V) = softmax(QK^T / √d_k) · V Q = 当前 token 的「查询」 · K = 各 token 的「键」 · V = 各 token 的「值」

每个词生成三个向量 Q/K/V。计算 Q 与所有 K 的点积 → softmax 得权重 → 对 V 加权求和，得到融合了上下文的新表示。

配套阅读：图解 Transformer（中文译文） — plan.md 推荐的可视化长文，涵盖 Q/K/V、多头注意力与编解码器全流程（英文原文）

句子： — 点击下方词作为 Query，观察它「关注」哪些 Key。

1. Self-Attention 中「Self」的含义是？

2. 为什么要除以 √d_k？

3. 多头注意力（Multi-Head）的作用是？

4. GPT 解码器的因果掩码（Causal Mask）做什么？

5. 阶段 4 tiny-llm 61 行代码主要实现什么？