🔮 下一词预测 · 自回归

看懂 GPT 类模型「一个字一个字往外蹦」的核心循环

📚 自回归(Autoregressive)是什么?

大语言模型并不一次输出整段话,而是反复预测下一个 token,把新 token 拼回输入,再预测再拼接……直到遇到结束符或达到 max_tokens。

① 输入上下文
② 模型输出
词表概率
③ 采样 1 个 token
④ 拼接到上下文

与阶段 4 的关系:Transformer 负责步骤 ②——给定全部已有 token,通过自注意力计算每个位置的表示,最后一层输出对「下一 token」的 logits。本演示用微型 bigram 模拟概率分布,原理相同。

配套阅读:图解 Transformer(中文译文) · 交互演示:Self-Attention 热力图

🎮 逐步生成演示

点击「下一步」观察每次预测的 Top-5 候选与最终采样结果。


当前步 · 下一 token 概率 Top-5

点击「预测下一步」开始

✅ 检测题(5 题)

1. GPT 类模型的生成方式是?
2. 模型输出的 logits 经过 softmax 后得到什么?
3. 为什么生成长文本时计算量会线性增长?
4. 「Teacher forcing」训练时与推理时的区别?
5. 本演示用的微型模型属于哪类?