下一词预测与自回归生成演示 - 大模型原理

📚 自回归（Autoregressive）是什么？

大语言模型并不一次输出整段话，而是反复预测下一个 token，把新 token 拼回输入，再预测再拼接……直到遇到结束符或达到 max_tokens。

① 输入上下文

→

② 模型输出
词表概率

→

③ 采样 1 个 token

→

④ 拼接到上下文

↻

与阶段 4 的关系：Transformer 负责步骤 ②——给定全部已有 token，通过自注意力计算每个位置的表示，最后一层输出对「下一 token」的 logits。本演示用微型 bigram 模拟概率分布，原理相同。

点击「下一步」观察每次预测的 Top-5 候选与最终采样结果。

点击「预测下一步」开始

1. GPT 类模型的生成方式是？

2. 模型输出的 logits 经过 softmax 后得到什么？

3. 为什么生成长文本时计算量会线性增长？

4. 「Teacher forcing」训练时与推理时的区别？

5. 本演示用的微型模型属于哪类？