Token 分词可视化演示 - 大模型入门

📚 为什么需要分词？

神经网络只能处理数字。分词器（Tokenizer）把文本切成 token，再映射为整数 ID。GPT 系常用 BPE（Byte Pair Encoding）：从字符出发，反复合并最高频相邻对，形成子词表。

中文「机器学习」可能被切成 机器 + 学习；英文 unhappiness 可能切成 un + happi + ness。词表大小通常 32k~100k。

1. 模型实际接收的输入是？

2. BPE 的核心思想是？

3. token 数与计费/API 成本的关系？

4. 词表（vocabulary）大小影响什么？

5. 「Hello, world!」按字符分词会有几个 token（含空格标点）？