📚 为什么需要分词?
神经网络只能处理数字。分词器(Tokenizer)把文本切成 token,再映射为整数 ID。GPT 系常用 BPE(Byte Pair Encoding):从字符出发,反复合并最高频相邻对,形成子词表。
中文「机器学习」可能被切成 机器 + 学习;英文 unhappiness 可能切成 un + happi + ness。词表大小通常 32k~100k。
🎮 三种分词对比
BPE 合并过程(教学简化 · 前 5 步)
✅ 检测题(5 题)
1. 模型实际接收的输入是?
2. BPE 的核心思想是?
3. token 数与计费/API 成本的关系?
4. 词表(vocabulary)大小影响什么?
5. 「Hello, world!」按字符分词会有几个 token(含空格标点)?