我们来分别科普一下 BPE分词 和 知识蒸馏 这两个在自然语言处理(NLP)和深度学习领域非常重要的概念,尽量通俗易懂。
一、 BPE分词 (Byte Pair Encoding)
-
它是什么? BPE 是一种数据压缩算法,后来被非常成功地应用在 NLP 的分词(Tokenization) 任务上。它的核心思想是:通过合并出现频率最高的相邻字符对(Byte Pair),逐步构建一个词表(Vocabulary)。
-
为什么需要它?
-
传统分词的问题:
-
按空格/词分(Word-level): 对于英语可能有效,但无法处理未登录词(OOV),词表会非常大(几十万甚至百万),效率低。对于中文、日语等没有空格的语言也不适用。
-
按字符分(Character-level): 词表极小(几十到几百),能处理任何词,但丢失了词的语义信息,序列长度过长,模型学习难度大。
-
-
BPE的目标: 找到一个折中点!既能有效控制词表大小,又能较好地表示词汇(包括罕见词和拼写变体),并且能处理未见过的词。
-
-
BPE 如何工作?(核心步骤)
想象你要压缩一篇英文文章。-
初始化: 将文本拆分成最基本的单元(通常是字符,比如字母、标点符号)。例如,
"low"
变成['l', 'o', 'w']
,"lower"
变成['l', 'o', 'w', 'e', 'r']
,"newest"
变成['n', 'e', 'w', 'e', 's', 't']
,"widest"
变成['w', 'i', 'd', 'e', 's', 't']
。 -
统计频率: 统计所有相邻字符对出现的频率。比如,
('l', 'o')
出现 2 次(来自low
,lower
),('o', 'w')
出现 2 次(来自low
,lower
),('e', 's')
出现 2 次(来自newest
,widest
),('s', 't')
出现 2 次(来自newest
,widest
),其他对出现次数较少。 -
合并最高频对: 找出频率最高的相邻字符对,将它们合并成一个新的“符号”(Symbol),加入词表。比如,最高频的是
('e', 's')
和('s', 't')
,假设我们先合并('e', 's')
->'es'
。现在词表里除了字母,多了一个es
。 -
更新文本表示: 用新符号
es
替换文本中所有出现e
后面紧跟s
的地方。于是"newest"
变成['n', 'e', 'w', 'es', 't']
,"widest"
变成['w', 'i', 'd', 'es', 't']
。 -
迭代: 重复步骤 2-4(统计新文本中的相邻对频率 -> 合并最高频对 -> 更新文本)。比如,现在
('es', 't')
出现了 2 次(在newest
和widest
中),可以合并成'est'
。词表又增加了est
。文本变成['n', 'e', 'w', 'est']
和['w', 'i', 'd', 'est']
。再比如,如果('l', 'o')
频率高,就合并成'lo'
,然后('lo', 'w')
再合并成'low'
。 -
停止条件: 一直合并,直到达到预设的词表大小(比如 1万, 3.2万)或者没有更多可以合并的字符对。
-
-
BPE分词的结果:
-
最终,词表里包含:单个字符 + 所有合并出来的高频子词片段(Subword Units)。
-
像
"low"
可能被分成了一个词"low"
。 -
像
"lower"
可能被分成"low"
+"er"
。 -
像
"newest"
被分成了"new"
+"est"
。 -
像
"unfriendly"
可能被分成"un"
+"friend"
+"ly"
。 -
一个罕见的词
"tensorflow"
可能被分成"tensor"
+"flow"
(如果"tensor"
和"flow"
在训练数据中高频出现过)。
-
-
BPE的优势:
-
平衡词表大小与表示能力: 显著小于词级词表,远大于字符级词表。能在效率和效果间取得平衡。
-
处理OOV问题: 即使遇到训练时没见过的词,也能通过拆分成已知的子词片段(如
"chatgpt"
->"chat"
+"gpt"
)来表示,大大减少未登录词。 -
共享语义: 共享的子词片段(如
"un"
,"ing"
,"est"
)可以表示相似的含义(否定、进行时、最高级),有助于模型学习形态学和构词法。 -
跨语言通用性: 不依赖特定语言的空格规则,对中文、日文等同样有效(可以把每个汉字/假名看作一个字符开始合并)。
-
-
在LLM中的应用: 几乎所有的现代大语言模型(如 GPT 系列、BERT、LLaMA 等)都使用 BPE 或其变种(如 WordPiece, SentencePiece-Unigram)作为分词器。它是模型处理文本输入输出的第一步。
二、 知识蒸馏 (Knowledge Distillation)
-
它是什么? 知识蒸馏是一种模型压缩技术,核心思想是:训练一个庞大、复杂但性能强大的模型(称为“教师模型”),然后利用这个“教师”的“知识”来指导训练一个更小、更简单、更高效的模型(称为“学生模型”)。 目标是让小模型尽可能接近大模型的性能。
-
为什么需要它?
-
大模型的痛点: 像 GPT-4、Claude 3 Opus 这样的顶尖大模型性能卓越,但它们计算成本极高(需要顶级GPU集群)、推理速度慢(生成一个回答要好几秒甚至更久)、内存/存储占用大(几十GB甚至更大),这使得它们在手机、嵌入式设备、实时应用等资源受限的场景中难以部署。
-
小模型的优势: 小模型计算快、内存占用小、能耗低,易于部署。
-
目标: 能否让小模型也拥有接近大模型的能力? 知识蒸馏就是为了解决这个问题而诞生的。
-
-
核心思想:“知识”是什么?
-
传统的监督学习只利用训练数据的硬标签(Hard Labels),比如图片分类中“这张图100%是猫”。
-
知识蒸馏认为教师模型输出的 “软标签(Soft Labels)” 或 “软目标(Soft Targets)” 包含了更丰富的“知识”:
-
相对关系: 教师模型不仅知道“猫”的概率最高(比如0.9),它还知道“狗”的概率很低(0.05),“狐狸”的概率稍高一点(0.04),“老虎”也有点像(0.01)。这些概率分布反映了不同类别之间的相似性关系(猫更像狐狸/老虎,不太像狗)。这种类别间的相对关系信息是宝贵的“暗知识”(Dark Knowledge)。
-
不确定性/置信度: 概率值本身也体现了模型对预测的置信度。
-
-
这些“软知识”比单纯的“硬标签”([1, 0, 0, 0] 代表猫)蕴含的信息量要大得多!
-
-
知识蒸馏如何工作?(基本流程)
-
训练教师模型: 在一个大型数据集上训练一个性能强大的复杂模型(教师)。
-
软化教师输出: 让教师模型在训练集(或一个特定数据集)上做预测,得到它的软标签(Soft Labels)。通常会对输出层(Logits)应用一个温度参数(Temperature, T) 来软化概率分布:
-
Softmax(z_i / T)
,其中z_i
是 Logit 值。 -
T=1
是标准Softmax。 -
T > 1
(常用 T=2~10) 会使得概率分布更平滑、更软,不同类别之间的概率差异变小,相对关系信息更凸显。T->无穷
时,所有类别概率趋近于相等。 -
T<1
会使分布更尖锐(接近硬标签)。
-
-
训练学生模型: 学生模型的目标有两个:
-
模仿软目标(蒸馏损失): 最小化学生模型的软化输出(同样使用温度 T)与教师模型的软化输出之间的差异(通常用 KL 散度衡量)。这一步让学生学习教师的“暗知识”——类别间的相对关系。
-
拟合真实标签(学生损失): 最小化学生模型的标准输出(T=1)与真实硬标签之间的差异(通常用交叉熵)。这一步确保学生模型的基本分类能力。
-
总损失 = α * 蒸馏损失 + (1 - α) * 学生损失 (α 是一个超参数,平衡两项的重要性)。
-
-
推理: 训练完成后,学生模型在推理时只使用标准 Softmax (T=1),就像普通模型一样。
-
-
知识蒸馏的优势:
-
模型小型化: 核心目标!获得一个远小于教师模型但性能接近的学生模型。
-
加速推理: 小模型计算速度快得多。
-
降低资源需求: 减少内存占用、存储空间和计算能耗。
-
提升小模型性能: 即使没有部署限制,蒸馏得到的小模型通常也比直接用相同结构和小模型在原始数据上训练效果更好,因为它从教师那里学到了更丰富的知识。
-
迁移能力: 可以将教师模型在特定任务上的知识迁移给学生模型。
-
-
在LLM中的应用:
-
知识蒸馏是让大语言模型能力“下放”到移动端、边缘设备的关键技术。
-
例如:
-
DistilBERT: 通过蒸馏 BERT 得到的更小更快的模型,保留了 BERT 95% 的性能。
-
TinyBERT: 专门为 BERT 设计的蒸馏方法。
-
MobileBERT: 针对移动设备优化的 BERT 蒸馏版本。
-
GPT 系列: OpenAI 也使用知识蒸馏等技术来创建更小、更高效的 GPT 模型版本。
-
-
除了模型整体蒸馏,还有专门针对 LLM 的任务特定蒸馏(训练一个教师大模型完成特定任务如翻译、摘要,再蒸馏出一个小模型做该任务)和响应蒸馏(让教师模型生成大量高质量回答作为数据,学生模型学习模仿这些回答)。
-
总结一下:
-
BPE分词: 是一种聪明的“拆词”方法。它通过合并高频字符对来构建词表,让模型能用有限大小的词表高效表示海量词汇(包括新词),是处理文本的基石。
-
知识蒸馏: 是一种聪明的“教小模型”方法。它让强大的“教师”大模型把自己的“软知识”(类别间关系、置信度)教给“学生”小模型,使得小模型能在资源受限的设备上实现接近大模型的性能。
两者都是现代 NLP,尤其是大语言模型发展和落地不可或缺的关键技术!