深度学习基础教程（四）：文本预处理

3Bronze1Pyramid

已于 2025-09-01 18:21:27 修改

阅读量787

点赞数 22

CC 4.0 BY-SA版权

分类专栏：人工智能文章标签：深度学习人工智能

于 2025-09-01 17:26:36 首次发布

本文链接：https://blog.csdn.net/2302_81416402/article/details/151076901

人工智能专栏收录该内容

10 篇文章

订阅专栏

在这里插入图片描述
NLP 模型效果总不达预期？关键在文本预处理！本文从分词、命名实体识别到词嵌入，手把手拆解核心环节，帮你筑牢建模基础~ 📌记得点赞关注哦

一、认识文本预处理

1.1 文本预处理及其作用

文本语料在输送给模型前一般需要一系列的预处理工作，才能符合模型输入的要求，如: 将文本转化成模型需要的张量，规范张量的尺寸等，而且科学的文本预处理环节还将有效指导模型超参数的选择，提升模型的评估指标

1.2 文本预处理中包含的主要环节

文本处理的基本方法
文本张量表示方法
文本语料的数据分析
文本特征处理
数据增强方法

1. 文本处理的基本方法

分词
词性标注
命名实体识别

2. 文本张量表示方法

one-hot编码
Word2vec
Word Embedding

3. 文本语料的数据分析

标签数量分布
句子长度分布
词频统计与关键词词云

4. 数据增强方法

回译数据增强法

5. 重要说明

在实际生产应用中,我们最常使用的两种语言是中文和英文, 因此文本预处理部分的内容都将针对这两种语言进行讲解

二、文本处理的基本方法

📌学习目标

了解什么是分词，词性标注，命名实体识别及其它们的作用
掌握分词，词性标注，命名实体识别流行工具的使用方法

2.1 什么是分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道，在英文的行文中，单词之间是以空格作为自然分界符的，而中文只是字、句和段能通过明显的分界符来简单划界，唯独词没有一个形式上的分界符，分词过程就是找到这样分界符的过程
举个例子:

# 无线电法国别研究
['无线电法', '国别', '研究']

分词的作用:
- 词作为语言语义理解的最小单元，是人类理解文本语言的基础，因此也是AI解决NLP领域高阶任务，如自动问答，机器翻译，文本生成的重要基础环节
流行中文分词工具jieba:
- 愿景: "结巴"中文分词，做最好的 Python 中文分词组件

📌jieba的特性:

支持多种分词模式
- 精确模式
- 全模式
- 搜索引擎模式
支持中文繁体分词
支持用户自定义词典

📌jieba的安装:

pip install jieba

📌jieba的使用:

精确模式分词:
试图将句子最精确地切开，适合文本分析

import jieba
content = "无线电法国别研究"
jieba.cut(content, cut_all=False)  # cut_all默认为False
# 将返回一个生成器对象
# <generator object Tokenizer.cut at 0x7f065c19e318>

# 若需直接返回列表内容, 使用jieba.lcut即可
jieba.lcut(content, cut_all=False)
['无线电', '法国', '别', '研究']

全模式分词:
把句子中所有的可以成词的词语都扫描出来,速度非常快，但是不能消除歧义

# 若需直接返回列表内容, 使用jieba.lcut即可
jieba.lcut(content, cut_all=True)
['无线', '无线电', '法国', '国别', '研究']

搜索引擎模式分词:
在精确模式的基础上，对长词再次切分, 提高召回率，适合用于搜索引擎分词

import jieba
content = "无线电法国别研究"
jieba.cut_for_search(content)
# 将返回一个生成器对象
# <generator object Tokenizer.cut at 0x7f065c19e318>

# 若需直接返回列表内容, 使用jieba.lcut_for_search即可
jieba.lcut_for_search(content)
['无线', '无线电', '法国', '别', '研究']
# 对'无线电'等较长词汇都进行了再次分词.

中文繁体分词:
针对中国香港，台湾地区的繁体文本进行分词

import jieba
content = "煩惱即是菩提，我暫且不提"
jieba.lcut(content)
['煩惱', '即', '是', '菩提', '，', '我', '暫且', '不', '提']

使用用户自定义词典:
添加自定义词典后，jieba能够准确识别词典中出现的词汇，提升整体的识别准确率
词典格式: 每一行分三部分: 词语、词频 (可省略)、词性 (可省略)，用空格隔开，顺序不可颠倒
词典样式如下，具体词性含义请搜索jieba词性对照表,将该词典存为 userdict.txt，方便之后加载使用

云计算 5 n
李小福 2 nr
easy_install 3 eng
好用 300
韩玉赏鉴 3 nz
八一双鹿 3 nz

import jieba
jieba.lcut("八一双鹿更名为八一南昌篮球队！")
# 没有使用用户自定义词典前的结果:
['八', '一双', '鹿', '更名', '为', '八一', '南昌', '篮球队', '！']

jieba.load_userdict("./userdict.txt")
# 使用了用户自定义词典后的结果:
['八一双鹿', '更名', '为', '八一', '南昌', '篮球队', '！']

2.2 什么是命名实体识别

命名实体: 通常我们将人名，地名，机构名等专有名词统称命名实体。如: 周杰伦,黑山县, 孔子学院，24辊方钢矫直机
顾名思义，命名实体识别(Named Entity Recognition，简称NER)就是识别出一段文本中可能存在的命名实体
举个例子:

鲁迅，浙江绍兴人，五四新文化运动的重要参与者，代表作朝花夕拾

==>

鲁迅(人名) / 浙江绍兴(地名)人 / 五四新文化运动(专有名词) / 重要参与者 / 代表作 / 朝花夕拾(专有名词)

命名实体识别的作用:
- 同词汇一样，命名实体也是人类理解文本的基础单元，因此也是AI解决NLP领域高阶任务的重要基础环节

2.3 什么是词性标注

词性: 语言中对词的一种分类方法，以语法特征为主要依据、兼顾词汇意义对词进行划分的结果，常见的词性有14种，如: 名词，动词，形容词等
顾名思义，词性标注(Part-Of-Speech tagging，简称POS)就是标注出一段文本中每个词汇的词性
举个例子:

我爱自然语言处理

==>

我/rr, 爱/v, 自然语言/n, 处理/vn

rr: 人称代词
v: 动词
n: 名词
vn: 动名词

词性标注的作用:
- 词性标注以分词为基础，是对文本语言的另一个角度的理解，因此也常常成为AI解决NLP领域高阶任务的重要基础环节
使用jieba进行中文词性标注:

import jieba.posseg as pseg
pseg.lcut("我爱北京天安门")
[pair('我', 'r'), pair('爱', 'v'), pair('北京', 'ns'), pair('天安门', 'ns')]
# 结果返回一个装有pair元组的列表, 每个pair元组中分别是词汇及其对应的词性

2.4 小结

分词：将字序列按规范组合成词序列（找中文词的分界符），是自动问答等NLP高阶任务的基础；流行工具jieba支持多分词模式、中文繁体分词与用户自定义词典，可安装使用
命名实体识别（NER）：识别文本中人名、地名、机构名等专有名词，是NLP高阶任务的基础
词性标注（POS）：标注词汇词性（分名词、动词等14类左右），以分词为基础，助力NLP高阶任务；可通过jieba实现

三、文本张量表示方法

3.1 文本张量表示

将一段文本使用张量进行表示，其中一般将词汇表示成向量，称作词向量，再由各个词向量按顺序组成矩阵形成文本表示
举个例子:

["人生", "该", "如何", "起头"]

==>

# 每个词对应矩阵中的一个向量
[[1.32, 4,32, 0,32, 5.2],
 [3.1, 5.43, 0.34, 3.2],
 [3.21, 5.32, 2, 4.32],
 [2.54, 7.32, 5.12, 9.54]]

文本张量表示的作用:
- 将文本表示成张量（矩阵）形式，能够使语言文本可以作为计算机处理程序的输入，进行接下来一系列的解析工作
📌文本张量表示的方法:
- one-hot编码
- Word2vec
- Word Embedding

3.2 one-hot词向量表示

又称独热编码，将每个词表示成具有n个元素的向量，这个词向量中只有一个元素是1，其他元素都是0，不同词汇元素为0的位置不同，其中n的大小是整个语料中不同词汇的总数
举个例子:

["改变", "要", "如何", "起手"]`

==>

[[1, 0, 0, 0],
 [0, 1, 0, 0],
 [0, 0, 1, 0],
 [0, 0, 0, 1]]

📌onehot编码实现:

进行onehot编码:

# 导入用于对象保存与加载的joblib
import joblib
# 导入keras中的词汇映射器Tokenizer
from keras.preprocessing.text import Tokenizer
# 假定vocab为语料集所有不同词汇集合
vocab = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "林俊杰", "鹿晗"}
# 实例化一个词汇映射器对象
t = Tokenizer(num_words=None, char_level=False)
# 使用映射器拟合现有文本数据
t.fit_on_texts(vocab)

for token in vocab:
    zero_list = [0]*len(vocab)
    # 使用映射器转化现有文本数据，每个词汇对应从1开始的自然数
    # 返回样式如: [[2]], 取出其中的数字需要使用[0][0]
    token_index = t.texts_to_sequences([token])[0][0] - 1
    #Tokenizer生成的索引是从 1 开始的（这是它的设计规则，索引 1、2、3...），但 Python 列表的下标是从 0 开始的（列表第 1 个元素下标是 0，第 2 个是 1...）
    zero_list[token_index] = 1
    print(token, "的one-hot编码为:", zero_list)

# 使用joblib工具保存映射器，以便之后使用
tokenizer_path = "./Tokenizer"
joblib.dump(t, tokenizer_path)

输出效果:

鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0]
林俊杰 的one-hot编码为: [0, 0, 0, 0, 0, 1]

# 同时在当前目录生成Tokenizer文件，以便之后使用

onehot编码器的使用:

# 加载之前保存的Tokenizer，实例化一个t对象
t = joblib.load(tokenizer_path)

# 编码token为"李宗盛"
token = "李宗盛"
# 使用t获得token_index
token_index = t.texts_to_sequences([token])[0][0] - 1
# 初始化一个zero_list
zero_list = [0]*len(vocab)
# 令zero_list的对应索引为1
zero_list[token_index] = 1
print(token, "的one-hot编码为:", zero_list)

输出效果:

李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0]

四、word2vec模型

4.1 模型介绍

word2vec是一种流行的将词汇表示成向量的无监督训练方法，该过程将构建神经网络模型，将网络参数作为词汇的向量表示，它包含CBOW和skipgram两种训练模式
📌CBOW (Continuous bag of words)模式 :
- 给定一段用于训练的文本语料，再选定某段长度(窗口)作为研究对象，使用上下文词汇预测目标词汇

分析:
- 图中窗口大小为9，使用前后4个词汇对目标词汇进行预测
CBOW模式下的word2vec过程说明:
- 假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长), 窗口大小为3, 因此模型的第一个训练样本来自Hope can set, 因为是CBOW模式，所以将使用Hope和set作为输入，can作为输出，在模型训练时，Hope，can，set等词汇都使用它们的one-hot编码。如图所示: 每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5，这里的3是指最后得到的词向量维度)相乘之后再相加，得到上下文表示矩阵(3x1)

接着，将上下文表示矩阵与变换矩阵(参数矩阵5x3，所有的变换矩阵共享参数)相乘，得到5x1的结果矩阵，它将与我们真正的目标矩阵即can的one-hot编码矩阵(5x1)进行损失的计算，然后更新网络参数完成一次模型迭代

最后窗口按序向后移动，重新更新参数，直到所有语料被遍历完成，得到最终的变换矩阵(3x5)，这个变换矩阵与每个词汇的one-hot编码(5x1)相乘，得到的3x1的矩阵就是该词汇的word2vec张量表示
📌skipgram模式:
- 给定一段用于训练的文本语料，再选定某段长度(窗口)作为研究对象，使用目标词汇预测上下文词汇

分析:
- 图中窗口大小为9，使用目标词汇对前后四个四个词汇进行预测
skipgram模式下的word2vec过程说明:
- 假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长)，窗口大小为3，因此模型的第一个训练样本来自Hope can set，因为是skipgram模式，所以将使用can作为输入, Hope和set作为输出，在模型训练时，Hope, can, set等词汇都使用它们的one-hot编码。如图所示: 将can的one-hot编码与变换矩阵(即参数矩阵3x5，这里的3是指最后得到的词向量维度)相乘，得到目标词汇表示矩阵(3x1)
- 接着, 将目标词汇表示矩阵与多个变换矩阵(参数矩阵5x3)相乘，得到多个5x1的结果矩阵，它将与我们Hope和set对应的one-hot编码矩阵(5x1)进行损失的计算，然后更新网络参数完成一次模型迭代

最后窗口按序向后移动，重新更新参数，直到所有语料被遍历完成，得到最终的变换矩阵即参数矩阵(3x5)，这个变换矩阵与每个词汇的one-hot编码(5x1)相乘，得到的3x1的矩阵就是该词汇的word2vec张量表示

五、词嵌入word embedding 介绍

Word Embedding（词嵌入）是自然语言处理（NLP）领域突破传统词汇表示局限的核心技术，其本质是通过数学映射，将文本中离散的词汇（如“猫”“狗”）转化为低维、稠密的实数向量（记为 $w⃗∈Rd\vec{w} \in \mathbb{R}^d$ ，其中 $d$ 为向量维度，常规取值50-300维）。这一技术的核心价值在于解决了传统one-hot编码的两大痛点：一是“维度灾难”（如语料含10万个不同词汇时，one-hot向量维度需10万，导致计算效率极低）；二是“无语义关联”（one-hot向量间余弦相似度恒为0，无法体现“猫”与“狗”同属“动物”的语义关联）

5.1 核心特性与数学原理

1. 低维稠密性

维度选择基于实验验证——50-300维既能保留词汇的核心语义信息，又能避免维度过高导致的“过拟合”和计算资源浪费（对比one-hot的“词汇量=维度”，低维设计使模型训练速度提升10-100倍）

2. 语义关联性

通过向量空间距离体现词汇语义相似度，核心计算指标为余弦相似度，公式如下：
$cosθ=a⃗⋅b⃗∣∣a⃗∣∣×∣∣b⃗∣∣cos\theta = \frac{\vec{a} \cdot \vec{b}}{||\vec{a}|| \times ||\vec{b}||}$
其中，分子 $a⃗⋅b⃗\vec{a} \cdot \vec{b}$ 为向量点积（计算式： $a⃗⋅b⃗=a1b1+a2b2+...+adbd\vec{a} \cdot \vec{b} = a_1b_1 + a_2b_2 + ... + a_db_d$ ， $a_i、b_i$ 为向量第 $i$ 维数值），分母 $∣∣a⃗∣∣、∣∣b⃗∣∣||\vec{a}||、||\vec{b}||$ 为向量模长（计算式： $∣∣a⃗∣∣=a12+a22+...+ad2||\vec{a}|| = \sqrt{a_1^2 + a_2^2 + ... + a_d^2}$ ）。例如“猫”（ $a⃗\vec{a}$ ）与“狗”（ $b⃗\vec{b}$ ）的余弦相似度约0.8（接近1，语义相近），而“猫”与“汽车”的相似度约0.1（语义无关）。此外，词向量还支持“语义逻辑运算”，如 $国王⃗−男人⃗+女人⃗≈女王⃗\vec{国王} - \vec{男人} + \vec{女人} \approx \vec{女王}$ ，直观体现词汇间的语义关系

5.2 常见实现方式对比

类型	代表模型	核心原理	向量特性	核心优势	适用场景
静态词嵌入	Word2Vec、GloVe	Word2Vec（CBOW/Skip-gram）通过上下文预测优化向量；GloVe基于全局词汇共现矩阵计算	固定向量（与上下文无关，同一词汇在不同句子中向量相同）	预训练后可直接复用，计算速度快，无需额外微调	通用NLP任务（如文本分类、垃圾邮件识别）
动态词嵌入	BERT、GPT	BERT（双向注意力机制）、GPT（单向自回归）结合句子上下文动态生成向量	上下文依赖向量（同一词汇在不同句子中向量不同，如“苹果”在“吃苹果”中≈[0.2,0.5,…]，在“苹果公司”中≈[0.8,-0.3,…]）	解决“一词多义”问题，语义表示更精准	高语义要求任务（如智能问答、机器翻译、文本摘要）

5.3 核心应用价值

词嵌入是现代NLP任务的“基础积木”：在文本分类中，它将词汇转化为模型可接收的数值输入；在机器翻译中，通过向量相似度实现不同语言词汇的对齐；在情感分析中，通过“开心”“愉悦”的向量相似性，统一正向情感特征。正是词嵌入的出现，让NLP从传统的“统计匹配”（如关键词检索）迈向了“语义理解”，成为深度学习时代NLP技术发展的核心支柱

六、文本数据分析

6.1 文件数据分析介绍

文本数据分析的作用:
- 文本数据分析能够有效帮助我们理解数据语料，快速检查出语料可能存在的问题，并指导之后模型训练过程中一些超参数的选择
常用的几种文本数据分析方法:
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云

6.2 数据集说明

我们将基于真实的中文酒店评论语料来讲解常用的几种文本数据分析方法
中文酒店评论语料:
- 属于二分类的中文情感分析语料,该语料存放在"./cn_data"目录下
- 其中train.tsv代表训练集,dev.tsv代表验证集,二者数据样式相同
train.tsv数据样式:

sentence	label
早餐不好,服务不到位,晚餐无西餐,早餐晚餐相同,房间条件不好,餐厅不分吸烟区。房间不分有无烟房	0
去的时候,酒店大厅和餐厅在装修,感觉大厅有点挤。由于餐厅装修本来该享受的早饭,也没有享受(他们是8点开!有很长时间没有在西藏的大夏侯住了，以前去北京在这里住的较多。这次住进发现换了液晶电视，但网络不是很好，非常好的地理位置，住的是豪华海景房，打开窗户就可以看见栈桥和海景。记得很早以前也住过，现在重新装修交通很方便，房间小了一点，但是干净整洁，很有香港的特色，性价比高，推荐一下哦	1
酒店的装修比较陈旧，房间的隔音，主要是卫生间的隔音非常差，只能算是一般的	0
酒店有点旧，房间比较小，但酒店的位子不错，就在海边，可以直接去游泳。8楼的海景打开窗户就是海。如果想位置很好，走路到文庙、清凉寺5分钟都用不了，周边公交车很多很方便，就是出租车不太爱去（老城区路窄爱堵酒店设备一般，套房里卧室的不能上网，要到客厅去	0

train.tsv数据样式说明:
- train.tsv中的数据内容共分为2列，第一列数据代表具有感情色彩的评论文本；第二列数据，0或1，代表每条文本数据是积极或者消极的评论，0代表消极，1代表积极

6.3 获取标签数量分布

# 导入必备工具包
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
# 设置显示风格
plt.style.use('fivethirtyeight')

# 分别读取训练tsv和验证tsv
train_data = pd.read_csv("train.tsv", sep="\t")
valid_data = pd.read_csv("dev.tsv", sep="\t")

# 获得训练数据标签数量分布
sns.countplot("label", data=train_data)
plt.title("train_data")
plt.show()

# 获取验证数据标签数量分布
sns.countplot("label", data=valid_data)
plt.title("valid_data")
plt.show()

分析:
- 在深度学习模型评估中，我们一般使用ACC作为评估指标，若想将ACC的基线定义在50%左右，则需要我们的正负样本比例维持在1:1左右，否则就要进行必要的数据增强或数据删减。上图中训练和验证集正负样本都稍有不均衡，可以进行一些数据增强

6.4 获取句子长度分布

# 在训练数据中添加新的句子长度列，每个元素的值都是对应的句子列的长度
train_data["sentence_length"] = list(map(lambda x: len(x), train_data["sentence"]))
# 绘制句子长度列的数量分布图
sns.countplot("sentence_length", data=train_data)
# 主要关注count长度分布的纵坐标，不需要绘制横坐标，横坐标范围通过dist图进行查看
plt.xticks([])
plt.show()

# 绘制dist长度分布图
sns.distplot(train_data["sentence_length"])
# 主要关注dist长度分布横坐标，不需要绘制纵坐标
plt.yticks([])
plt.show()

# 在验证数据中添加新的句子长度列，每个元素的值都是对应的句子列的长度
valid_data["sentence_length"] = list(map(lambda x: len(x), valid_data["sentence"]))
# 绘制句子长度列的数量分布图
sns.countplot("sentence_length", data=valid_data)
# 主要关注count长度分布的纵坐标，不需要绘制横坐标，横坐标范围通过dist图进行查看
plt.xticks([])
plt.show()

# 绘制dist长度分布图
sns.distplot(valid_data["sentence_length"])
# 主要关注dist长度分布横坐标，不需要绘制纵坐标
plt.yticks([])
plt.show()

分析:
- 通过绘制句子长度分布图, 可以得知我们的语料中大部分句子长度的分布范围，因为模型的输入要求为固定尺寸的张量，合理的长度范围对之后进行句子截断补齐(规范长度)起到关键的指导作用。上图中大部分句子长度的范围大致为20-250之间

6.5 获取正负样本长度散点分布

# 绘制训练集长度分布的散点图
sns.stripplot(y="sentence_length",x="label",data=train_data)
plt.show()

# 绘制验证集长度分布的散点图
sns.stripplot(y="sentence_length",x="label",data=valid_data)
plt.show()

分析:
- 通过查看正负样本长度散点图，可以有效定位异常点的出现位置，帮助我们更准确进行人工语料审查。上图中在训练集正样本中出现了异常点，它的句子长度近3500左右,需要我们人工审查

6.6 获取不同词汇总数统计

# 导入jieba用于分词
# 导入chain方法用于扁平化列表
import jieba
from itertools import chain

# 进行训练集的句子进行分词，并统计出不同词汇的总数
train_vocab = set(chain(*map(lambda x: jieba.lcut(x), train_data["sentence"])))
print("训练集共包含不同词汇总数为：", len(train_vocab))

# 进行验证集的句子进行分词，并统计出不同词汇的总数
valid_vocab = set(chain(*map(lambda x: jieba.lcut(x), valid_data["sentence"])))
print("训练集共包含不同词汇总数为：", len(valid_vocab))

输出效果:

训练集共包含不同词汇总数为： 12147
训练集共包含不同词汇总数为： 6857

6.7 小结

学习了文本数据分析的作用:
- 文本数据分析能够有效帮助我们理解数据语料，快速检查出语料可能存在的问题，并指导之后模型训练过程中一些超参数的选择
学习了常用的几种文本数据分析方法:
- 标签数量分布
- 句子长度分布

从语料分析到张量表示，这些预处理技巧能解决数据问题、指导参数选择，轻松应对情感分析等任务，让你的 NLP 开发效率翻倍！~ 📌记得点赞关注哦