Sklearn 机器学习邮件文本分类计数器向量化文本-CSDN博客

💖亲爱的技术爱好者们，热烈欢迎来到 Kant2048 的博客！我是 Thomas Kant，很开心能在CSDN上与你们相遇～💖

在这里插入图片描述

本博客的精华专栏：
【自动化测试】【测试经验】【人工智能】【Python】

在这里插入图片描述

Sklearn 机器学习 | 邮件文本分类：计数器向量化文本实战

在自然语言处理（NLP）任务中，邮件文本分类是一个非常常见的场景，例如 垃圾邮件检测、主题分类 等。

本文将使用 Scikit-learn 提供的 CountVectorizer 来实现对邮件内容的计数向量化，并基于机器学习模型进行分类预测。

📌 一、项目背景与思路

邮件文本本质上是非结构化数据，计算机无法直接处理原始文本，因此需要将其转化为数值形式。计数向量化（Bag of Words，词袋模型）是一种常用的文本特征提取方法，它会统计每个词在文本中出现的次数，从而形成一个特征向量。

整体流程如下：

数据准备：获取带有类别标签的邮件数据集
文本向量化：使用 CountVectorizer 将邮件转化为数值矩阵
模型训练：使用朴素贝叶斯、逻辑回归等分类模型
模型评估：使用测试集进行准确率评估

📂 二、数据准备与预处理

为了演示，这里构造一个简单的邮件样本数据集，包括 垃圾邮件（spam） 与 正常邮件（ham） 两类。

# 导入必要库
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report

# 构造示例数据
emails = [
    "Get ch