💖亲爱的技术爱好者们,热烈欢迎来到 Kant2048 的博客!我是 Thomas Kant,很开心能在CSDN上与你们相遇~💖
本博客的精华专栏:
【自动化测试】 【测试经验】 【人工智能】 【Python】
Sklearn 机器学习 - 手写数字识别训练和测试集的拆分
在机器学习任务中,数据集的拆分是非常关键的一步。
本篇文章将以 Scikit-learn 自带的手写数字数据集(Digits Dataset) 为例,演示如何将数据集拆分为 训练集 和 测试集,并解释其中的关键参数与注意事项。
📦 一、数据集简介
sklearn.datasets
模块提供了常用的实验数据集,其中 load_digits()
是一个经典的手写数字识别数据集。
数据集特点
- 数据类型:灰度图像(8×8 像素)
- 样本数量:1797 张图片
- 标签范围:数字 0 ~ 9
- 存储方式:
numpy.ndarray
数组 - 适用场景:分类算法训练与测试
代码示例:加载数据
from sklearn.datasets import load_digits
# 加载数据集
digits = load_digits()
print("数据形状:", digits.data.shape)
print