深度学习练习项目1.MNIST手写识别

最新推荐文章于 2024-12-06 14:18:00 发布

原创

最新推荐文章于 2024-12-06 14:18:00 发布 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #python

文章目录

前言
一、我的环境
二、前期准备
三、构建CNN网络
四、训练模型
五、结果可视化
六、知识点总结
- 1.MNIST手写数字数据集介绍
- 2.神经网络程序说明

前言

🍨 本文為🔗365天深度學習訓練營中的學習紀錄博客
🍖 原作者：K同学啊

一、我的环境

电脑系统： Windows 11
显卡： AMD radeon（TM）Graphics
语言： Python 3.11
开发工具： Anaconda3，Jupyter notebook
深度学习环境： Pytorch

二、前期准备

1.设置GPU

判断设备是否支持GPU，不支持则选择CPU

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision

# 设置硬件设备，如果有GPU则使用，没有则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

2.导入数据

使用dataset下载MNIST数据集，并划分好训练集与测试集
使用dataloader加载数据，并设置好基本的batch_size

torchvision.datasets.MNIST详解:

torchvision.datasets是Pytorch自带的一个数据库，我们可以通过代码在线下载数据，这里使用的是torchvision.datasets中的MNIST数据集。
函数原型：torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)*

参数声明：

root (string) ： 数据地址
train (string) ： Test-训练集，False-测试集
download (bool, optional)： 如果为 True，从互联网上下载数据集，并把数据集放在root目录下。
transform (callable, optional )： 这里的参数选择一个你想要的数据转化函数，直接完成数据转化–
target_transform (callable,optional) ： 接受目标并对其进行转换的函数/转换。

train_ds = torchvision.datasets.MNIST('data', 
                                      train=True, 
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)

test_ds  = torchvision.datasets.MNIST('data', 
                                      train=False, 
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)

torch.utils.data.DataLoader详解：

torch.utils.data.DataLoader是Pytorch自带的一个数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集。
函数原型：torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, , prefetch_factor=2, persistent_workers=False, pin_memory_device=‘’)

参数说明：

dataset (string) ： 加载的数据集
batch_size (int,optional) ： 每批加载的样本大小（默认值：1）
shuffle (bool,optional) : 如果为True，每个epoch重新排列数据。
sampler (Sampler or iterable, optional) ： 定义从数据集中抽取样本的策略。可以是任何实现了 len 的 Iterable。如果指定，则不得指定 shuffle 。
batch_sampler (Sampler or iterable, optional) ： 类似于sampler，但一次返回一批索引。与 batch_size、shuffle、sampler 和 drop_last 互斥。
num_workers (int,optional) ： 用于数据加载的子进程数。 0 表示数据将在主进程中加载（默认值：0）。
pin_memory (bool,optional) : 如果为 True，数据加载器将在返回之前将张量复制到设备/CUDA 固定内存中。如果数据元素是自定义类型，或者collate_fn返回一个自定义类型的批次。
drop_last (bool,optional) : 如果数据集大小不能被批次大小整除，则设置为 True 以删除最后一个不完整的批次。如果 False 并且数据集的大小不能被批大小整除，则最后一批将保留。（默认值：False）
timeout (numeric,optional) : 设置数据读取的超时时间，超过这个时间还没读取到数据的话就会报错。（默认值：0）
worker_init_fn (callable,optional) ： 如果不是 None，这将在步长之后和数据加载之前在每个工作子进程上调用，并使用工作 id（[0，num_workers - 1] 中的一个 int）的顺序逐个导入。（默认：None）

batch_size = 32

train_dl = torch.utils.data.DataLoader(train_ds, 
                                       batch_size=batch_size, 
                                       shuffle=True)

test_dl  = torch.utils.data.DataLoader(test_ds, 
                                       batch_size=batch_size)

# 取一个批次查看数据格式
# 数据的shape为：[batch_size, channel, height, weight]
# 其中batch_size为自己设定，channel，height和weight分别是图片的通道数，高度和宽度。
imgs, labels = next(iter(train_dl))
imgs.shape

运行结果：
在这里插入图片描述