爱写代码的布丁-CSDN博客

原创 P10 Pytorch实现车牌识别

批归一化（Batch Normalization）的使用：提高模型训练稳定性和速度独热编码：将车牌字符有效转换为神经网络可处理的格式数据增强：通过resize和规范化处理提高模型泛化能力Adam优化器：适应性优化算法，有助于更快收敛模型结构：使用了多层卷积结构，有助于提取车牌图像的特征层次这个模型的目标是识别车牌上的字符，通过卷积神经网络提取图像特征，然后预测车牌上每个位置的字符。训练完成后，模型应能够从新的车牌图像中正确识别出车牌号码。

2025-04-18 21:54:55 385

原创 P9 yolov5

本次内容除了网络结构部分外，其余部分均与上周相同。对YOLOV5模型进行搭建，初步了解其网络结构与主要作用。但是依然有些一知半解，后续需要巩固加强。

2025-04-11 18:03:43 138

原创 P8 YOLOv5-C3模块实现

思考是否可以通过增加、调整C3模块与Conv模块来提高准确率？调整Conv模块增加卷积层数量：添加更多的卷积层可以帮助网络提取更丰富的特征，从而可能提高模型的表现。调整卷积核大小：不同大小的卷积核可以捕捉不同尺度的特征。尝试使用混合大小的卷积核（例如3×3和5×5）来捕获更多样的特征。增加卷积核数量：增加每层卷积核的数量（通道数）可以提取更多特征，从而可能提高模型的表现。调整步幅和填充方式：适当调整卷积层的步幅和填充方式，可以改变特征图的尺寸和感受野，进而影响模型对不同尺度特征的捕捉能力。

2025-04-04 21:34:07 288

原创 P7 马铃薯病害识别

③学习了解了VCG16网络模型和架构。不想安装库，手动统计模型的参数量。

2025-03-18 14:12:56 163

原创第P6周：VGG-16算法-Pytorch实现人脸识别

主要调用官方VCG模块完成实训，了解了vcg网络框架，它的结构是由一系列的卷积层和池化层构成，卷积核大小都是3×3，步长为1.池化层大小2×2，步长为2.此处跟着K同学的代码走，不能正确读取子文件夹的目录信息。将代码进行了如上修改，才能正确读取。

2025-03-13 23:44:06 120

原创 P5运动鞋识别

1、设置动态学习率等间隔动态调整方法，每经过step_size个epoch，做一次学习率decay，以gamma值为缩小倍数。函数原型：torch.optim.lr_scheduler.StepLR(optimizer, step_size, gamma=0.1, last_epoch=-1)参数：optimizer(Optimizer)：要调整学习率的优化器step_size(int)：学习率调整的间隔epoch数gamma(float)：学习率调整的缩减比例。

2025-03-04 20:23:00 995

原创 P4猴痘病毒识别

问题1：按照训练营教程这么写是错的，输出结果是【users,users】。应将代码修改为下面的才能正确读出子文件夹：我应该使用 path.name 来获取文件夹名称，而不是手动分割路径。问题2：修改使得测试集准确率到80(1) 修改数据增强在 transforms.Compose 中添加更多的数据增强操作：transforms.RandomHorizontalFlip(), # 随机水平翻转transforms.RandomRotation(15), # 随机旋转。

2025-02-21 21:42:57 282

原创 P3天气识别

1、读取文件路径时，报错：SyntaxError: (unicode error) ‘unicodeescape’ codec can’t decode bytes in position 2-3: truncated \UXXXXXXXX escape错误是由于Python字符串中的反斜杠（\）被解释为转义字符。所以修改为data_dir = ‘C:/Users/10605/Desktop/第5天-没有加密版本/第5天/weather_photos’，不报错了。

2025-02-14 13:29:48 135

原创 P2CIFAR10彩色图片识别

self.fc1 = nn.Linear(512, 256) ”中的512如何得出在深度学习中，特别是在构建卷积神经网络（CNN）时，确定全连接层（如 nn.Linear）的输入特征数卷积层的输出计算假设我们有一个卷积层，其输出将被展平并用作全连接层的输入。卷积层的输出尺寸取决于以下因素：输入尺寸：原始图像或前一层的输出尺寸。卷积核尺寸：卷积核（或滤波器）的大小。步长（Stride）：卷积核移动的步长。填充（Padding）：在输入边缘添加的额外零的数量。示例计算。

2025-01-23 15:54:16 754

原创 P1 PYTHORCH实现minist手写数据集

【代码】P1 PYTHORCH实现minist手写数据集。

2025-01-17 14:41:47 206

原创 T10数据增强

本文学习了解了两种数据增强的方式，分别是● 将数据增强模块嵌入model中● 在Dataset数据集中进行数据增强除此之外，了解到了别的数据增强的方式，例如：1、基于变换的增强图像变换：包括旋转、翻转、缩放、裁剪、平移、仿射变换等，可以随机水平翻转、随机旋转、随机调整亮度和对比度。颜色变换：如调整亮度、对比度、饱和度、色调等。噪声注入：向数据中添加各种噪声，如高斯噪声、椒盐噪声等。模糊处理：对图像进行模糊处理，如高斯模糊。2.基于混合的增强。

2025-01-08 14:56:41 684

原创 T9 猫狗识别2

在T8版本中存在一个缺陷：每次训练循环结束后，loss和accuracy的数值都会被重置，这是因为它们被错误地设置成了与history相同的值，导致每一轮训练的结果记录都是相同的。然而，在T9版本中，通过将每轮的loss和accuracy添加到一个列表中（例如：loss列表通过loss.append(history)进行更新），成功地保留了历史数据，从而解决了之前的问题。因此，在T9版本中，每一轮训练结束后，可以通过查看loss和accuracy列表中的最后一个条目来确定该轮的训练结果。

2024-12-27 09:59:26 151

原创 T8 猫狗识别

1、本次用cpu电脑跑了一天，才跑完这个程序2、本周了解tqdm，并使用tqdm实现了可视化进度条3、看了本次的运行结果，准确率上升后又下降了，感觉可以采用前两周有一个ModelCheckpoint,来保存最优的模型4、了解了train_on_batch 是模型的一个方法，用于在单个批次的数据上训练模型，history = model.train_on_batch(x, y)，x：一个批次的输入数据。它的形状应该与模型的输入层相匹配。y：相应的目标数据（标签）。

2024-12-20 15:21:31 355

原创 T7 咖啡豆识别

VGG-16 结构说明：13个卷积层（Convolutional Layer），分别用blockX_convX表示3个全连接层（Fully connected Layer），分别用fcX与predictions表示5个池化层（Pool layer），分别用blockX_pool表示因为包含了16个隐藏层（13个卷积层和3个全连接层），故称为VGG-16从本周开始，明显感觉CPU跑的非常慢，耗时很多，下周考虑借一下有GPU的电脑使用。

2024-12-13 21:16:11 347

原创 T6好莱坞明星识别

这个一开始跑出来过拟合了，Accuracy是0.3944最好使用了sparse_categorical_crossentropy后，效果还降低了对于三种损失函数总结如下：一、定义及适用场景binary_crossentropy（对数损失函数）定义：当用于二分类问题时，binary_crossentropy计算的是预测值与真实值之间的交叉熵损失。

2024-11-29 14:22:54 689

原创 T5运动鞋品牌识别

batch_size=32，就意味着每次迭代处理的图片数量是32张。initial_learning_rate 最后设置成0.001，才跑出上图的效果但是还没没有博主的效果好，0.0001的效果反而不咋滴。

2024-11-21 23:08:15 304

原创 T4 猴痘病毒识别

个人感觉T4的这次训练和T3的天气识别较为相似，共同点都是自己下载数据集，从本地加载数据图片训练。本次训练的分类只有两种，猴痘和其他。关于训练集和验证集，之前的训练中已经百度查阅了这一点验证集并没有参与训练过程梯度下降过程的，狭义上来讲是没有参与模型的参数训练更新的。

2024-11-08 14:04:20 414

原创 T3 天气识别

本周的训练不同于前两周，数据集不是tensorflow自带的，是要下载到本地的，所以初步了解了如何读取本地数据集的方法。了解了Dropout层的意义，并详细写在博文中。了解了shuffle和prefetch方法● shuffle()：打乱数据，关于此函数的详细介绍可以参考：https://zhuanlan.zhihu.com/p/42417456● prefetch()：预取数据，加速运行。

2024-10-30 14:33:33 829

原创 T2 彩色图片分类

选择了稀疏分类交叉熵作为损失函数，并设置了from_logits=True。这意味着模型的输出（即logits）将直接用于计算损失，而不会先通过softmax函数进行归一化。在模型的最后一层（输出层）没有softmax激活函数的情况下，应该设置from_logits=True。Adam优化器通常不需要太多的调整就能取得较好的效果。在分类问题中，准确率是评估模型性能的一个常用指标，它表示正确分类的样本数与总样本数的比例。编译模型是训练前的必要步骤，它指定了优化器、损失函数和评估指标。

2024-10-17 15:19:54 335

原创 T1：实现mnist手写数字识别

TensorFlow 和 Keras 之间的关系可以描述为一种集成与被集成的关系，其中 Keras 作为高层神经网络API，被集成到了 TensorFlow 之中。通过下面的网络结构我们可以简单理解为，输入一张图片，将会得到一组数，这组代表这张图片上的数字为0~9中每一个数字的几率（并非概率），out数字越大可能性越大，仅此而已。假设图像的维度是(n，n)，过滤器的维度是(f，f)，那么结果矩阵的维度就是(n-f+1,n-f+1)。:我的电脑没有tensorflow，之前是在wsl中下载的，并不相通。

2024-10-14 16:52:11 831