大家好,我是B站的UP主:我喜欢吃小熊饼干。我在CSDN会写一些文章介绍我做的项目,这些项目我都录制了详细的讲解视频(约4-6个小时的内容量),讲解基础知识,环境配置,代码使用等内容。
详细了解请移步:
详细讲解视频-我喜欢吃小熊饼干的个人主页-哔哩哔哩视频https://space.bilibili.com/284801305几分钟快速预览项目效果的演示视频:
【计算机毕设】基于深度学习的猫狗分类(宠物识别分类)【猫狗分类】【CNN】【Transformer】【卷积神经网络】
详细的讲解视频合集:
- 合集第一集:主要讲对整个教程的介绍,深度学习项目的基本做法和基本概念。然后介绍具体该项目的基本做法。如何去扩张项目,增加更多的内容。(这里不会涉及到代码,纯从项目的做法的角度,以PPT讲解的方式带大家入门,建立深度学习的基本概念)
- 合集第二集:毕设选题指导,毕设服务等内容
- 合集第三集:从代码使用和演示的角度,介绍项目的内容。科普深度学习环境配置的知识,如何配置项目,如何使用项目,更换数据集训练,完成特定的课题。
- 合集第四集:讲解文档相关的内容,开题报告、开题ppt、开题答辩,论文写作,论文答辩等
第一集和第三集比较重要,可以整体看下这两个视频。
下面我用文字介绍一下项目的内容
项目的背景意义:
随着城市化进程加快与居民情感需求升级,猫狗作为最主要的宠物品类,在我国饲养规模持续扩大 —— 据统计,2024 年我国宠物猫狗总量超 1.2 亿只,养宠家庭占比突破 25%,宠物经济市场规模超 6000 亿元。然而,在 “人宠共生” 的生活场景与产业发展中,传统依赖人工判断的模式面临诸多痛点:在宠物安全领域,流浪猫狗与走失宠物的甄别难度大,人工辨识易因品种相似(如柴犬与秋田犬、布偶猫与波斯猫)或个体特征记忆偏差导致误判,每年超百万只走失宠物因无法精准识别而难以回归家庭;在健康管理环节,兽医需通过肉眼观察宠物毛色、体态、皮肤状态判断健康状况,但早期疾病信号(如猫癣初期的细微皮屑、犬皮肤病的局部脱毛)易被忽视,延误诊疗时机;在宠物服务领域,宠物寄养、美容、训练等服务需根据品种特性提供差异化方案(如大型犬与小型犬的运动需求差异、长毛猫与短毛猫的美容方式不同),人工分类效率低且易出错,影响服务质量。
同时,宠物产业的规范化发展也对精准识别提出需求:一方面,部分城市出台养犬管理条例,要求对宠物进行品种登记与行为评估(如烈性犬与温顺犬的分类管控),人工登记易出现品种误判,导致管理漏洞;另一方面,宠物食品、用品的研发需基于品种体型、生理特点(如小型犬的关节保护需求、短鼻猫的呼吸道适配设计),传统市场调研依赖人工统计,数据准确性与效率难以保障。此外,在宠物救助与动物保护领域,志愿者需快速区分流浪猫狗的品种、年龄、健康状态,以制定针对性救助方案,但人工分类覆盖范围有限,难以应对大规模流浪动物救助场景。
猫狗图像分类项目依托计算机视觉、深度学习技术,通过采集宠物的外观特征(毛色、花纹、体型结构、面部轮廓)、行为特征(坐姿、步态)及生理细节(耳型、眼型、毛发长度),可实现对 100 种以上常见猫狗品种的精准分类,同时能识别宠物的年龄阶段(幼龄、成年、老年)、健康状态(皮肤异常、体态异常)及行为倾向(活泼、应激、慵懒),识别准确率超 98%,单张图像分析耗时不足 0.3 秒,且能适应复杂场景(如室内居家环境、户外公园场景、不同光照条件)。这一技术突破可有效破解产业痛点:在宠物安全领域,为流浪动物救助站、社区物业提供精准识别工具,帮助走失宠物快速匹配主人,提升寻回率;在健康管理环节,辅助兽医早期发现宠物健康问题,为诊疗提供数据支撑,降低疾病风险;在服务与管理领域,助力宠物服务机构优化服务方案,协助城市管理部门规范宠物登记,提升管理效率。
此外,项目成果还具有多维度价值:在宠物育种领域,通过分析品种特征数据,为优质品种培育提供科学依据;在动物行为研究领域,通过分类识别宠物行为状态,助力探索人宠互动模式;在儿童教育领域,通过趣味化的品种识别体验,培养青少年对动物的关爱意识。从长远来看,该技术不仅能推动宠物产业从 “粗放式服务” 向 “精细化运营” 转型,提升产业附加值,还能优化人宠生活环境,强化宠物与人类的情感联结,为构建和谐的 “人宠社会” 提供技术支撑,兼具显著的经济价值与社会价值。
项目的技术路线图
项目的数据集信息如下:
项目里实现了9种常见的模型,包括:
CNN架构的模型:
1.AlexNet
2.VGG
3.ResNet
4.MobileNet
5.DenseNet
6.ConvNeXt
7.ShuffleNet
Transformer架构的模型:
8. Swin_Transformer
9. VIT
在我的设计的项目里,一般结构如下:
model.py: 定义模型结构
train.py:训练模型
csv文件夹里是每次训练模型生成的日志文件
logs文件夹里是TensorBoard的日志文件
weights文件夹里存储最终训练得到的模型。
举例子,ResNet模型的核心代码如下(其他模型类似,不在赘述):
class BasicBlock(nn.Module):
expansion = 1
def __init__(self, in_channel, out_channel, stride=1, downsample=None, **kwargs):
super(BasicBlock, self).__init__()
self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=out_channel,
kernel_size=3, stride=stride, padding=1, bias=False)
self.bn1 = nn.BatchNorm2d(out_channel)
self.relu = nn.ReLU()
self.conv2 = nn.Conv2d(in_channels=out_channel, out_channels=out_channel,
kernel_size=3, stride=1, padding=1, bias=False)
self.bn2 = nn.BatchNorm2d(out_channel)
self.downsample = downsample
def forward(self, x):
identity = x
if self.downsample is not None:
identity = self.downsample(x)
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out += identity
out = self.relu(out)
return out
class Bottleneck(nn.Module):
expansion = 4
def __init__(self, in_channel, out_channel, stride=1, downsample=None,
groups=1, width_per_group=64):
super(Bottleneck, self).__init__()
width = int(out_channel * (width_per_group / 64.)) * groups
self.conv1 = nn.Conv2d(in_channels=in_channel, out_channels=width,
kernel_size=1, stride=1, bias=False) # squeeze channels
self.bn1 = nn.BatchNorm2d(width)
# -----------------------------------------
self.conv2 = nn.Conv2d(in_channels=width, out_channels=width, groups=groups,
kernel_size=3, stride=stride, bias=False, padding=1)
self.bn2 = nn.BatchNorm2d(width)
# -----------------------------------------
self.conv3 = nn.Conv2d(in_channels=width, out_channels=out_channel*self.expansion,
kernel_size=1, stride=1, bias=False) # unsqueeze channels
self.bn3 = nn.BatchNorm2d(out_channel*self.expansion)
self.relu = nn.ReLU(inplace=True)
self.downsample = downsample
def forward(self, x):
identity = x
if self.downsample is not None:
identity = self.downsample(x)
out = self.conv1(x)
out = self.bn1(out)
out = self.relu(out)
out = self.conv2(out)
out = self.bn2(out)
out = self.relu(out)
out = self.conv3(out)
out = self.bn3(out)
out += identity
out = self.relu(out)
return out
class ResNet(nn.Module):
def __init__(self,
block,
blocks_num,
num_classes=1000,
include_top=True,
groups=1,
width_per_group=64):
super(ResNet, self).__init__()
self.include_top = include_top
self.in_channel = 64
self.groups = groups
self.width_per_group = width_per_group
self.conv1 = nn.Conv2d(3, self.in_channel, kernel_size=7, stride=2,
padding=3, bias=False)
self.bn1 = nn.BatchNorm2d(self.in_channel)
self.relu = nn.ReLU(inplace=True)
self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
self.layer1 = self._make_layer(block, 64, blocks_num[0])
self.layer2 = self._make_layer(block, 128, blocks_num[1], stride=2)
self.layer3 = self._make_layer(block, 256, blocks_num[2], stride=2)
self.layer4 = self._make_layer(block, 512, blocks_num[3], stride=2)
if self.include_top:
self.avgpool = nn.AdaptiveAvgPool2d((1, 1)) # output size = (1, 1)
self.fc = nn.Linear(512 * block.expansion, num_classes)
for m in self.modules():
if isinstance(m, nn.Conv2d):
nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
def _make_layer(self, block, channel, block_num, stride=1):
downsample = None
if stride != 1 or self.in_channel != channel * block.expansion:
downsample = nn.Sequential(
nn.Conv2d(self.in_channel, channel * block.expansion, kernel_size=1, stride=stride, bias=False),
nn.BatchNorm2d(channel * block.expansion))
layers = []
layers.append(block(self.in_channel,
channel,
downsample=downsample,
stride=stride,
groups=self.groups,
width_per_group=self.width_per_group))
self.in_channel = channel * block.expansion
for _ in range(1, block_num):
layers.append(block(self.in_channel,
channel,
groups=self.groups,
width_per_group=self.width_per_group))
return nn.Sequential(*layers)
def forward(self, x):
x = self.conv1(x)
x = self.bn1(x)
x = self.relu(x)
x = self.maxpool(x)
x = self.layer1(x)
x = self.layer2(x)
x = self.layer3(x)
x = self.layer4(x)
if self.include_top:
x = self.avgpool(x)
x = torch.flatten(x, 1)
x = self.fc(x)
return x
并且项目对模型进行了优化改进,改进的内容是增加CBAM注意力机制,项目里可以实现对以上任意一种模型增加CBAM注意力机制。
常见的做法是先选择2-4种候选模型(9种模型都用有点多,推荐选部分你喜欢的模型)做对比实验,选出性能最好的模型,在最优的模型的基础上,进一步增加cbam注意力机制,进行优化改进。如果老师要求高,可以在进一步做消融实验(即模型改进优化前后的对比实验)。
CBAM机制的核心代码如下:
# CBAM 注意力模块实现 (可复用)
class CBAM(nn.Module):
def __init__(self, channels: int, reduction_ratio: int = 16, kernel_size: int = 7):
super(CBAM, self).__init__()
# 通道注意力
self.channel_att = nn.Sequential(
nn.AdaptiveAvgPool2d(1),
nn.Conv2d(channels, channels // reduction_ratio, kernel_size=1, bias=False),
nn.ReLU(inplace=True),
nn.Conv2d(channels // reduction_ratio, channels, kernel_size=1, bias=False),
nn.Sigmoid()
)
# 空间注意力
self.spatial_att = nn.Sequential(
nn.Conv2d(2, 1, kernel_size=kernel_size, padding=kernel_size // 2, bias=False),
nn.Sigmoid()
)
def forward(self, x: torch.Tensor) -> torch.Tensor:
# 通道注意力
channel_att = self.channel_att(x)
x_channel = x * channel_att
# 空间注意力
max_pool = torch.max(x_channel, dim=1, keepdim=True)[0]
avg_pool = torch.mean(x_channel, dim=1, keepdim=True)
spatial_att = self.spatial_att(torch.cat([max_pool, avg_pool], dim=1))
x_out = x_channel * spatial_att
return x_out
CBAM结构的示意图如下:
CBAM注意力机制是一种用于前馈卷积神经网络的简单而有效的注意力模块。 给定一个中间特征图,CBAM模块会沿着两个独立的维度(通道和空间)依次推断注意力图,然后将注意力图与输入特征图相乘以进行自适应特征优化。 由于CBAM是轻量级的通用模块,因此可以忽略的该模块的开销而将其无缝集成到任何CNN架构中,并且可以与基础CNN一起进行端到端训练。
首先,输入是一个中间特征图,将特征图输入至Channel Attention Module 获取通道注意力,然后将注意力权重作用于中间特征图。
然后,将施加通道注意力的特征图输入至Spatial Attention Module 获取空间注意力,然后将注意力权重作用到特征图上。
最终,经过这两个注意力模块的串行操作,最初的特征图就经过了通道和空间两个注意力机制的处理,自适应细化特征。
训练完模型可以做对比实验,通过写代码可以制作对比曲线图和柱状图,项目的最终实验效果如下:
模型最终能达到97%以上
除了对比实验之外,还可以进一步分析模型的性能,其中
混淆矩阵实验图如下:
ROC曲线实验图如下:
以上是实验的内容。
最后基于Python的Django框架,制作最终的演示系统,最终结果预览如下:
本项目包含:
1.多模型的对比实验和图表,丰富了项目的内容。
2. 模型的优化改进,实现项目的重新。
3. 混淆矩阵和ROC等实验分析,拓展的项目的深度和内容量
4.实现了最终的演示系统,实现了项目的落地和应用。