
图像分类
文章平均质量分 90
没有不重的名么
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
在Pytorch中使用Tensorboard可视化训练过程
【在Pytorch中使用Tensorboard可视化训练过程】 https://www.bilibili.com/video/BV1Qf4y1C7kz/?原创 2025-04-22 20:43:04 · 499 阅读 · 0 评论 -
Vision Transformer(VIT模型)
MLP Head 是指位于模型顶部的全连接前馈神经网络模块,用于将提取的图像特征表示转换为最终的分类结果或其他预测任务输出。MLP Head 通常跟在 Transformer Encoder 的输出之后,作为整个模型的最后一层。可以简单理解为一个全连接层,若需要类别概率需要再接上一个softmax激活函数。原创 2024-11-24 16:24:37 · 1720 阅读 · 0 评论 -
ResNet网络详解
超深的网络结构(突破1000层)提出residual模块使用Batch Normalization加速训练(丢弃dropout层)原创 2024-11-12 21:42:35 · 3477 阅读 · 0 评论 -
MobileNetv3网络详解
MobileNet v3是Google在2019年提出的轻量级卷积神经网络结构,旨在提高在移动设备上的速度和准确性,广泛的用于轻量级网络。为满足移动设备上对高效、准确、低功耗深度学习模型的需求,并在保持计算成本适中的情况下增强模型的性能。原创 2024-10-30 14:32:57 · 4288 阅读 · 0 评论 -
MobileNetv2网络详解
MobileNet v1中DW卷积在训练完之后部分卷积核会废掉,大部分参数为“0”MobileNet v2网络是由Google团队在2018年提出的,相比于MobileNet v1网络,准确率更高,模型更小。原创 2024-10-29 16:36:18 · 1491 阅读 · 0 评论 -
MobileNetv1网络详解
卷积核channel=输入特征矩阵channel输出特征矩阵channel=卷积核个数卷积核的深度(channel)=1,一个卷积核只负责输入特征矩阵的一个channel维度输入特征矩阵的channel=卷积核个数=输出特征矩阵channel。原创 2024-10-29 10:56:47 · 1402 阅读 · 0 评论 -
Swin-Transformer
用一个4*4大小的窗口对输入图像做分割,分割后的每一个窗口在channel方向进行展平,展平后为每个像素沿深度方向进行拼接,每个像素都是RGB三通道的,16*3=48;移动后保留区域4(4*4),将区域5和区域3合并(2*4+2*4),将区域7和区域1合并(4*2+4*2),将区域8、区域6、区域2、区域0合并(2*2+2*2+2*2+2*2),将4个大区域内部进行MSA计算,减少了计算。若以蓝色为(0,0),用蓝色的相对位置索引(0,0)减去橙色的绝对位置索引(0,1)得到相对位置索引(0,-1)原创 2024-10-22 14:35:01 · 1367 阅读 · 0 评论 -
Transformer(注意力机制)
MLP Head 是指位于模型顶部的全连接前馈神经网络模块,用于将提取的图像特征表示转换为最终的分类结果或其他预测任务输出。MLP Head 通常跟在 Transformer Encoder 的输出之后,作为整个模型的最后一层。MLP Block,如图下图所示,就是全连接+GELU激活函数+Dropout组成也非常简单,需要注意的是第一个全连接层会把输入节点个数翻4倍[197, 768] -> [197, 3072],第二个全连接层会还原回原节点个数[197, 3072] -> [197, 768]原创 2024-10-20 20:29:48 · 1485 阅读 · 0 评论