
计算机视觉
文章平均质量分 97
计算机视觉相关pytorch实现
飞雪白鹿€
北京邮电大学在读博士,个人主页:www.liyangbupt.com
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
从代码学习深度学习 - 实战Kaggle比赛:狗的品种识别(ImageNet Dogs)PyTorch版
欢迎来到“从代码学习深度学习”系列!本次我们将通过一个实际的Kaggle竞赛项目——“狗的品种识别”(Dog Breed Identification)来深入学习如何使用PyTorch进行图像分类。这个项目的数据集源自著名的ImageNet,但专注于识别不同品种的狗。与我们之前可能接触过的CIFAR-10等数据集相比,ImageNet中的图像尺寸更大、宽高不一,这为数据预处理和模型选择带来了新的挑战。我们将一步步完成数据获取、整理、图像增广、模型微调、训练、验证以及最终的预测与提交。原创 2025-05-16 22:10:12 · 1732 阅读 · 0 评论 -
从代码学习深度学习 - 实战 Kaggle 比赛:图像分类 (CIFAR-10 PyTorch版)
欢迎来到我们的深度学习实战系列!在本文中,我们将深入探讨一个经典的图像分类问题——CIFAR-10挑战,并通过一个实际的 Kaggle 比赛流程来学习。我们将从原始图像文件开始,一步步进行数据整理、图像增广、模型构建、训练、评估,并最终生成提交结果。本教程将全程使用 PyTorch 框架,并详细解释每一段代码的功能和背后的原理。在以往的教程中,我们可能更多地依赖深度学习框架的高级API直接获取处理好的张量格式数据集。但在真实的比赛和项目中,我们往往需要从更原始的数据形态(如.jpg.png。原创 2025-05-15 20:22:33 · 1010 阅读 · 0 评论 -
从代码学习深度学习 - 风格迁移 PyTorch版
大家好!欢迎来到我们的深度学习代码学习系列。今天,我们将深入探讨一个非常有趣且富有创意的计算机视觉领域——风格迁移 (Style Transfer)。想象一下,你能否将梵高的《星夜》的独特笔触和色彩应用到你拍摄的一张城市风景照片上?或者将一幅著名油画的风格赋予你心爱的宠物照片?风格迁移技术正是致力于实现这种艺术融合的魔法。简单来说,风格迁移的目标是生成一张新的图像,这张图像既保留了内容图像 (Content Image)的主要结构和物体,又融入了风格图像 (Style Image)原创 2025-05-15 09:56:56 · 1541 阅读 · 0 评论 -
从代码学习深度学习 - 全卷积神经网络 PyTorch版
欢迎来到我们的深度学习代码学习系列!今天,我们将深入探讨一种在计算机视觉领域中至关重要的技术——语义分割(Semantic Segmentation),并重点学习其经典实现方法:全卷积网络(Fully Convolutional Network, FCN)。语义分割的目标是为图像中的每一个像素分配一个类别标签,这使得机器能够理解图像内容的精细细节,远超于简单的图像分类或目标检测。在本篇博客中,我们将使用 PyTorch 框架,一步步构建、训练和测试一个 FCN 模型。原创 2025-05-13 16:29:38 · 1115 阅读 · 0 评论 -
从代码学习深度学习 - 转置卷积 PyTorch版
在卷积神经网络(CNN)的大家族中,我们熟悉的卷积层和汇聚(池化)层通常会降低输入特征图的空间维度(高度和宽度)。然而,在许多应用场景中,例如图像的语义分割(需要对每个像素进行分类)或生成对抗网络(GAN)中的图像生成,我们反而需要增加特征图的空间维度,即进行上采样。转置卷积(Transposed Convolution),有时也被不那么准确地称为反卷积(Deconvolution),正是实现这一目标的关键操作。原创 2025-05-11 09:48:38 · 942 阅读 · 0 评论 -
从代码学习深度学习 - 语义分割和数据集 PyTorch版
本文介绍了语义分割的基本概念及其在计算机视觉中的重要性,并详细解析了Pascal VOC2012数据集。语义分割旨在为图像中的每个像素分配类别标签,提供更精细的场景理解。文章对比了语义分割、图像分割和实例分割的区别,重点分析了Pascal VOC2012数据集的组成、类别、数据格式及评价指标。此外,提供了辅助工具代码和读取数据集的PyTorch实现,为后续的模型训练奠定了基础。Pascal VOC2012作为经典数据集,广泛应用于算法开发和基准测试。原创 2025-05-10 20:56:21 · 1808 阅读 · 0 评论 -
从代码学习深度学习 - 区域卷积神经网络(R-CNN)系列 PyTorch版
本博客介绍了目标检测领域中的R-CNN系列模型及其发展历程,重点探讨了R-CNN、Fast R-CNN和兴趣区域汇聚层(RoI Pooling)的核心思想与实现。R-CNN通过选择性搜索生成候选区域,并利用卷积神经网络提取特征进行分类和定位,但其计算效率较低。Fast R-CNN通过共享卷积计算和引入RoI Pooling层,显著提升了检测速度。RoI Pooling层能够将不同形状的候选区域转换为固定大小的特征图,便于后续处理。博客还通过PyTorch代码示例详细展示了RoI Pooling的计算过程,帮原创 2025-05-09 16:53:17 · 1633 阅读 · 0 评论 -
从代码学习深度学习 - 单发多框检测(SSD)PyTorch版
本文介绍了如何使用深度学习中的单发多框检测(SSD)算法进行目标检测,特别是基于香蕉检测数据集的实现。SSD是一种单阶段目标检测器,以其在速度和精度之间的平衡而著称。文章详细讲解了SSD的核心原理,并通过PyTorch代码展示了模型的构建、训练和预测过程。工具函数部分涵盖了数据读取、处理及加载器的创建,为后续的模型训练和结果可视化提供了支持。通过本文,读者可以深入理解SSD的实现细节,并学会如何在实际项目中应用该算法。原创 2025-05-08 20:40:55 · 1226 阅读 · 0 评论 -
从代码学习深度学习 - 目标检测前置知识(二) PyTorch版
大家好!欢迎来到“从代码学习深度学习-目标检测前置知识”的第二部分,我们将继续深入探讨目标检测的前置知识。在上一部分,我们已经了解了目标检测的基本概念和锚框的生成。今天,我们将重点关注多尺度目标检测的理念,学习如何生成不同尺度的锚框来适应不同大小的目标物体,并了解如何加载和处理自定义的目标检测数据集。本篇将结合 PyTorch 代码进行实践,帮助大家更直观地理解这些概念。目标检测的一个核心挑战是如何有效地检测图像中大小各异的物体。简单的单尺度锚框生成策略可能难以覆盖所有情况。原创 2025-05-05 16:25:18 · 1665 阅读 · 0 评论 -
从代码学习深度学习 - 目标检测前置知识(一) PyTorch 版
目标检测是计算机视觉领域中的一个核心问题,它的任务是识别图像中物体的类别并定位它们的位置。近年来,基于深度学习的目标检测算法取得了显著的进展。PyTorch 作为主流的深度学习框架之一,为目标检测的研究和应用提供了强大的支持。本篇博客旨在通过代码实例,介绍目标检测任务中一些重要的前置知识,特别是与边界框 (Bounding Box) 和锚框 (Anchor Box) 相关的概念和常用工具函数。理解这些基础知识对于后续学习和实现更复杂的目标检测模型至关重要。原创 2025-04-29 09:15:46 · 729 阅读 · 0 评论 -
从代码学习深度学习 - 微调 PyTorch 版
深度学习模型训练通常需要大量数据,但在实际应用中,我们往往难以获得足够的标记数据。例如,如果我们想构建一个识别不同类型椅子的系统,收集和标记数千甚至数万张椅子图像将耗费大量时间和资金。这种情况下,迁移学习特别是微调(fine-tuning)技术便显示出其强大优势。本文将通过一个热狗识别的实际案例,详细讲解如何在PyTorch中实现微调,帮助读者掌握这一重要技术。注意,本博客只列出了与微调相关的代码,完整代码在下方链接中给出,其中包含了详细的注释。下载链接微调是解决数据有限问题的强大工具。原创 2025-04-25 20:16:00 · 1667 阅读 · 0 评论 -
从代码学习深度学习-卷积神经网络(LeNet) PyTorch版
卷积神经网络(Convolutional Neural Network, CNN)是深度学习领域的核心技术之一,尤其在图像处理任务中表现出色。LeNet 是由 Yann LeCun 等人于 1989 年提出的早期 CNN 模型,尽管结构简单,却为现代深度学习奠定了基础。本文将通过 PyTorch 实现 LeNet-5,并结合 Fashion-MNIST 数据集进行训练和评估,帮助读者从代码角度理解 CNN 的工作原理。本文将分步展示数据加载、模型定义、训练过程及可视化工具的实现,代码均配有详细注释。原创 2025-03-25 14:09:01 · 1158 阅读 · 0 评论 -
从代码学习深度学习 - 使用块的网络(VGG)PyTorch版
深度学习是近年来人工智能领域的重要突破,而卷积神经网络(CNN)作为其核心技术之一,在图像分类、目标检测等领域展现了强大的能力。VGG(Visual Geometry Group)网络是CNN中的经典模型之一,以其模块化的“块”设计和深层结构而闻名。本篇博客将通过PyTorch实现一个简化的VGG网络,并结合代码逐步解析其构建、训练和可视化过程,帮助读者从代码层面理解深度学习的基本原理和实践方法。我们将使用Fashion-MNIST数据集进行实验,展示如何从零开始搭建并训练一个VGG模型。原创 2025-03-27 20:22:28 · 1105 阅读 · 0 评论 -
从代码学习深度学习 - 网络中的网络(NiN)PyTorch版
深度学习近年来在计算机视觉、自然语言处理等领域取得了巨大成功,而卷积神经网络(CNN)作为其核心技术之一,经历了从LeNet到AlexNet、VGG等经典模型的演进。在这些模型中,卷积层和全连接层的组合成为主流设计。然而,2014年提出的“网络中的网络”(Network in Network, NiN)模型打破了这一传统,通过引入1x1卷积和全局平均池化,显著减少了参数量并提升了模型性能。原创 2025-03-28 09:27:06 · 1477 阅读 · 0 评论 -
从代码学习深度学习 - 稠密连接网络(DenseNet)PyTorch版
深度学习近年来在计算机视觉、自然语言处理等领域取得了显著的成功,而卷积神经网络(CNN)作为深度学习的核心模型之一,不断演化出各种改进架构。其中,稠密连接网络(DenseNet)因其独特的连接方式和高效的参数利用率而备受关注。本篇博客将通过一份基于 PyTorch 的 DenseNet 实现代码,带你从代码角度深入理解这一经典网络的构建与训练过程。我们将逐步分析代码的每个部分,并结合理论知识,帮助你在实践中掌握 DenseNet 的核心思想。原创 2025-03-31 20:57:46 · 1159 阅读 · 0 评论 -
从代码学习深度学习 - 卷积神经网络(AlexNet)PyTorch版
深度学习近年来在计算机视觉领域取得了巨大突破,而这一切的起点之一,便是2012年Alex Krizhevsky等人提出的AlexNet模型。AlexNet在ImageNet挑战赛(ILSVRC)中以显著优势获胜,标志着卷积神经网络(CNN)的复兴。本篇博客通过PyTorch实现AlexNet,提供完整代码和详细文字描述,帮助你从实践中掌握深度学习的核心概念。原创 2025-03-26 09:14:58 · 532 阅读 · 0 评论 -
从代码学习深度学习 - 残差网络(ResNet)PyTorch版
深度学习近年来在计算机视觉、自然语言处理等领域取得了巨大成功,而残差网络(ResNet)作为一种经典的深度神经网络架构,因其解决了深层网络中的梯度消失问题而广受关注。ResNet通过引入“残差连接”(skip connection),使得网络可以直接学习输入和输出之间的差异,从而允许更深的网络结构。本篇博客将通过PyTorch实现一个ResNet模型,并结合代码和训练结果,带你一步步理解残差网络的原理与应用。我们将使用Fashion-MNIST数据集,通过PyTorch实现ResNet的训练过程,并展示其训原创 2025-03-30 16:18:22 · 1556 阅读 · 0 评论 -
从代码学习深度学习 - 含并行连结的网络(GoogLeNet)PyTorch版
深度学习近年来在计算机视觉、自然语言处理等领域取得了巨大成功,而卷积神经网络(CNN)作为其核心支柱之一,推动了许多突破性应用。GoogLeNet(Inception v1)是2014年ImageNet挑战赛(ILSVRC)的冠军模型,以其创新的Inception模块和高效设计脱颖而出。它不仅在性能上超越了当时的经典模型(如AlexNet和VGG),还在参数量和计算复杂度上实现了优化。原创 2025-03-29 14:32:05 · 1348 阅读 · 0 评论 -
从代码学习深度学习 - 图像增广 PyTorch 版
在深度学习中,数据是关键。尤其是在计算机视觉任务中,高质量且丰富多样的数据对模型性能有着决定性的影响。然而,获取大量标注的图像数据往往成本高昂且耗时。这时,图像增广(Image Augmentation)技术就显得尤为重要,它通过对现有数据进行变换生成更多样化的训练样本,帮助模型学习更鲁棒的特征表示,从而提高泛化能力。本文将通过代码示例,介绍如何在PyTorch框架下实现图像增广,并分析其对模型性能的影响。原创 2025-04-24 20:30:29 · 1166 阅读 · 0 评论