基于深度学习算法(CNN)图像识别模型,根据识别细粒度由粗到细可大致分为三层:
通用图像识别(图像分类,目标检测,语义分割)
细粒度图像识别(车牌识别)
更精准细粒度图像识别(人脸识别)
通用图像识别
基于CNN(卷积神经网络)的模型在深度学习领域,特别是在计算机视觉任务中,扮演着至关重要的角色。经典的数据集有ImageNet,在图像分类的基础上,又衍生出了目标识别,语义分割,实例分割等。以下是一些著名的基于CNN的模型:
1. LeNet-5
特点:
- 早期经典:LeNet-5是早期提出的一个用于手写数字和机器印刷字符识别的卷积神经网络。
- 基础模块:包含了深度学习卷积神经网络的基本模块:卷积层、池化层和全连接层。
- 参数共享:使用参数共享的卷积操作提取图像中像素特征之间的相关性。
使用场景:
- 手写数字识别:主要用于手写数字(如MNIST数据集)的识别。
- 字符识别:也可用于机器印刷字符的识别。
2. AlexNet
特点: