卷积神经网络(Convolutional Neural Network, CNN)是一种前馈神经网络,是当今图像处理的主流技术。说起CNN卷积网络,不得不说2012 年Alex Krizhevsky 凭借它们赢得了那一年的 ImageNet 大赛(由斯坦福大学李飞飞发起的世界级人工智能大赛),AlexNet将图像分类误差记录从 26% 降低到 15%,之后很多公司开始将深度学习作为的核心技术发展。Facebook、谷歌、亚马逊等知名公司都利用卷积网络进行图像识别,商品推送等工作。
CNN卷积神经网络是一个大家族,对图像而言主要有以下4个关键技术应用。
Ø 物体定位:预测包含主要物体的图像区域,以便识别区域中的物体。
Ø 物体识别:针对分割好的目标进行分类。
Ø 目标分割:将图像目标分割出来,针对图像上的像素进行归属,例中如人类、建筑物等。
Ø 关键点检测:从图像中检测目标物体上某关键点的位置,例如人类面部关键点信息。
CNN网络训练数据集是公开的,支持全球的开发者进行下载训练模型数据集:
(1)MNIST:最受欢迎的深度学习数据集之一。手写数字数据集,包含一组60,000个示例的训练集和一个包含10,000个示例的测试集。http://deeplearning.net/tutorial/gettingstarted.html
(2)ImageNet:李飞飞创立的全球视觉识别挑战赛数据集(ILSVRC)。http://image-net.org/index
(3)PASCAL:标准化的优秀的数据集,数据集可以用于图像分类、目标检测、图像分割。http://host.robots.ox.ac.uk/pascal/VOC/
(4)MS-COCO:COCO是一个大型的、丰富的物体检测,分割和字幕数据集。http://cocodataset.org/
为什么要用CNN来处理图像呢?原因很简单,因为能在短时间内提取图像特征。一般来讲,普通神经网络将输入层和隐含层进行全连接(Full Connected),从而保证系统能够提取张图像的特征