在讲述完机器学习算法之后,本小节将会带领大家一步一步根据算法原理来自己实现算法设计,而不是直接调用现有的机器学习算法库,通过该阶段的学习与训练,相信你会对算法的原理有更深入的一个认识,对机器学习的认识也会更上一层楼,真正理解算法的工作原理。
目录
在学习了KNN算法原理之后,今天的内容——mnist手写数字识别案例是对KNN算法理解的一个升华,是KNN算法原理理解的延续,这也是为了自己能更熟练的掌握k-NN算法。
一、数据集展示与说明
数据集说明:整个数据集大约2000个训练样本和1000个测试样本,训练样本是trainingDigits,测试样本是testDigits。文本文件中是0~9的数字,是用二值图表示出来的,如图。我们要做的就是使用训练样本训练模型,并用测试样本来检测模型的性能。
数据集中主要有两部分内容,data和label,分别表示数据和数据对应的标签,该数据集中有70000条数据,每条数据有784个特征。每一条数据都是一副28x28的图片,784个特征就是784个像素灰度值(0-255),通过画图展示如下: