机器的这种学习能力,作为人工智能的核心要素,将会对人类社会的生产、生活、军事等活动产生难以估量的影响。
那么,什么是机器学习(Machine Learning,ML)呢? 人类的学习中,最基础的是记忆,即机械的复述。但更重要的是指“举一反三”的能力。当用图片、文字、视频等教人们认识动物时,人们不仅记住了动物的知识,还学会了对真实的动物进行分析、辨认和判别,这是一种学习知识,并应用知识的能力。获得这种能力,并用来解决实际问题,正是机器学习的目标。 这种能力对人类来说并不难,人类的学习能力比现在所有机器学习算法的能力都要强得多。但计算机具有数据存储和处理方面的优势,一旦它具有了这种能力,就可以高效地替代人完成类似工作。比如,从海量的监视视频中找到某个通缉犯。
要使机器具备这种能力,出现过所谓的符号学习(Symbol Learning)和统计学习(Statistical Learning)两类主要方法。符号学习以知识推理为主要工具,在早期推动了机器学习的发展。随着计算能力的大幅度提升,统计学习占据了更多舞台,作出了更多的贡献。现在,人们提到的机器学习,更多的是指统计学习。从统计学习的角度来说,机器学习算法是从现有数据中分析出规律,并利用规律来对未知数据进行预测的算法。机器学习已经发展成为一门多领域交叉的学科,涉及概率论、统计学、微积分、矩阵论、最优化等知识。
机器学习应用流程
一个典型的机器学习应用流程包括采集训练数据、特征工程、建立模型和应用四个主要阶段。
1:训练数据和测试数据
训练数据是用来帮助机器学习知识、建立起蕴含知识的模型的数据。测试数据是模型服务的对象,对测试数据作出正确的预测是机器学习一系列活动的最终目的。
机器学习模型能够有效预测的前提是训练数据和测试数据具有相同的规律性这一基本假设。建立机器学习模型,就是要通过适当的方法显式或隐式地找到这些规律