自我学习《从零开始机器学习的数学原理和算法实践》大威
机器学习简单翻译过来就是:假设用P来评估计算机程序在某一任务T上的性能表现,如果程序能够利用经验E提升在任务T上的性能表现,那么就说对于任务T的性能P,这个程序对经验E进行了学习。
三个重点概念:任务(Task)、经验(experience)、性能(performance)
机器学习基于统计学习,是计算机基于数据来构建概率统计模型并运用模型对数据进行分析和预测的学科。可以通过执行某个过程改进它的性能,这就叫学习。
按照有无监督分类:
有监督学习:既给予“特征信息”又反馈“结果信息”
任务:学习数据中的模式,进而用于预测新数据
理解:之所以叫有监督学习是因为算法模型基于样本数据的预测结果,都有一个真实结果用来比较,从而帮助操作者改善算法模型。
典型算法包括:回归分析、逻辑回归、决策树、支持向量机、随机森林、神经网络
无监督学习:只给训练样本的“特征信息”没有结果 (常用算法“聚类”)
任务:寻找数据中蕴含的模式
理解:之所以叫无监督学习是因为我们不知道数据中蕴含的模式是什么,希望通过算法寻找
典型算法包括:K均值(K-means)聚类、主成分分析、关联规则等
按照预测值是连续还是离散分类:
分类:预测值为离散变量
回归:预测值为连续变量