01 基础术语
监督学习和无监督学习
特点 | 算法 | |
---|---|---|
监督学习 | 从有标签的训练数据中学习模型,利用模型预测新数据的标签 训练阶段标签已知,预测阶段标签未知 |
回归(标签为连续值):线性回归、逻辑回归 分类(标签为离散值):决策树,KNN,朴素贝叶斯 |
无监督学习 | 从无标签的训练数据中学习模型,揭示数据的内在性质和规律 训练和预测阶段标签均未知 |
聚类:K-means,PCA |
强化学习 | 用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题 |
归纳偏好
学习过程当中对某种类型假设的偏好
具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
奥卡姆剃刀:选择最简单的那一个
没有免费的午餐:一个算法在一个模型上好,必然在某写问题上不如其他
02线性回归
线性回归:
回归问题:研究输入变量和输出变量之间的关系。
回归模型:表示从输入变量到输出变量之间的映射函数
线性回归:通过属性的线性组合来进行预测的线性模型。
f(x)=w1x1+w2 x2+⋯+wd xd+b
目标:最小化预测值和真实值之间的误差
均方误差(MSE)最小化
损失函数:度量单样本预测的错误程度,损失函数值越小,模型就越好。
代价函数:度量全部样本集的平均误差。
目标函数:代价函数和正则化函数,最终要优化的函数。
最小二乘法(见下)
梯度下降法
沿梯度反方向更新参数不断逼近极小值(梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着梯度方向变化最快,变化率最大。)
梯度下降的三种形式
- 批量梯度下降:梯度下降的每一步中,都用到了所有的训练样本。
- 随机梯度下降:梯度下降的每一步中,用一个训练样本。
- 小批量梯度下降:梯度下降的每一步中,用到了一定批量的训练样本。
最小二乘法和梯度下降的比较
数据标准化
为什么要归一化、标准化
提升模型精度,加速模型收敛
最大最小归一化
数据归一化的目的是使得各特征对目标变量的影响一致,会将特征数据进行伸缩变化。
Z-Score标准化
数据标准化为了不同特征之间具备可比性,当数据特征取值范围或单位差异较大时,最好是做一下标准化处理。
需要归一、标准化 | KNN、K-means聚类、感知机和SVM |
---|---|
不需要 | 决策树、随机森林 |
03模型评估与选择
泛化误差:在‘未来“样本山的误差
经验误差:在训练集上的误差,也是“训练误差”