机器学习 期末突击笔记

机器学习基础概览:监督、无监督、线性模型与评估

01 基础术语

监督学习和无监督学习


特点 算法
监督学习 有标签的训练数据中学习模型,利用模型预测新数据的标签
训练阶段标签已知,预测阶段标签未知
回归(标签为连续值):线性回归、逻辑回归
分类(标签为离散值):决策树,KNN,朴素贝叶斯
无监督学习 无标签的训练数据中学习模型,揭示数据的内在性质和规律
训练和预测阶段标签均未知
聚类:K-means,PCA
强化学习 用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题

归纳偏好

学习过程当中对某种类型假设的偏好
具体的现实问题中,学习算法本身所做的假设是否成立,也即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。
奥卡姆剃刀:选择最简单的那一个
没有免费的午餐:一个算法在一个模型上好,必然在某写问题上不如其他

02线性回归

线性回归:

回归问题:研究输入变量和输出变量之间的关系。
回归模型:表示从输入变量到输出变量之间的映射函数
线性回归:通过属性的线性组合来进行预测的线性模型。
f(x)=w1x1+w2 x2+⋯+wd xd+b
目标:最小化预测值和真实值之间的误差
均方误差(MSE)最小化
image.png
损失函数:度量单样本预测的错误程度,损失函数值越小,模型就越好。
代价函数:度量全部样本集的平均误差。
目标函数:代价函数和正则化函数,最终要优化的函数。

最小二乘法(见下)

IMG_1181.jpeg
IMG_1182.jpeg

梯度下降法

沿梯度反方向更新参数不断逼近极小值(梯度是一个向量,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着梯度方向变化最快,变化率最大。)
image.png

梯度下降的三种形式

  • 批量梯度下降:梯度下降的每一步中,都用到了所有的训练样本。
    • image.png
  • 随机梯度下降:梯度下降的每一步中,用一个训练样本。
    • image.png
  • 小批量梯度下降:梯度下降的每一步中,用到了一定批量的训练样本。
    • image.png

最小二乘法和梯度下降的比较
image.png

数据标准化

为什么要归一化、标准化

提升模型精度,加速模型收敛

最大最小归一化

image.png
数据归一化的目的是使得各特征对目标变量的影响一致,会将特征数据进行伸缩变化。

Z-Score标准化

image.png
数据标准化为了不同特征之间具备可比性,当数据特征取值范围或单位差异较大时,最好是做一下标准化处理。

需要归一、标准化 KNN、K-means聚类、感知机和SVM
不需要 决策树、随机森林

03模型评估与选择

泛化误差:在‘未来“样本山的误差
经验误差:在训练集上的误差,也是“训练误差”

过拟合与欠拟合(考点)

image.png

评估方法

留出法

image.png

K-折交叉验证(考点)

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值