机器学习笔记

目录

1.功能

2. 分类

3.流程

4.模型的评估与选择

4.1 评估方法

4.2 性能度量

4.2.1 评价方法和评价标准

 4.2.2 错误率与精度

 4.2.3 查准率与查全率

4.2.4 比较检验和偏差方差

 5. 回归分析

5.1 线性模型

6. 决策树


1.功能

分类:SVM、最近邻、随机森林、逻辑回归等。常用于垃圾邮件检测、图像识别。

回归:Lasso、岭回归等。常用于药物反应、股票价格。

聚类:k-means、谱聚类、均值偏移。常用于客户细分、分组实验结果。

降维:PCA、特征选择、矩阵分解等。常用于可视化、提高效率。

模型选择:网格搜索、交叉验证、指标矩阵等。通过参数调整来提高准确率。

预处理:特征提取、正态化等。转换输入数据以用于机器学习算法。

2. 分类

监督学习:回归+分类

无监督学习:聚类

半监督学习:

3.流程

1)数据加载

2)数据集划分:训练集和测试集

3)数据预处理

4)模型训练:使用训练集进行训练

5)模型评估:使用测试集进行评估

6)模型保存:保存训练好的模型

4.模型的评估与选择

错误率:分类错误样本数/总样本数

精度:1-错误率

误差:模型输出与样本真实值之间的差异

训练误差(经验误差):模型在训练集上的误差

泛化误差:模型在新样本上误差

过拟合:用力过猛

欠拟合:用力不足

目的:得到泛化误差最小的模型,通常用训练误差来代替泛化误差,用模型的泛化误差进行评估。

4.1 评估方法

  • 留出法

训练集+测试集:互斥互补 。

训练集训练模型,测试集测试模型 。

合理划分、保持比例 。

单次留出与多次留出 。

多次留出法:如对专家样本随机进行100次训练集/测试集划分,评估结果取平均。

  • 交叉验证法

k折交叉验证:

p次k折交叉验证:

  • 自助法

留出法与交叉验证法的训练集数据少于样本数据

给定m个样本的数据集D,从D中有放回随机取m次数据,形成训练集D’

用D中不包含D’的样本作为测试集

D中某个样本不被抽到的概率:

 测试集数据量:

 缺点:改变了初始数据集的分布

4.2 性能度量

4.2.1 评价方法和评价标准

回归任务的评价标准:均方误差

 4.2.2 错误率与精度

错误率:分类错误样本数/总样本数

 精度:1-错误率,分类正确样本数/总样本数

 4.2.3 查准率与查全率

算法原理:算法对样本进行分类时,一般都会有置信度,即表示该样本是正样本的概率,比如99%的概率认为样本A是正例,1%的概率认为样本B是正例。通过选择合适的阈值,比如50%,对样本进行划分,概率大于50%的就认为是正例,小于50%的就是负例。通过置信度就可以对所有样本进行排序,再逐个样本的选择阈值,在该样本之前的都属于正例,该样本之后的都属于负例。每一个样本作为划分阈值时,都可以计算对应的precision和recall。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值