目录
1.功能
分类:SVM、最近邻、随机森林、逻辑回归等。常用于垃圾邮件检测、图像识别。
回归:Lasso、岭回归等。常用于药物反应、股票价格。
聚类:k-means、谱聚类、均值偏移。常用于客户细分、分组实验结果。
降维:PCA、特征选择、矩阵分解等。常用于可视化、提高效率。
模型选择:网格搜索、交叉验证、指标矩阵等。通过参数调整来提高准确率。
预处理:特征提取、正态化等。转换输入数据以用于机器学习算法。
2. 分类
监督学习:回归+分类
无监督学习:聚类
半监督学习:
3.流程
1)数据加载
2)数据集划分:训练集和测试集
3)数据预处理
4)模型训练:使用训练集进行训练
5)模型评估:使用测试集进行评估
6)模型保存:保存训练好的模型
4.模型的评估与选择
错误率:分类错误样本数/总样本数
精度:1-错误率
误差:模型输出与样本真实值之间的差异
训练误差(经验误差):模型在训练集上的误差
泛化误差:模型在新样本上误差
过拟合:用力过猛
欠拟合:用力不足
目的:得到泛化误差最小的模型,通常用训练误差来代替泛化误差,用模型的泛化误差进行评估。
4.1 评估方法
- 留出法
训练集+测试集:互斥互补 。
训练集训练模型,测试集测试模型 。
合理划分、保持比例 。
单次留出与多次留出 。
多次留出法:如对专家样本随机进行100次训练集/测试集划分,评估结果取平均。
- 交叉验证法
k折交叉验证:
p次k折交叉验证:
- 自助法
留出法与交叉验证法的训练集数据少于样本数据
给定m个样本的数据集D,从D中有放回随机取m次数据,形成训练集D’
用D中不包含D’的样本作为测试集
D中某个样本不被抽到的概率:
测试集数据量:
缺点:改变了初始数据集的分布
4.2 性能度量
4.2.1 评价方法和评价标准
回归任务的评价标准:均方误差
4.2.2 错误率与精度
错误率:分类错误样本数/总样本数
精度:1-错误率,分类正确样本数/总样本数
4.2.3 查准率与查全率
算法原理:算法对样本进行分类时,一般都会有置信度,即表示该样本是正样本的概率,比如99%的概率认为样本A是正例,1%的概率认为样本B是正例。通过选择合适的阈值,比如50%,对样本进行划分,概率大于50%的就认为是正例,小于50%的就是负例。通过置信度就可以对所有样本进行排序,再逐个样本的选择阈值,在该样本之前的都属于正例,该样本之后的都属于负例。每一个样本作为划分阈值时,都可以计算对应的precision和recall。