- 博客(8)
- 收藏
- 关注
原创 主成分分析法
PCA作为机器学习中经典的线性降维算法,通过”最小重构误差“为目标导向对数据进行投影实现降维,如今仍然在机器学习许多领域(语言图像处理、数据可视化)有优异表现。它在降低数据复杂性,降低运算量上有显著优势。但作为一种无监督学习方法(对训练样本没有做标注),在对数据完全无知的情况下,PCA并不能得到较好的保留数据信息并且有可能损失重要信息,且PCA对于主成分的分析判断是影响实验结果的重要因素,另外,PCA对于非线性的数据降维效果较差,我们在进行非线性数据降维时最好采用其它方法。
2025-06-05 11:37:33
485
原创 逻辑回归分类器(Logistic Regression)
直观来说,用一条直线对一些现有的数据点进行拟合的过程,就叫做回归。Logistic分类的主要思想:根据现有数据对分类边界建立回归公式,并以此分类。建立拟合参数的过程中用到最优化算法,这里用到的是常用的梯度上升法。一般过程(1) 收集数据:采用任意方法收集数据。(2) 准备数据:由于需要进行距离计算,因此要求数据类型为数值型。另外,结构化数据格式则最佳。(3) 分析数据:采用任意方法对数据进行分析。(4) 训练算法:大部分时间将用于训练,训练的目的是为了找到最佳的分类回归系数。
2025-05-19 14:20:33
1625
原创 朴素贝叶斯西瓜分类器
dataSet=[['青绿', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.697, 0.460, '好瓜'],['乌黑', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.774, 0.376, '好瓜'],['乌黑', '蜷缩', '浊响', '清晰', '凹陷', '硬滑', 0.634, 0.264, '好瓜'],['青绿', '蜷缩', '沉闷', '清晰', '凹陷', '硬滑', 0.608, 0.318, '好瓜'],
2025-04-27 16:21:46
1862
原创 使用ID3算法和C4.5举例理解决策树
优点与改进C4.5算法是用于生成决策树的一种经典算法,是ID3算法的一种延伸和优化。C4.5算法对ID3算法主要做了一下几点改进:(1)通过信息增益率选择分裂属性,克服了ID3算法中通过信息增益倾向于选择拥有多个属性值的属性作为分裂属性的不足;(2)能够处理离散型和连续型的属性类型,即将连续型的属性进行离散化处理;(3)构造决策树之后进行剪枝操作;(4)能够处理具有缺失属性值的训练数据。
2025-04-11 20:57:28
846
原创 基于海伦约会knn算法模型评估绘制ROC曲线和PR曲线
1.什么是模型评估模型评估是机器学习中的一个重要环节,它指的是对训练好的模型进行性能评估,以了解模型在未见过的新数据上的表现。这通常包括使用一系列指标来量化模型的预测能力、泛化能力、稳定性等。2.模型评估的类型机器学习的任务有回归,分类和聚类,针对不同的任务有不同的评价指标。按照数据集的目标值不同,可以把模型评估分为回归模型评估和分类模型评估。3.什么是训练集、验证集和测试集训练集:用于训练模型的数据集。验证集:用于调整模型的超参数和验证模型性能的数据集。测试集:用于衡量模型。
2025-03-27 23:22:49
1754
原创 安装anaconda 编译环境配置
Anaconda可以在Windows、MacOS、Linux系统平台中安装和使用,下载的时候找到对应的点击即可。我的电脑是windows系统,我这里选择下载最新版本的Anaconda3-2024.06-1-windows-x86_64.exe 下载完成我们就可以得到一个exe文件。点击【Next】——再次点击【Next】
2025-03-09 15:09:57
628
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人