
机器学习
文章平均质量分 96
机器学习相关
大数据专业的小沉
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
基于KD树的KNN算法实现
本文所用的数据集来自西瓜书西瓜数据3.0,不使用三方库模型直接训练,通过自建函数一步步实现KNN算法、预测和决策边界的绘制,文章末尾会给出所用数据集和完整代码。其基本思想是:在给定一组标记的训练数据后,对于一个未标记的样本,通过计算它与训练集中所有样本的距离(本实验使用欧几里得距离),找到其 k 个最近邻样本。然后基于这 k 个邻居的标签进行预测:分类:返回 k 个邻居中出现频率最高的类别作为预测类别。回归:返回 k 个邻居的平均值作为预测值。原创 2025-01-05 10:03:37 · 1138 阅读 · 0 评论 -
K均值聚类——python实现
本文所用数据集来自西瓜书P202西瓜数据集4.0,文章末尾会附上源码和数据集。K均值算法(K-Means Algorithm)是一种常用的聚类分析方法,用于将数据集划分为预定数量的簇(clusters)。其基本思想是通过迭代的方式,最小化簇内样本之间的距离,以实现相似数据的归类。2.算法步骤初始化:选择 K个初始聚类中心(centroids),通常是在数据集中随机选择 K 个数据点。分配步骤:对每个数据点,计算它到每个聚类中心的距离(通常使用欧几里得距离),然后将该数据点分配到最近的聚类中心所在的簇。原创 2024-12-27 15:13:16 · 1409 阅读 · 0 评论 -
反向传播算法(BP)python实现
本文所用的数据集来自西瓜书P150-154西瓜数据3.0,实现了一个单隐含层单输出的网络,不使用sklearn库直接训练,文章末尾会附上完整代码和数据集。BP算法基于梯度下降法,通过计算损失函数关于网络中各层权重和偏置的梯度,逐层反向传播误差,从而更新参数以减少预测误差。注意:偏置的主要作用是为激活函数提供一个平移,使得模型能够更好地拟合数据。即使输入的所有特征为零,偏置也能确保神经元有一个非零的输出。而阈值通常是用于激活函数的阈值判断条件,决定一个神经元是否被激活或激活的程度。原创 2024-12-20 10:00:00 · 1269 阅读 · 0 评论 -
朴素贝叶斯分类器——python实现
本文所用数据为西瓜数据3.0,参考西瓜书P150-154,不使用sklearn库直接训练,文章末尾会附上完整代码和数据集。原创 2024-12-12 12:00:00 · 1206 阅读 · 0 评论 -
包含连续和离散值决策树的建立及可视化——ID3自建函数版
ID3(Iterative Dichotomiser 3)算法是由Ross Quinlan在1986年提出的一种用于生成决策树的算法。它是决策树学习中最早的算法之一,以其简单易懂和高效的性能广泛应用于分类问题。D3算法的核心是特征选择,它使用信息增益(Information Gain)来选择特征。原创 2024-12-03 20:15:58 · 1926 阅读 · 0 评论