- 博客(8)
- 收藏
- 关注
原创 机器学习——主成分分析(PCA)
PCA 是一种无监督线性降维方法,它将原始高维特征空间的数据,通过线性变换映射到低维空间,新的维度(主成分)是原始特征的线性组合,且各主成分间正交(互不相关),按对数据方差的解释能力排序,第一主成分方差最大,后续主成分方差依次递减。PCA 以 “提取主成分、降维保留关键信息” 为核心,通过标准化、协方差矩阵分解、投影等步骤,实现高维数据的高效处理。结合人脸数据集的实践,从原理推导到代码实现,清晰展现其在简化数据、保留关键特征上的作用。
2025-06-07 00:09:41
706
原创 支持向量机SVM
支持向量机是一种强大且实用的分类算法,尤其在文本分类中表现出色。通过本项目,我们不仅掌握了 SVM 的理论基础,还通过实际构建了垃圾邮件检测系统。
2025-06-02 20:38:28
1005
原创 机器学习——逻辑回归
逻辑回归以其简洁性、可解释性和高效性,成为分类问题的首选算法之一。尽管存在线性假设的局限性,但通过特征工程、正则化和适当的扩展,它仍能在许多场景中表现出色。对于初学者而言,逻辑回归是理解分类算法和概率建模的理想起点;对于实际应用,它也是快速验证假设和构建基准模型的有力工具。
2025-05-19 21:46:13
416
原创 贝叶斯分类器
贝叶斯分类基于贝叶斯定理,它的核心思想是通过已有数据来估计不同类别出现的概率。简单来说,就是在已知某些特征的情况下,判断一个样本属于某个类别的可能性有多大。贝叶斯定理的公式为:。在这个公式里是后验概率,也就是我们要求的在观测到特征 X 时,样本属于类别 C 的概率;是似然概率,表示在类别 C 的条件下,出现特征 X 的概率;是先验概率,即类别 C 本身出现的概率;是证据因子,是一个归一化常数,确保后验概率的总和为 1。在实际应用中,计算。
2025-05-05 19:37:18
241
原创 机器学习——决策树的创建
决策树是一种基于树结构进行决策的机器学习模型和方法,以下是其详细定义:结构:决策树由节点和边组成,看起来像一棵倒置的树,根节点在顶部,叶节点在底部。节点:包括内部节点和叶节点。内部节点表示一个特征上的测试,例如在一个判断水果是苹果 还是橙子的决策树中,可能有一个内部节点是 “颜色”,用于测试水果的颜色特征。叶节点则代 表类别或值,即决策的结果,比如 “苹果” 或 “橙子” 就是叶节点。边:连接节点,代表特征测试的不同结果。
2025-04-20 16:10:48
783
原创 机器学习模型评估
场景选择ROC优先:样本均衡、追求整体性能PR优先:正样本稀缺、关注高风险决策诊断技巧PR曲线"波浪形" → 数据噪声ROC拐点 → 潜在最佳阈值性能优化结合F1-score选择阈值多模型集成提升阈值稳定性。
2025-04-06 16:20:32
987
原创 KNN算法改进约会网站的配对效果
KNN(K-Nearest Neighbors,K 近邻算法)是一种 基于距离的分类算法,其基本思想是:计算 新数据点 到 已有数据点 的距离。找到距离最近的 K 个邻居。投票决定类别(K 个邻居中占比最高的类别即为预测类别)。KNN 的特点:简单直观:只需计算距离并分类,无需训练复杂的模型。懒惰学习:数据不会提前建模,而是在预测时计算最近邻居。计算量较大:预测时需要计算所有数据点的距离。对 K 值敏感:K 选得太小会导致过拟合,太大会导致欠拟合。
2025-03-23 20:20:32
988
原创 Anaconda的安装
Anaconda是专为数据科学设计的Python发行版,集成了Conda包管理器、Jupyter Notebook等工具,支持跨平台环境隔离,避免依赖冲突。强大的插件生态(如Python、Java、Git集成)跨平台支持(Windows/macOS/Linux)一直点击next,直到这里选择All Users。点击环境变量,在系统变量中找到Path。扩展搜索chinese点击安装。二.Anaconda安装步骤。2.安装anaconda。选择安装路径(默认c盘)文件,按提示完成安装。windows安装步骤。
2025-03-08 22:20:15
237
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人