smartbigwang-CSDN博客

原创【无标题】

本文提出了一种新的特征选择方法——可学习极化特征选择（Learnable Polarizing Feature Selection, LPFS），该方法可以在保持模型准确率的同时大大减小模型的复杂度，提高模型的可解释性。忽略这些不同倾向性特征可能导致模型性能下降。通过对极化矩阵进行训练，LPFS可以自适应地选择特征，并通过对特征的重要性进行可视化，增强了模型的可解释性。实验结果表明，LPFS方法在各种不同的数据集上均能取得较好的预测准确率，并且可以大大减小模型的大小和训练时间，同时提高了模型的可解释性。

2023-05-12 18:37:06 413 1

转载 MapReduce和Spark

链接：https://www.zhihu.com/question/53354580/answer/307863620 首先大数据涉及两个方面：分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。 MapReduce框架有两个步骤（MapReduce 框架其实包含5 个步骤：Map、Sort、Combine、Shuffle 以及Reduce。这5 个步骤中最重要的就是Map 和Reduce。这也是和Spark 最相关的两步，因此这里只讨论这两个步骤）：一个是 .

2020-08-20 10:56:59 295

原创梯度下降算法的优缺点

2020-08-13 23:39:27 7067

转载聚类（KMeans）

说到聚类，应先理解聚类和分类的区别，很多业务人员在日常分析时候不是很严谨，混为一谈，其实二者有本质的区别。分类：分类其实是从特定的数据中挖掘模式，作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器，一开始的时候可能什么都不过滤，在日常使用过程中，我人工对于每一封邮件点选“垃圾”或“不是垃圾”，过一段时间，Gmail就体现出一定的智能，能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中，其实是给每一条邮件打了一个“标签”，这个标签只有两个值，要么是“垃圾”，要么“不是垃圾”，Gmail就会不断研究哪些

2020-08-13 21:04:33 1858

转载机器学习之XGBoost

2. 4 Xgboost算法 XGBoost 是大规模并行 boosting tree 的工具，它是目前最快最好的开源 boosting tree 工具 2.4.1 Xgboost和GBDT差异 Xgboost和GBDT都属于Grandient Boosting。Xgboost相比GBDT在如下方面做了改进： GBDT将目标函数泰勒展开到一阶，而xgboost将目标函数泰勒展开到了二阶，Xgboost保留更多有关目标函数的信息 GBDT是给新的基模型寻找新的拟合标签（前面加法模型的负梯度），而xg

2020-07-28 15:21:57 171

转载机器学习之GBDT

2.3 GBDT GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树，是Boosting算法的一种。 GBDT使用的弱学习器必须是CART，且必须是回归树。GBDT用来做回归预测，当然，通过设置阈值也能用于分类任务。在模型训练时，模型预测样本损失尽可能小。 2.3.1 GBDT相关问题 GBDT的直观理解是：模型的每一轮预测都和真实值有gap，这个gap称为残差。下一轮对残差进行预测，最后将所有预测结果想加，得到最终结果。GBDT每一棵树学习的是前面所有

2020-07-28 15:18:54 290

转载机器学习之随机森林

2.2 随机森林随机森林本质上就是构建很多弱决策树，然后整合成森林，来确定最终的预估结果。 2.2.1 思想随机森林的主要特点可以总结为如下2点：数据随机性选取，待选特征的随机选取。主要是为了消除过拟合问题。随机森林使用CART树作为弱学习器，生成树的过程中不进行剪枝，确定最终结果时，分类使用投票机制，回归问题使用平方误差最小化。随机森林根据下面步骤来构建： M来表示训练样本的个数，N表示特征数目输入特征数目n，用于确定决策树一个节点的决策结果；其中n应远小于N M个训练样本中，有

2020-07-28 15:17:37 431

转载机器学习之Bagging算法和Boosting算法

2.1 Bagging和Boosting区别 Bagging算法和Boosting都属于集成算法，最重要的假设是：当弱模型被正确组合时，我们可以得到更精确和/或更鲁棒的模型。 bagging算法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。 boosting算法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器（每个基础模型都依赖于前面的模型），并按照某种确定性的策略将它们组合起来。 bagging 的重点在于获得一个方差比

2020-07-28 15:10:05 2983 1

转载机器学习之决策树（ID3,C4.5,CART）

https://zhuanlan.zhihu.com/p/158633779?utm_source=wechat_session&utm_medium=social&utm_oi=54629349982208 什么是决策树呢？决策树是一种监督学习方法，既可以用来处理分类问题也可以处理回归问题。决策树的学习过程包括：特征选择、决策树生成、决策树剪枝。 1.1 ID3算法 ID3使用信息增益作为特征选择的度量，使用自顶向下的贪心算法遍历决策树空间。具体的：计算数据集合的..

2020-07-28 15:07:25 845

转载如何使用pyspark的udf函数（如何将Python函数转换为PySpark函数（UDF））

很多人解释pyspark的udf函数都不能完全把细节部分说清楚，今天看到一个人很好的讲清楚了udf https://changhsinlee.com/pyspark-udf/

2019-11-28 11:21:15 1009 1

转载 shell 获取函数返回值

在shell脚本中要获取一个函数的返回值，有两个方法： #! /bin/sh function test() { echo "test here" return 100 } DD=`test` #echo excute over echo "return: $?" echo "DD: $DD" return: 100 DD: test here 如果把...

2019-11-12 10:55:53 2435

转载 Convolutional Pose Machines

有关姿态估计的文章阅读，方便理解较为详细https://www.aiuai.cn/aifarm176.html https://www.cnblogs.com/CZiFan/p/10045835.html 基于序列化的全卷积网络结构，学习空间信息和纹理信息，估计人体姿态. Pose Machines 是一种序列化的预测框架，可以学习信息丰富的空间信息模型. Convolutiona...

2019-05-19 15:47:05 491

转载什么是正则化

一个很直观的详解 https://charlesliuyx.github.io/2017/10/03/%E3%80%90%E7%9B%B4%E8%A7%82%E8%AF%A6%E8%A7%A3%E3%80%91%E4%BB%80%E4%B9%88%E6%98%AF%E6%AD%A3%E5%88%99%E5%8C%96/ 以下内容转自知乎https://www.zhihu.com/questio...

2019-03-28 17:14:06 2507

smartbigwang的博客