自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 【无标题】

本文提出了一种新的特征选择方法——可学习极化特征选择(Learnable Polarizing Feature Selection, LPFS),该方法可以在保持模型准确率的同时大大减小模型的复杂度,提高模型的可解释性。忽略这些不同倾向性特征可能导致模型性能下降。通过对极化矩阵进行训练,LPFS可以自适应地选择特征,并通过对特征的重要性进行可视化,增强了模型的可解释性。实验结果表明,LPFS方法在各种不同的数据集上均能取得较好的预测准确率,并且可以大大减小模型的大小和训练时间,同时提高了模型的可解释性。

2023-05-12 18:37:06 413 1

转载 MapReduce和Spark

链接:https://www.zhihu.com/question/53354580/answer/307863620 首先大数据涉及两个方面:分布式存储系统和分布式计算框架。前者的理论基础是GFS。后者的理论基础为MapReduce。 MapReduce框架有两个步骤(MapReduce 框架其实包含5 个步骤:Map、Sort、Combine、Shuffle 以及Reduce。这5 个步骤中最重要的就是Map 和Reduce。这也是和Spark 最相关的两步,因此这里只讨论这两个步骤):一个是 .

2020-08-20 10:56:59 295

原创 梯度下降算法的优缺点

2020-08-13 23:39:27 7067

转载 聚类(KMeans)

说到聚类,应先理解聚类和分类的区别,很多业务人员在日常分析时候不是很严谨,混为一谈,其实二者有本质的区别。 分类:分类其实是从特定的数据中挖掘模式,作出判断的过程。比如Gmail邮箱里有垃圾邮件分类器,一开始的时候可能什么都不过滤,在日常使用过程中,我人工对于每一封邮件点选“垃圾”或“不是垃圾”,过一段时间,Gmail就体现出一定的智能,能够自动过滤掉一些垃圾邮件了。这是因为在点选的过程中,其实是给每一条邮件打了一个“标签”,这个标签只有两个值,要么是“垃圾”,要么“不是垃圾”,Gmail就会不断研究哪些

2020-08-13 21:04:33 1858

转载 机器学习之XGBoost

2. 4 Xgboost算法 XGBoost 是大规模并行 boosting tree 的工具,它是目前最快最好的开源 boosting tree 工具 2.4.1 Xgboost和GBDT差异 Xgboost和GBDT都属于Grandient Boosting。Xgboost相比GBDT在如下方面做了改进: GBDT将目标函数泰勒展开到一阶,而xgboost将目标函数泰勒展开到了二阶,Xgboost保留更多有关目标函数的信息 GBDT是给新的基模型寻找新的拟合标签(前面加法模型的负梯度),而xg

2020-07-28 15:21:57 171

转载 机器学习之GBDT

2.3 GBDT GBDT (Gradient Boosting Decision Tree) 梯度提升迭代决策树,是Boosting算法的一种。 GBDT使用的弱学习器必须是CART,且必须是回归树。GBDT用来做回归预测,当然,通过设置阈值也能用于分类任务。在模型训练时,模型预测样本损失尽可能小。 2.3.1 GBDT相关问题 GBDT的直观理解是:模型的每一轮预测都和真实值有gap,这个gap称为残差。下一轮对残差进行预测,最后将所有预测结果想加,得到最终结果。GBDT每一棵树学习的是前面所有

2020-07-28 15:18:54 290

转载 机器学习之随机森林

2.2 随机森林 随机森林本质上就是构建很多弱决策树,然后整合成森林,来确定最终的预估结果。 2.2.1 思想 随机森林的主要特点可以总结为如下2点:数据随机性选取,待选特征的随机选取。主要是为了消除过拟合问题。随机森林使用CART树作为弱学习器,生成树的过程中不进行剪枝,确定最终结果时,分类使用投票机制,回归问题使用平方误差最小化。 随机森林根据下面步骤来构建: M来表示训练样本的个数,N表示特征数目 输入特征数目n,用于确定决策树一个节点的决策结果;其中n应远小于N M个训练样本中,有

2020-07-28 15:17:37 431

转载 机器学习之Bagging算法和Boosting算法

2.1 Bagging和Boosting区别 Bagging算法和Boosting都属于集成算法,最重要的假设是:当弱模型被正确组合时,我们可以得到更精确和/或更鲁棒的模型。 bagging算法通常考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来。 boosting算法通常考虑的也是同质弱学习器。它以一种高度自适应的方法顺序地学习这些弱学习器(每个基础模型都依赖于前面的模型),并按照某种确定性的策略将它们组合起来。 bagging 的重点在于获得一个方差比

2020-07-28 15:10:05 2983 1

转载 机器学习之决策树(ID3,C4.5,CART)

https://zhuanlan.zhihu.com/p/158633779?utm_source=wechat_session&utm_medium=social&utm_oi=54629349982208 什么是决策树呢?决策树是一种监督学习方法,既可以用来处理分类问题也可以处理回归问题。 决策树的学习过程包括:特征选择、决策树生成、决策树剪枝。 1.1 ID3算法 ID3使用信息增益作为特征选择的度量,使用自顶向下的贪心算法遍历决策树空间。具体的: 计算数据集合的..

2020-07-28 15:07:25 845

转载 如何使用pyspark的udf函数(如何将Python函数转换为PySpark函数(UDF))

很多人解释pyspark的udf函数都不能完全把细节部分说清楚,今天看到一个人很好的讲清楚了udf https://changhsinlee.com/pyspark-udf/

2019-11-28 11:21:15 1009 1

转载 shell 获取函数返回值

在shell脚本中要获取一个函数的返回值,有两个方法: #! /bin/sh function test() { echo "test here" return 100 } DD=`test` #echo excute over echo "return: $?" echo "DD: $DD" return: 100 DD: test here 如果 把...

2019-11-12 10:55:53 2435

转载 Convolutional Pose Machines

有关姿态估计的文章阅读,方便理解 较为详细https://www.aiuai.cn/aifarm176.html https://www.cnblogs.com/CZiFan/p/10045835.html 基于序列化的全卷积网络结构,学习空间信息和纹理信息,估计人体姿态. Pose Machines 是一种序列化的预测框架,可以学习信息丰富的空间信息模型. Convolutiona...

2019-05-19 15:47:05 491

转载 什么是正则化

一个很直观的详解 https://charlesliuyx.github.io/2017/10/03/%E3%80%90%E7%9B%B4%E8%A7%82%E8%AF%A6%E8%A7%A3%E3%80%91%E4%BB%80%E4%B9%88%E6%98%AF%E6%AD%A3%E5%88%99%E5%8C%96/ 以下内容转自知乎https://www.zhihu.com/questio...

2019-03-28 17:14:06 2507

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除