变量相关性分析

该文探讨了变量相关性分析在数据预处理中的重要性,包括使用皮尔逊相关系数、卡方检验和信息增益来评估变量间的关系。通过计算相关系数矩阵和可视化方法(如柱状图和热力图)来初步洞察数据特征。文章还展示了如何通过柱状图和堆叠柱状图分析不同属性与目标变量(如用户流失)的关联性,强调了月度消费金额和过去消费总额对用户流失的影响。最后,指出相关性分析是理解数据和建立预测模型的关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

变量相关性分析
  接下来,我们尝试对变量和标签进行相关性分析。从严格的统计学意义讲,不同类型变量的
相关性需要采用不同的分析方法,例如连续变量之间相关性可以使用皮尔逊相关系数进行计算,
而连续变量和离散变量之间相关性则可以卡方检验进行分析,而离散变量之间则可以从信息增益
角度入手进行分析。但是,如果我们只是想初步探查变量之间是否存在相关关系,则可以忽略变
量连续/离散特性,统一使用相关系数进行计算,这也是pandas中的.corr方法所采用的策略。
计算相关系数矩阵
  当然,首先我们可以先计算相关系数矩阵,直接通过具体数值大小来表示相关性强弱。不过
需要注意的是,尽管我们可以忽略变量的连续/离散特性,但为了更好的分析分类变量如何影响标
签的取值,我们需要将标签转化为整型(也就是视作连续变量),而将所有的分类变量进行哑变
量处理:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

#柱状图展示相关性
# 当然,很多时候如果特征较多,热力图
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值