变量相关性分析
接下来,我们尝试对变量和标签进行相关性分析。从严格的统计学意义讲,不同类型变量的
相关性需要采用不同的分析方法,例如连续变量之间相关性可以使用皮尔逊相关系数进行计算,
而连续变量和离散变量之间相关性则可以卡方检验进行分析,而离散变量之间则可以从信息增益
角度入手进行分析。但是,如果我们只是想初步探查变量之间是否存在相关关系,则可以忽略变
量连续/离散特性,统一使用相关系数进行计算,这也是pandas中的.corr方法所采用的策略。
计算相关系数矩阵
当然,首先我们可以先计算相关系数矩阵,直接通过具体数值大小来表示相关性强弱。不过
需要注意的是,尽管我们可以忽略变量的连续/离散特性,但为了更好的分析分类变量如何影响标
签的取值,我们需要将标签转化为整型(也就是视作连续变量),而将所有的分类变量进行哑变
量处理:
#柱状图展示相关性
# 当然,很多时候如果特征较多,热力图