机器学习——方差、协方差与皮尔逊值

本文介绍了方差的概念,用于衡量样本的离群程度,以及方差的性质。此外,讨论了协方差作为衡量两个变量之间相关性的指标,以及协方差与皮尔逊值的关系。在机器学习中,通过分析特征与目标值的皮尔逊相关性来评估特征重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本文始发于个人公众号:TechFlow,原创不易,求个关注


今天是概率统计专题的第六篇,我们来看看方差相关的概念。


方差的定义


方差在我们的日常生活当中非常常见,它主要是为了提供样本离群程度的描述。举个简单的例子,我们去买一包薯片,一般来说一袋薯片当中的数量是固定的。我们假设平均每袋当中都有50片薯片好了,即使是机器灌装,也不可能做到每一袋都刚好是50片,或多或少都会有些误差。而均值则无法衡量这种误差。

如果现在有两个薯片品牌,它们的口味都差不多,平均每袋也都是50片。但是其中A品牌的薯片有一半是80片,还有一半是20片。B品牌呢,99%都在45-55之间。你说你会买哪一个牌子呢?(在不考虑通过称重的情况下)。

在现代社会,凡是工厂出厂的产品,基本上都离不开方差这个概念。方差越低,说明工厂的生产能力越强,能够做到每一个产品都很精细,相反如果方差越大,则说明瑕疵很多,不够精细。也就是说,方差衡量的是样本距离均值的期望。

它本来应该写成:E∣X−E(X)∣E|X-E(X)|EXE(X)

但是由于式子当中存在绝对值,我们通常会对它平方,从而将绝对值消掉。写成:

Var(X)=E{ [X−E(X)]2}Var(X) = E\{[X-E(X)]^2\}Var(X)=E{ [XE(X)]2}

这里的E表示期望,这是统计学当中的写法,如果看不明白,我们也可以把式子展开写成:

Var(X)=∑i=1N(Xi−Xˉ)2N−1Var(X) = \frac{\sum_{i=1}^N (X_i - \bar{X})^2}{N-1}Var(X)=N1i=1N(XiXˉ)2

这里的N表示的是样本数量,Xˉ\bar{X}Xˉ是样本的均值。Var是英文variance的缩写,我们也可以写成D(X)。

由于方差是通过平方计算得到的,我们也可以将它进行开方,得到标准差D(X)\sqrt{D(X)}D(X) ,也可以写成σ(X)\sigma(X)σ(X)


方差的性质


关于方差有几个著名的性质,如果X是变量,而C是常数。那么:

D(CX)=C2D(X)D(CX)=C^2D(X)D(CX)=C2D(X)

也就是对于每一个变量都乘上一个常数,那么整体的方差扩大C的平方倍。这个很好理解,因为样本值扩大了C倍,由于我们在计算方差的时候用到了平方,那么自然就是扩大了C的平方倍。我们利用上面展开的公式代入可以很容易得到证明。

下一个性质是:

D(X+C)=D(X)D(X+C) = D(X)D(X+C)=D(X)

也就是全体样本加上一个常数,整体的方差不变。如果我们的样本不是一个值,而是一个向量的话,那么这个公式可以拓展成样本加上一个常数向量,样本的方差保持不变。这个也很好理解,样本加上一个常数向量,相当于整体朝着向量的方向移动了一个距离,对于整体的分布并不会影响

如果某个样本X的方差为0,那么说明样本内只有一个值。

下面一个性质稍微复杂一点:

D(X)=E(X2)−[E(X)]2D(X) = E(X^2) - [E(X)]^2D(X)=E(X2)[E(X)]2

也就是说方差等于样本平方的期望减去样本期望的平方,我们光从定义上很难得出这个结论,需要通过严谨的推导:

D(X)=E{ [X−E(X)]2}=E{ X2−2XE(X)+[E(X)]2}=E(X2)−2E(X)E(X)+[E(X)]2=E(X2)−[E(X)]2 \begin{aligned} D(X) &= E\{[X-E(X)]^2\} \\ &= E\{X^2 -2XE(X) +

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值