知识体系_统计学_02_描述性统计

对数据的描述性统计,包括数值法(包括对数据的集中程度、离中程度和分布形态、相对位置度量)、表格法、图形法;

⚠️数值法是对定量数据的概括性度量,由于是对数据的高度概括,所以一些数据细节反而体现不出来;集中程度反映的是各数据向其中心值靠拢或聚集的程度;离中程度反映的是数据的离散程度,远离中心值的程度;分布形态反映的是分布的偏度和峰度,是相较于标准正态分布的偏度和峰度

⚠️表格法主要是针对定类数据

1 数值法

1.1 单变量

1.1.1 集中程度

1.1.1.1 平均数

简单算术平均数 (容易受离群值,即极小值和极大值的影响)

加权平均数是权重)

截断均值:简单算术平均数的值容易受极端值影响。在很多情况下,我们需要消除极端值对平均数的影响,例如,在比赛中的评分要去掉若干个最高分和最低分,再计算剩余数据的平均值,这样计算得到的就是截尾平均数。 (其中表示截尾系数,,n表示数据个数,m表示去掉的数据个数,表示将数据按升序排列后的顺序序列)

几何平均数:,常用于计算平均增长率或利率

调和平均数: ,常用于计算平均速度或电阻

⚠️算术平均数>=几何平均数>=调和平均数

1.1.1.2 中位数

将n个数据按从小到大排列后分为2等份,处于中间分割点的数值为中位数

1.1.1.3 众数

一组数据中出现次数最多的数值,若一组数据每个值出现的次数都一样,则该组数据没有众数,一组数据可以有多个众数

⚠️众数的实际应用意义较少

1.1.2 离散程度

1.1.2.1 最小值/最大值/极差

最小值:一组数据中的最小值

最大值:一组数据中的最大值

极差:也称全距,最大值-最小值

1.1.2.2 分位数

将n个数据按从小到大排列后分为k等份,处于分割点的数值就称为分位数

四分位数(k=4)比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置,也叫中位数

四分位距:第三四分位数与第一四分位数的差值,数据越向中位数集中,四分位距就越小

⚠️分位数求解法则:假设一组数据有n个,从小到大排序分为k等分,则对应有k-1个分割点,求第i个切割点的值:(n/k)*i若是整数,则切割点的值为(n/k)*i和 (n/k)*i +1 这两个数据的平均数,若是浮点数,则向上取整 int((n/k)*i);

例如这组数据:48.8 、92.6、111、 175 、209 、212.5、 212.9、218.9、263.5、298、628.3、958、995.9、2325

按分位数求解法则:

根据excel的QUARTILE()函数:

⚠️分位数求解法则与用excel的QUARTILE()函数或PERCENTILE()求出来的结果可能不同,但建议还是按分位数求解法则求相应的分位数

1.1.2.3 与均值的偏差

⚠️为总体均值,为样本均值,n为样本容量,N为总体容量

偏差:数据的值与平均数的差,如果有很多值与平均数的偏差都较大,则该数据集的离散程度较大

平均偏差:总体 (样本:

平均绝对偏差:总体 (样本:

方差:总体  (样本:

标准差:方差的算术平方根 (⚠️算术平方根一定是正的,平方根可正可负)

变异系数(CV):用于比较两个数据的离散程度   CV=标准差/平均数

1.1.3 相对位置度量

相对位置用数据与总体均值相差多少个标准差度量

1.1.3.1 z分数

⚠️将数据转换z分数(即标准化或归一化数据),并不会使数据符合正态分布,它只是将数据转化到与标准正态分布相同的尺度上,通常是为了对比

1.1.3.2 相对位置的数据占比

切比雪夫定理:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z的平方),其中z是大于1的任意实数(z不一定得是整数),适用于任何数据集而不论其数据分布的形状。
当z=2,3和4个标准差时,该定理的一些应用如下:
(1)至少75%的数据值与平均数的距离在z=2个标准差之内。
(2)至少89%的数据值与平均数的距离在z=3个标准差之内。
(3)至少94%的数据值与平均数的距离在z=4个标准差之内。

经验法则:经验法则要求数据为正态分布,具有钟形分布的数据:
(1)大约68%的数据与平均数的距离在1个标准差之内
(2)大约95%的数据与平均数的距离在2个标准差之内
(3)大约99%的数据与平均数的距离在3个标准差之内

⚠️若数据服从正态分布,则可以精准计算出与平均值相差多少个标准差的数据占比,若是其他分布,则只能根据切比雪夫定理,知道至少有多少比例的数据与平均值相差多少个标准差

1.1.3.3 异常值/离群值检测

四分位数间距判断法:

min_x=第一四分位数-1.5*(第三四分位数-第一四分位数)

max_x=第三四分位数-1.5*(第三四分位数-第一四分位数)

若 x<min_x 或 x>max_x,则x为离群值

3倍标准差法:

min_x=平均数-3*标准差

max_x=平均数+3*标准差

若 x<min_x 或 x>max_x,则x为离群值

⚠️关于与平均值相差超过3倍标准差判断为异常值的方法(不要求数据分布为正态分布),统计学家对此还有歧义

1.1.4 分布形态(偏度、峰度)

1.1.4.1 偏度

衡量分布的不对称性程度,偏度=  (其中为总体均值,为总体标准差)

⚠️正态分布是完全对称,偏度为0

⚠️众数可用于辅助判断偏态,但非必需更推荐的方法:定性(均值 vs 中位数)、定量(偏态系数),众数仅作为补充,尤其在单峰分布中验证一致性

⚠️虽然均值 > 中位数是右偏的典型特征,但严格来说,还需要结合数据的整体分布或偏态系数(Skewness)来综合判断。不过,在大多数实际情况下,均值大于中位数确实表明数据右偏。

方法 适用场景 优势 缺点
众数 仅在单峰分布且众数明确时辅助验证

1.众数可能不存在(如均匀分布)或多个众数(如多峰分布)

2.对极端值敏感(均值易受异常值影响)

均值 vs 中位数 快速定性判断 简单直观

1.无法量化,易受极端值影响

2.某些多峰分布(如双峰)可能均值≈中位数,但实际分布不对称

偏态系数 精确定量判断 全面反映分布形状 计算复杂,需完整数据

均值和中位数的关系是实用的经验法则,但偏态系数提供了更科学、可量化的标准。两者结合使用能更全面理解数据分布!

数据分布 均值 vs 中位数 众数位置 偏态结论
[1,2,3,4,100] 均值(22) > 中位数(3) 众数无或1/2/3/4 右偏(无需众数)
[1,1,3,4,4] 均值(2.6) < 中位数(3) 众数1和4(双峰) 左偏(众数不可靠)
1.1.4.2 峰度

衡量数据分布形态陡峭或平坦程度,峰度= (其中为总体均值,为总体标准差)

超额峰度=峰度-3

⚠️正态分布的峰度为 3,即超额峰度为0 (超额峰度=峰度-3,这也就是为什么有些资料说正态分布的峰度为3,有些资料又说是0,其实就是因为没有说清楚使用的是“峰度”还是“超额峰度”导致的混淆,实际应用中需注意软件或文献使用的是“峰度”还是“超额峰度”

指标 正态分布的值 说明
偏度 0

偏度为0:数据对称分布

偏度大于1或小于-1:高度偏态分布

偏度在0.5~1  或 -1~-0.5:中度偏态分布

偏度在0~0.5 或 -0.5~0:轻度偏态分布

峰度 3(或超额峰度为0)

峰度大于3:高尖分布,数据分布比较集中

峰度等于3:正态分布

峰度小于3:矮胖分布,数据分布比较分散

(⚠️这里的峰度是超额峰度,对应峰度则分别为大于3,等于3和小于3的分布情况)

1.1.4.3 偏度和峰度计算案例

                                                       表1:某电脑公司近3个月销售量

234 159 187 155 172 183 182 177
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值