对数据的描述性统计,包括数值法(包括对数据的集中程度、离中程度和分布形态、相对位置度量)、表格法、图形法;
⚠️数值法是对定量数据的概括性度量,由于是对数据的高度概括,所以一些数据细节反而体现不出来;集中程度反映的是各数据向其中心值靠拢或聚集的程度;离中程度反映的是数据的离散程度,远离中心值的程度;分布形态反映的是分布的偏度和峰度,是相较于标准正态分布的偏度和峰度
⚠️表格法主要是针对定类数据
1 数值法
1.1 单变量
1.1.1 集中程度
1.1.1.1 平均数
简单算术平均数 (容易受离群值,即极小值和极大值的影响)
加权平均数 (
至
是权重)
截断均值:简单算术平均数的值容易受极端值影响。在很多情况下,我们需要消除极端值对平均数的影响,例如,在比赛中的评分要去掉若干个最高分和最低分,再计算剩余数据的平均值,这样计算得到的就是截尾平均数。 (其中
表示截尾系数,
,n表示数据个数,m表示去掉的数据个数,
至
表示将数据按升序排列后的顺序序列)
几何平均数:,常用于计算平均增长率或利率
调和平均数: ,常用于计算平均速度或电阻
⚠️算术平均数>=几何平均数>=调和平均数
1.1.1.2 中位数
将n个数据按从小到大排列后分为2等份,处于中间分割点的数值为中位数
1.1.1.3 众数
一组数据中出现次数最多的数值,若一组数据每个值出现的次数都一样,则该组数据没有众数,一组数据可以有多个众数
⚠️众数的实际应用意义较少
1.1.2 离散程度
1.1.2.1 最小值/最大值/极差
最小值:一组数据中的最小值
最大值:一组数据中的最大值
极差:也称全距,最大值-最小值
1.1.2.2 分位数
将n个数据按从小到大排列后分为k等份,处于分割点的数值就称为分位数
四分位数(k=4)比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置,也叫中位数
四分位距:第三四分位数与第一四分位数的差值,数据越向中位数集中,四分位距就越小
⚠️分位数求解法则:假设一组数据有n个,从小到大排序分为k等分,则对应有k-1个分割点,求第i个切割点的值:(n/k)*i若是整数,则切割点的值为(n/k)*i和 (n/k)*i +1 这两个数据的平均数,若是浮点数,则向上取整 int((n/k)*i);
例如这组数据:48.8 、92.6、111、 175 、209 、212.5、 212.9、218.9、263.5、298、628.3、958、995.9、2325
按分位数求解法则:
根据excel的QUARTILE()函数:
⚠️分位数求解法则与用excel的QUARTILE()函数或PERCENTILE()求出来的结果可能不同,但建议还是按分位数求解法则求相应的分位数
1.1.2.3 与均值的偏差
⚠️为总体均值,
为样本均值,n为样本容量,N为总体容量
偏差:数据的值与平均数的差,如果有很多值与平均数的偏差都较大,则该数据集的离散程度较大
平均偏差:总体 (样本:
)
平均绝对偏差:总体 (样本:
)
方差:总体 (样本:
)
标准差:方差的算术平方根 (⚠️算术平方根一定是正的,平方根可正可负)
变异系数(CV):用于比较两个数据的离散程度 CV=标准差/平均数
1.1.3 相对位置度量
相对位置用数据与总体均值相差多少个标准差度量
1.1.3.1 z分数
⚠️将数据转换z分数(即标准化或归一化数据),并不会使数据符合正态分布,它只是将数据转化到与标准正态分布相同的尺度上,通常是为了对比
1.1.3.2 相对位置的数据占比
切比雪夫定理:与平均数的距离在z个标准差之内的数据项所占比例至少为(1-1/z的平方),其中z是大于1的任意实数(z不一定得是整数),适用于任何数据集而不论其数据分布的形状。
当z=2,3和4个标准差时,该定理的一些应用如下:
(1)至少75%的数据值与平均数的距离在z=2个标准差之内。
(2)至少89%的数据值与平均数的距离在z=3个标准差之内。
(3)至少94%的数据值与平均数的距离在z=4个标准差之内。
经验法则:经验法则要求数据为正态分布,具有钟形分布的数据:
(1)大约68%的数据与平均数的距离在1个标准差之内
(2)大约95%的数据与平均数的距离在2个标准差之内
(3)大约99%的数据与平均数的距离在3个标准差之内
⚠️若数据服从正态分布,则可以精准计算出与平均值相差多少个标准差的数据占比,若是其他分布,则只能根据切比雪夫定理,知道至少有多少比例的数据与平均值相差多少个标准差
1.1.3.3 异常值/离群值检测
四分位数间距判断法:
min_x=第一四分位数-1.5*(第三四分位数-第一四分位数)
max_x=第三四分位数-1.5*(第三四分位数-第一四分位数)
若 x<min_x 或 x>max_x,则x为离群值
3倍标准差法:
min_x=平均数-3*标准差
max_x=平均数+3*标准差
若 x<min_x 或 x>max_x,则x为离群值
⚠️关于与平均值相差超过3倍标准差判断为异常值的方法(不要求数据分布为正态分布),统计学家对此还有歧义
1.1.4 分布形态(偏度、峰度)
1.1.4.1 偏度
衡量分布的不对称性程度,偏度= (其中
为总体均值,
为总体标准差)
⚠️正态分布是完全对称,偏度为0
⚠️众数可用于辅助判断偏态,但非必需。更推荐的方法:定性(均值 vs 中位数)、定量(偏态系数),众数仅作为补充,尤其在单峰分布中验证一致性
⚠️虽然均值 > 中位数是右偏的典型特征,但严格来说,还需要结合数据的整体分布或偏态系数(Skewness)来综合判断。不过,在大多数实际情况下,均值大于中位数确实表明数据右偏。
方法 | 适用场景 | 优势 | 缺点 |
---|---|---|---|
众数 | 仅在单峰分布且众数明确时辅助验证 | 1.众数可能不存在(如均匀分布)或多个众数(如多峰分布) 2.对极端值敏感(均值易受异常值影响) |
|
均值 vs 中位数 | 快速定性判断 | 简单直观 | 1.无法量化,易受极端值影响 2.某些多峰分布(如双峰)可能均值≈中位数,但实际分布不对称 |
偏态系数 | 精确定量判断 | 全面反映分布形状 | 计算复杂,需完整数据 |
均值和中位数的关系是实用的经验法则,但偏态系数提供了更科学、可量化的标准。两者结合使用能更全面理解数据分布!
数据分布 | 均值 vs 中位数 | 众数位置 | 偏态结论 |
---|---|---|---|
[1,2,3,4,100] |
均值(22) > 中位数(3) | 众数无或1/2/3/4 | 右偏(无需众数) |
[1,1,3,4,4] |
均值(2.6) < 中位数(3) | 众数1和4(双峰) | 左偏(众数不可靠) |
1.1.4.2 峰度
衡量数据分布形态陡峭或平坦程度,峰度= (其中
为总体均值,
为总体标准差)
超额峰度=峰度-3
⚠️正态分布的峰度为 3,即超额峰度为0 (超额峰度=峰度-3,这也就是为什么有些资料说正态分布的峰度为3,有些资料又说是0,其实就是因为没有说清楚使用的是“峰度”还是“超额峰度”导致的混淆,实际应用中需注意软件或文献使用的是“峰度”还是“超额峰度”
指标 | 正态分布的值 | 说明 |
---|---|---|
偏度 | 0 | 偏度为0:数据对称分布 偏度大于1或小于-1:高度偏态分布 偏度在0.5~1 或 -1~-0.5:中度偏态分布 偏度在0~0.5 或 -0.5~0:轻度偏态分布 |
峰度 | 3(或超额峰度为0) | 峰度大于3:高尖分布,数据分布比较集中 峰度等于3:正态分布 峰度小于3:矮胖分布,数据分布比较分散 |
(⚠️这里的峰度是超额峰度,对应峰度则分别为大于3,等于3和小于3的分布情况)
1.1.4.3 偏度和峰度计算案例
表1:某电脑公司近3个月销售量
234 | 159 | 187 | 155 | 172 | 183 | 182 | 177 |