知识体系_统计学_02_描述性统计-CSDN博客

本文链接：https://blog.csdn.net/geilip/article/details/140674766

对数据的描述性统计，包括数值法（包括对数据的集中程度、离中程度和分布形态、相对位置度量）、表格法、图形法；

⚠️数值法是对定量数据的概括性度量，由于是对数据的高度概括，所以一些数据细节反而体现不出来；集中程度反映的是各数据向其中心值靠拢或聚集的程度；离中程度反映的是数据的离散程度，远离中心值的程度；分布形态反映的是分布的偏度和峰度，是相较于标准正态分布的偏度和峰度

⚠️表格法主要是针对定类数据

1 数值法

1.1 单变量

1.1.1 集中程度

1.1.1.1 平均数

简单算术平均数（容易受离群值，即极小值和极大值的影响）

加权平均数（至是权重）

截断均值：简单算术平均数的值容易受极端值影响。在很多情况下，我们需要消除极端值对平均数的影响，例如，在比赛中的评分要去掉若干个最高分和最低分，再计算剩余数据的平均值，这样计算得到的就是截尾平均数。 (其中表示截尾系数，，n表示数据个数，m表示去掉的数据个数，至表示将数据按升序排列后的顺序序列）

几何平均数：，常用于计算平均增长率或利率

调和平均数：，常用于计算平均速度或电阻

⚠️算术平均数>=几何平均数>=调和平均数

1.1.1.2 中位数

将n个数据按从小到大排列后分为2等份，处于中间分割点的数值为中位数

1.1.1.3 众数

一组数据中出现次数最多的数值，若一组数据每个值出现的次数都一样，则该组数据没有众数，一组数据可以有多个众数

⚠️众数的实际应用意义较少

1.1.2 离散程度

1.1.2.1 最小值/最大值/极差

最小值：一组数据中的最小值

最大值：一组数据中的最大值

极差：也称全距，最大值-最小值

1.1.2.2 分位数

将n个数据按从小到大排列后分为k等份，处于分割点的数值就称为分位数

四分位数（k=4）比较常用。四分位数按照数值从小到大的顺序分别称为第一四分位数、第二四分位数和第三四分位数。第二四分位数位于所有数据的中间位置，也叫中位数

四分位距：第三四分位数与第一四分位数的差值，数据越向中位数集中，四分位距就越小

⚠️分位数求解法则：假设一组数据有n个，从小到大排序分为k等分，则对应有k-1个分割点，求第i个切割点的值：(n/k)*i若是整数，则切割点的值为(n/k)*i和 (n/k)*i +1 这两个数据的平均数，若是浮点数，则向上取整 int((n/k)*i)；

例如这组数据：48.8 、92.6、111、 175 、209 、212.5、 212.9、218.9、263.5、298、628.3、958、995.9、2325

按分位数求解法则：

根据excel的QUARTILE()函数：

⚠️分位数求解法则与用excel的QUARTILE()函数或PERCENTILE()求出来的结果可能不同，但建议还是按分位数求解法则求相应的分位数

1.1.2.3 与均值的偏差

⚠️为总体均值,为样本均值，n为样本容量，N为总体容量

偏差：数据的值与平均数的差，如果有很多值与平均数的偏差都较大，则该数据集的离散程度较大

平均偏差：总体（样本：）

平均绝对偏差：总体（样本：）

方差：总体（样本：）

标准差:方差的算术平方根（⚠️算术平方根一定是正的，平方根可正可负）

变异系数（CV)：用于比较两个数据的离散程度 CV=标准差/平均数

1.1.3 相对位置度量

相对位置用数据与总体均值相差多少个标准差度量

1.1.3.1 z分数

⚠️将数据转换z分数（即标准化或归一化数据），并不会使数据符合正态分布，它只是将数据转化到与标准正态分布相同的尺度上，通常是为了对比

1.1.3.2 相对位置的数据占比

切比雪夫定理：与平均数的距离在z个标准差之内的数据项所占比例至少为（1-1/z的平方），其中z是大于1的任意实数（z不一定得是整数），适用于任何数据集而不论其数据分布的形状。
当z=2,3和4个标准差时，该定理的一些应用如下：
（1）至少75%的数据值与平均数的距离在z=2个标准差之内。
（2）至少89%的数据值与平均数的距离在z=3个标准差之内。
（3）至少94%的数据值与平均数的距离在z=4个标准差之内。

经验法则：经验法则要求数据为正态分布，具有钟形分布的数据：
（1）大约68%的数据与平均数的距离在1个标准差之内
（2）大约95%的数据与平均数的距离在2个标准差之内
（3）大约99%的数据与平均数的距离在3个标准差之内

⚠️若数据服从正态分布，则可以精准计算出与平均值相差多少个标准差的数据占比，若是其他分布，则只能根据切比雪夫定理，知道至少有多少比例的数据与平均值相差多少个标准差

1.1.3.3 异常值/离群值检测

四分位数间距判断法：

min_x=第一四分位数-1.5*（第三四分位数-第一四分位数）

max_x=第三四分位数-1.5*（第三四分位数-第一四分位数）

若 x<min_x 或 x>max_x，则x为离群值

3倍标准差法：

min_x=平均数-3*标准差

max_x=平均数+3*标准差

若 x<min_x 或 x>max_x，则x为离群值

⚠️关于与平均值相差超过3倍标准差判断为异常值的方法（不要求数据分布为正态分布），统计学家对此还有歧义

1.1.4 分布形态（偏度、峰度）

1.1.4.1 偏度

衡量分布的不对称性程度，偏度= (其中为总体均值，为总体标准差）

⚠️正态分布是完全对称，偏度为0

⚠️众数可用于辅助判断偏态，但非必需。更推荐的方法：定性（均值 vs 中位数）、定量（偏态系数），众数仅作为补充，尤其在单峰分布中验证一致性

⚠️虽然均值 > 中位数是右偏的典型特征，但严格来说，还需要结合数据的整体分布或偏态系数（Skewness）来综合判断。不过，在大多数实际情况下，均值大于中位数确实表明数据右偏。

方法	适用场景	优势	缺点
众数	仅在单峰分布且众数明确时辅助验证		1.众数可能不存在（如均匀分布）或多个众数（如多峰分布） 2.对极端值敏感（均值易受异常值影响）
均值 vs 中位数	快速定性判断	简单直观	1.无法量化，易受极端值影响 2.某些多峰分布（如双峰）可能均值≈中位数，但实际分布不对称
偏态系数	精确定量判断	全面反映分布形状	计算复杂，需完整数据

均值和中位数的关系是实用的经验法则，但偏态系数提供了更科学、可量化的标准。两者结合使用能更全面理解数据分布！

数据分布	均值 vs 中位数	众数位置	偏态结论
`[1,2,3,4,100]`	均值(22) > 中位数(3)	众数无或1/2/3/4	右偏（无需众数）
`[1,1,3,4,4]`	均值(2.6) < 中位数(3)	众数1和4（双峰）	左偏（众数不可靠）

1.1.4.2 峰度

衡量数据分布形态陡峭或平坦程度，峰度= (其中为总体均值，为总体标准差）

超额峰度=峰度-3

⚠️正态分布的峰度为 3，即超额峰度为0 （超额峰度=峰度-3，这也就是为什么有些资料说正态分布的峰度为3，有些资料又说是0，其实就是因为没有说清楚使用的是“峰度”还是“超额峰度”导致的混淆，实际应用中需注意软件或文献使用的是“峰度”还是“超额峰度”

指标	正态分布的值	说明
偏度	0	偏度为0:数据对称分布偏度大于1或小于-1:高度偏态分布偏度在0.5～1 或 -1～-0.5：中度偏态分布偏度在0～0.5 或 -0.5～0：轻度偏态分布
峰度	3（或超额峰度为0）	峰度大于3:高尖分布，数据分布比较集中峰度等于3:正态分布峰度小于3:矮胖分布，数据分布比较分散

指标

正态分布的值

说明

偏度

偏度为0:数据对称分布

偏度大于1或小于-1:高度偏态分布

偏度在0.5～1 或 -1～-0.5：中度偏态分布

偏度在0～0.5 或 -0.5～0：轻度偏态分布

峰度

3（或超额峰度为0）

峰度大于3:高尖分布，数据分布比较集中

峰度等于3:正态分布