定量变量分布的统计分析与样本统计不确定性可视化
立即解锁
发布时间: 2025-09-03 00:51:21 阅读量: 8 订阅数: 22 AIGC 

### 定量变量分布的统计分析与样本统计不确定性可视化
#### 1. 定量变量分布的统计分析
在分析定量变量的分布时,我们需要用到一些基本的统计指标来描述其特征,同时借助数据可视化工具将这些指标直观呈现。
##### 1.1 位置度量
位置度量用于确定一个能在某种程度上代表整个变量值集合的中心值。常见的位置度量指标有均值、中位数和众数。
- **均值**:也称为平均值,是最常用的中心位置度量指标之一。以俄亥俄州辛辛那提郊区的 12 笔房屋销售数据为例,其均值计算如下:
\[
\frac{456400 + 298000 + \cdots + 108000}{12} = 219950
\]
在 Excel 中,可以使用 AVERAGE 函数计算均值。例如,在单元格 D2 中输入公式“=AVERAGE(A2:A13)”,即可计算出房屋销售的均值为 219950 美元。
- **中位数**:是将数据按升序排列后位于中间位置的值。如果数据个数为奇数,中位数就是中间的那个值;如果数据个数为偶数,中位数则是中间两个值的平均值。对于上述 12 笔房屋销售数据,中位数为第六和第七个观测值的平均值:
\[
\frac{208000 + 199500}{2} = 203750
\]
在 Excel 中,可以使用 MEDIAN 函数计算中位数。在单元格 D3 中输入公式“=MEDIAN(A2:A13)”,可得到房屋销售的中位数为 203750 美元。
与均值不同,中位数的计算不受极端值的影响。在上述数据中,一个较大的值 456400 美元会拉高均值,但对中位数没有影响。如果将 456400 美元替换为 150 万美元,中位数仍为 203750 美元,而均值会增加到 306916.67 美元。因此,当数据集包含极端值或严重偏斜时,中位数是更合适的中心位置度量指标。
- **众数**:是数据集中出现频率最高的值。有时,最大频率可能出现在两个或多个不同的值上,此时就存在多个众数;如果数据集中没有值出现超过一次,则称该数据没有众数。在辛辛那提房屋销售数据中,有两个值各出现了两次,其他值只出现了一次,因此众数为 254000 美元和 138000 美元。在 Excel 中,可以使用 MODE.MULT 函数计算所有众数。在单元格 D4 中输入公式“=MODE.MULT(A2:A13)”,可得到这两个众数。
##### 1.2 变异性度量
位置度量只能提供一个代表中心的单一值,无法传达数据值的变异性信息。因此,除了位置度量,还需要考虑变异性度量,常见的变异性度量指标有范围、标准差和百分位数。
- **范围**:是数据集中最大值与最小值之差。对于辛辛那提房屋销售数据,范围为:
\[
456400 - 108000 = 348400
\]
Excel 没有直接提供范围函数,但可以使用 MAX 和 MIN 函数计算范围。在单元格 D7 中输入公式“=MAX(A2:A13) - MIN(A2:A13)”,可得到房屋销售的范围为 348400 美元。然而,范围仅基于两个观测值,容易受到极端值的影响,因此很少单独作为变异性的度量指标。
- **标准差**:基于每个观测值与均值的偏差程度来衡量变异性。样本标准差可以看作是样本中观测值与样本均值的平均偏差量。对于辛辛那提房屋销售数据,标准差的计算如下:
\[
\sqrt{\frac{(456400 - 219950)^2 + (298000 - 219950)^2 + \cdots + (108000 - 219950)^2}{12 - 1}} = 95100
\]
在 Excel 中,可以使用 STDEV.S 函数计算样本标准差。在单元格 D8 中输入公式“=STDEV.S(A2:A13)”,可得到房屋销售的标准差为 95100 美元。当变量的值呈对称的单峰分布(钟形分布)时,标准差是一种可靠的变异性度量指标。对于这种分布,大约 68%的数据值位于区间[均值 - 标准差,均值 + 标准差]内,约 95%的数据值位于区间[均值 - 2×标准差,均值 + 2×标准差]内,超过 99%的数据值位于区间[均值 - 3×标准差,均值 + 3×标准差]内。然而,由于标准差的计算依赖于均值,它也容易受到极端值的影响,对于偏斜分布,标准差不能可靠地提供数据变异性的可解释度量。
- **百分位数**:是变量的一个值,使得指定(近似)百分比的观测值低于该值。常见的百分位数有 25th、50th 和 75th 百分位数,分别称为第一四分位数、第二四分位数和第三四分位数。这三个百分位数将数据分为四个部分,第三四分位数与第一四分位数之差称为四分位间距(IQR),它涵盖了变量值分布的中间 50%,有时也用作变异性的度量指标。
计算百分位数时,首先需要确定其在有序值集合中的位置,然后进行必要的插值。以辛辛那提房屋销售数据的 25th 百分位数为例,其位置计算如下:
\[
\frac{25}{100}×(12 + 1) = 3.25
\]
这意味着 25th 百分位数位于第三小值和第四小值之间的 25%处。第三小值为 138000 美元,第四小值为 142000 美元,因此 25th 百分位数为:
\[
138000 + (3.25 - 3)×(142000 - 138000) = 139000
\]
同样地,50th 百分位数的位置为:
\[
\frac{50}{100}×(12 + 1) = 6.5
\]
其值为:
\[
199500 + (6.5 - 6)×(208000 - 199500) = 203750
\]
可以发现,50th 百分位数与中位数的值相同。75th 百分位数的位置为:
\[
\frac{75}{100}×(12 + 1) = 9.75
\]
其值为:
\[
254000 + (9.75 - 9)×(257500 - 254000) = 256625
\]
在 Excel 中,可以使用 PERCENTILE.EXC 函数计算百分位数。在单元格 D10 中输入公式“=PERCENTILE.EXC(A2:A13, 0.25)”,可得到 25th 百分位数为 139000 美元。同理,可计算出 50th 和 75
0
0
复制全文
相关推荐










