统计学中的假设检验与线性回归分析
立即解锁
发布时间: 2025-09-02 01:51:40 阅读量: 5 订阅数: 12 AIGC 

# 统计学中的假设检验与线性回归分析
## 1. 独立性卡方检验与费舍尔精确检验
之前讨论的 z 检验和 t 检验主要用于数值变量(均值)的分析,在医学领域,常使用 t 检验或其对应的非参数版本来比较均值。但对于非数值/分类变量该如何分析呢?独立性卡方检验就是用于检验两个分类变量之间独立性的方法。
### 1.1 示例分析
假设我们想了解在食用西兰花(Broccoli)和未食用西兰花(noBroccoli)的两组人群中,男性的分布情况,或者探究女性和男性患者在出现出血或住院死亡等并发症方面是否存在差异。为了进行卡方检验,我们需要使用 `table` 函数计算列联表(也称为 4x4 表):
```R
> table(MMstat$Male, MMstat$Broccoli)
n y
0 158 118
1 139 85
```
这个函数返回了按组(食用西兰花/未食用西兰花)划分的性别分布。在食用西兰花组(`==y`)中,有 85 名男性(`==1`)和 118 名女性(`==0`)。我们将这个表保存到一个名为 `chisex` 的对象中:
```R
> chisex<-table(MMstat$Male, MMstat$Broccoli)
```
接着,我们可以使用 `barplot` 函数绘制条形图,直观展示两组中的性别分布:
```R
> barplot(chisex,
beside=T,
legend=c("Female",
"Male"),
col=c('green', 'yellow'), main='Sex distribution in the Broccoli
vs noBroccoli')
```
从条形图中可以看出,在未食用西兰花组(`n` 组)中女性数量多于男性,在食用西兰花组(`y` 组)中也是女性占比更多。但问题是,两组之间的比例是否相似呢?我们可以使用 `chisq.test` 函数进行卡方检验:
```R
> chisq.test(chisex)
Pearson's Chi-squared test with Yates'
continuity correction
data: chisex X-squared = 0.99389, df = 1, p-value = 0.3188
```
该检验返回了一个卡方统计量(X-squared)和一个 p 值。在这个例子中,由于 p 值远高于 0.05 的显著性水平(α),我们不能拒绝原假设,即食用西兰花和未食用西兰花两组之间的性别分布在统计学上没有差异。
### 1.2 费舍尔精确检验
如果卡方检验的假设不满足,我们可以使用费舍尔精确检验。卡方检验假设样本量较大,采用了近似方法,而费舍尔精确检验则适用于小样本量的精确检验。
```R
> fisher.test(chisex)
Fisher's Exact Test for Count Data
data: chisex p-value = 0.3139
alternative hypothesis: true odds ratio is not equal to 1 95 per
cent confidence interval: 0.5616834 1.1923219
sample estimates: odds ratio 0.8191337
```
费舍尔检验也证实了两组之间的分布没有差异,并返回了优势比。
## 2. 创建矩阵
有时候我们只有比例(原始数据),需要构建列联表。例如,已知食用西兰花组有 297 人,未食用西兰花组有 203 人,且未食用西兰花组中有 158 名女性,食用西兰花组中有 118 名女性,那么未食用西兰花组和食用西兰花组中分别有 139 名和 85 名男性。我们可以使用 `matrix` 函数构建矩阵:
```R
> chisexmat=
matrix(c(158,118,139,85),
nrow=2,
ncol=2,
dimnames=list(c('Female', 'Male'), c('noBroccoli', 'Broccoli')))
```
然后对这个矩阵进行卡方检验:
```R
> chisq.test(chisexmat)
Pearson's Chi-squared test with Yates' continuity
correction
data: chisexmat
X-squared = 0.99389, df = 1, p-value = 0.3188
```
结果同样显示 p 值远高于 α 水平,我们不能拒绝原假设。
## 3. 第一类错误和第二类错误
在假设检验中,我们有两种选择:
- 拒绝原假设(H0),并得出有足够证据推翻关于总体参数的既定信念的结论。
- 不能拒绝原假设(H0),并得出没有足够证据推翻总体参数既定值的结论。
在进行研究时,我们会设定显著性水平(α),但 α 也是犯第一类错误(也称为假阳性)的概率。在统计学中,我们总是希望避免第一类错误,即在没有充分证据的情况下,不要轻易否定现状。第一类错误比第二类错误更严重,研究人员通常将犯第一类错误的概率固定在 0.05 或 0.01。
以下是两类错误的具体情况:
| 原假设状态 | 拒绝原假设 | 不能拒绝原假设 |
| --- | --- | --- |
| 原假设为真 | 第一类错误(假阳性) - α - | 正确结果(真阴性) |
| 原假设为假 | 正确结果(真阳性) | 第二类错误(假阴性) - β - |
当我们拒绝真实的原假设时,就犯了第一类错误;当我们不能拒绝错误的原假设时,就犯了第二类错误。犯第一类错误的概率是 α,犯第二类错误的概率是 β,1 - β 被称为检验的功效。
## 4. 假设检验总结
假设检验是一种统计推断方法,存在两种对立的情况:现状(原假设 H0)和与现状相反的情况(备择假设 Ha)。原假设通常被认为是正确的,除非有非常确凿的证据反对它。
如果反对原假设的证据有效,我们就拒绝原假设;如果证据无效,我们就不能拒绝原假设。在统计学中,原假设受到很好的保护,除非我们有极大的把握支持备择假设,否则不能轻易拒绝原假设。这就是为什么我们通常将显著性水平(α)设定为 0.05。
α 是在原假设为真时拒绝原假设的概率,也就是第一类错误的概率。α 为 0.05 对应着 95% 的置信区间,意味着我们有 5% 的可能性犯第一类错误。
假设检验用于比较总体参数,基于概率分布进行。如果要比较均值,可以使用 z 分布(正态分布),
0
0
复制全文
相关推荐










