第三章概率分布
生物统计学最主要的任务是用样本统计数来推断其所属总体的参数
从同一总体中随机抽取样本,每次得到的样本不会完全相同,用不同样本去推断同一总体将得到不同的结论,如何判断这些结论的可靠性
•这些推断的基础是关于概率分布的基本知识,以及抽样分布。
概率基础知识
-
•必然事件**(certain event),以U表示。**
-
•不可能事件**(impossible event),以V表示。**
-
•随机事件**(random event,简称事件),指在某些确定条件下,因为偶然因素的影响而可能出现也可能不出现的现象。**
-
和事件(sum event):A+B至少有一件事发生
-
积事件(product event):A·B多个事件同时发生
-
互斥事件(mutually exclusive event):A·B=V,不可能同时发生
-
对立事件(contrary event):A+B=U,A·B=V,必有一件事发生
-
完全事件系(complete event system):A1+A2+……+An=U,Ai·Aj=V(当i不等于j时),多个事件两两相斥
-
独立事件(independent event):两者毫无关系
-
加法定理P(A+B)=P(A)+P(B)-P(A·B)
-
乘法定理P(A·B)=P(A|B)·P(B)= P(B|A)·P(A)
-
频率(frequency):即某事件发生的次数除以重复试验次数
-
概率(probability):随着重复试验次数不断增大,某事件发生的频率越来越接近某一固定值p,p就定义为该事件发生的概率。(一般情况下,因为重复试验的次数是有限的,所以频率只是概率的一个近似值。)
•频率是试验中真实观察到的概率,概率是理论上的频率。
•频率是样本的统计数,概率是总体的参数。
概率分布
概率分布**(probability distribution):**随机变量的取值与取这些值的概率之间的对应关系
离散型变量的分布:二项分布、泊松分布**……**
连续型变量的分布:正态分布、t分布、卡方分布、F分布
二项分布(binomial distribution):结果只有两种情况的事件组成的总体的概率分布,试验具有重复性和独立性
泊松分布(poisson distribution):就是p值很小,但n值很大的特殊情况的二项分布
•泊松分布的平均数和方差均为λ。
•二项分布当p<0.1且np<5时,可以用泊松分布来近似计算。
•泊松分布的形状参数λ无限增大时,泊松分布接近正态分布。
正态分布(normal distribution):随机误差****一般服从正态分布
•该正态分布记为N(μ, σ2),其中μ是正态分布的平均数,σ是正态分布的标准差。
•变量落在 (μ-σ, μ+σ)范围内的概率是68.26%;
•变量落在(μ-2σ, μ+2σ)范围内的概率是95.45%。
μ决定f(x)的位置,μ增大,曲线右移。
σ决定f(x)的性状,σ增大,曲线越宽矮。
•P(-1.96<x<1.96)=0.95•P(-2.58<x<2.58)=0.99
生物统计学的研究包含两个过程:从总体抽取样本的过程,从样本统计数推断总体参数的过程
重置抽样也称“回置抽样”、“重复抽样”或“有放回的抽样”
若只有一个总体
u分布:当μ=0,σ=1时,N(0,1)被称为标准正态分布,又称为u分布,F(u)
t分布:不服从正态分布,服从自由度为n-1,是从平均数为μ,标准差未知的正态总体中,独立随机地抽取含量为n的样本产生的分布。
卡方分布:从平均数为μ,标准差为σ的正态总体中,独立随机地抽取k个含量为n的样本
•卡方分布的取值范围是0到正无穷;
•曲线不对称,峰值偏左(特别在df=1时,曲线以y轴为渐近线)。
•随着自由度df增大,卡方分布趋于左右对称直至正态分布。
若需要比较两个总体
•两个样本平均数差的平均数等于两个总体平均数的差;
•两个样本平均数差的方差等于两个样本平均数的方差的和。
•在已知总体方差时,u检验可以用于比较总体平均数。
•在已知样本方差时,t检验可以用于比较总体平均数。
若两个总体的标准差已知
•当σ1与σ2相等时,F可以简化为两个样本方差的比值。
•F检验可以用于比较总体的方差。
•F分布的取值范围是0到正无穷;
•F分布的平均数趋向1;
•曲线不对称**,峰值偏左(特别在df1=1或2时,曲线以y轴为渐近线)。**
•曲线性状仅取决于df1和df2。