基本概念
在开始本章的学习之前,我们先来回顾几个之前提到过的概念。
- 总体(population)是被研究对象的全体构成的集合,根据其包含的对象数量是否可数可以分为有限总体和无限总体。把总体分为有限总体和无限总体主要是为了判别每次抽样是否独立。对于无限总体,每抽取一个单位并不影响下一次的抽样结果,因此每次抽取可以看做是独立的;对于有限总体,每抽取一个样本后,总体的对象数量就会减少一个,也就意味着前一次抽样会对本次抽样产生影响,每次抽取并不是独立的。
- 样本(sample)是从总体中抽取一部分元素构成的集合,构成样本的元素的数量称为样本容量(sample size)。抽样的目的是根据样本提供的信息去推断总体的特征,在很多现实的场景中,我们都无法获取被研究对象的全体,这种情况下就只能通过样本对总体进行推断。
- 参数(parameter)是用来描述总体特征的概括性数字度量,通常用希腊字母来表示,例如:总体均值通常用 μ 表示,总体标准差通常用 σ 表示。在无法获得全体对象的情况下,总体参数通常是一个未知的常量,正因如此我们才需要抽样,通过样本计算出统计量,再来估计总体参数的值。
- 统计量(statistic)是用来描述样本特征的概括性数字度量,它是根据样本数据计算得出的。由于抽样是随机的,因此统计量的值并不确定,它是一个以样本作为其自变量的函数,其本质就是一个随机变量。统计量通常用英文字母来表示,例如:样本均值通常用 x¯ 表示,样本标准差通常用 s 表示。除此之外,还有一些为了做统计分析构造出来的统计量,例如用于假设检验的 z 统计量、 t 统计量、 χ2 统计量、 F 统计量等。
所谓统计,就是对上面提到的参数值的估计。我们通过研究总体子集(样本)的特征,最终得出总体特征的度量值。所有的统计工作基本都是先从总体中抽取样本,再对样本进行各种各样的检验。
数据获取和抽样
既然统计学研究的是总体中的样本,那么如何抽样就是一个非常重要的问题,这里我们先介绍两种获取数据的方法:观察法和实验法。
- 观察法:所谓观察法就是持续记录被观测事件的相关数据但又不影响事件的发生。例如:我们在产品中通过植入埋点记录用户的行为习惯(如页面的访问时长、广告的点击率等),所谓埋点就是产品中针对特定用户行为或事件进行捕获、处理的非功能性代码,这些代码并不影响用户正常的使用行为。观察法是最常见的收集数据的方法,因为它操作起来非常简单,你需要做的就是观察和记录。但是作为观察者,我们缺少对整个实验环境的控制力,只能观察和记录自然发生的行为。如果我们希望主动诱发某种行为并进行观察,通常会使用下面的实验法。
- 实验法:实验的组织者将参与实验的人群分为两组,一组称为实验组(experimental group),另一组称为对照组或控制组(control group)。实验