概念
- 总体:研究对象的全体
- 个体:组成总体的每一个基本元素
- 样本:总体中抽若干个体所组成的集合
- 样本容量:样本中所含个体的数量
抽样方法
-
简单随机抽样:简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
-
分层抽样:分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。
-
整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。
-
系统抽样:先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的估计方差。
数据图像表示法
-
直方图:是用面积表示各组频数的多少。矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。直方图用于展示数值型数据。140~240之间数据出现的次数
- 饼状图:主要标识总体或样本中各组成部分所占的比例,对于定性数据,使用频数分布进行描述,还可以进行比例、百分比、比率等级统计量描述。140~240之间数据出现的百分比
- 茎叶图:是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散程度,比如是否对称,数据是否集中,是否有离群点,等等。茎叶图类似于横置的直方图,与直方图对比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好的显示数据的分布,但是不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。140~240之间数据的表达,如14|1349,表达141,143,144,149这4个数据。
- 条形图:是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;条形图用于展示分类数据
- 柱状图
集中趋势度量
-
众数(Mo)
- 一组数据中出现次数最多的变量值
- 适合于数据量较多时使用
- 不受极端值的影响
- 一组数据可能没有众数或有几个众数
- 主要用于分类数据,也可用于顺序数据和数值型数据
- 1、3、3、5其中3最多,则众数是3
- 1、3、3、4、4、5其中3和4一样最多,则众数是3、4
-
中位数(
)
- 排序后处于中间位置上的值
- 不受极端值的影响
- 主要用于顺序数据,也可用数值型数据,但不能用于分类数据
- 各变量值与中位数的离差绝对值之和最小
- 1、2、3,中位数为2
- 1、2、3、4,中位数为
=2.5
-
四分位数(
,
)
- 不受极端值的影响
- 排序后处于25%和75%位置上的值
- 1、2、3、4其中2位上四分位,3为下四分位数
-
算术平均值(
,
)
- 也称为均值
- 集中趋势的最常用测度值
- 一组数据的均衡点所在
- 体现了数据的必然性特征
- 易受极端值的影响
- 有简单平均数和加权平均数之分
- 根据总体数据计算的,称为平均数;根据样本数据计算的,称为样本平均数。
-
集合平均值
- n 个变量值乘积的 n 次方根
- 适用于对比率数据的平均
- 主要用于计算平均增长率
离散趋势
极差
- 一组数据的最大值与最小值之差: max(
)-min(
)
- 离散程度的最简单测度值
- 易受极端值影响
- 未考虑数据的分布
四分位差
- 上四分位数与下四分位数之差:
=
–
- 反映了中间50%数据的离散程度
- 不受极端值的影响
总体方差
样本方差
样本标准差
S =
统计量
- 是指不含有任何未知参数的样本的函数
- 由于总体规模一般较大,无法得到总体所有数据,所以总体参数总是未知的,所以需要从总体中抽取样本,利用样本构造统计量,将样本中包含的总体信息按照某种要求进行加工处理,把分散在样本的信息集中到统计量的取值上,进而推断总体信息,如果统计量中包含未知参数,即使得到样本数据,统计量的取值也是未知的,也无法推断总体参数了