应用统计学考研笔记1:数据整理与抽样

本文介绍了统计学中的基本概念,包括总体、个体、样本和样本容量,详细阐述了简单随机抽样、分层抽样、整群抽样和系统抽样的方法。同时,讲解了数据图像表示法,如直方图、饼状图、茎叶图和条形图的作用和适用场景。此外,还涵盖了集中趋势度量(众数、中位数、四分位数和算术平均值)和离散趋势的测量指标。这些知识对于理解和应用统计学至关重要。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

概念

  • 总体:研究对象的全体
  • 个体:组成总体的每一个基本元素
  • 样本:总体中抽若干个体所组成的集合
  • 样本容量:样本中所含个体的数量

抽样方法

  • 简单随机抽样:简单随机抽样也称为单纯随机抽样、纯随机抽样、SRS抽样 ,是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。

  • 分层抽样:分层抽样法也叫类型抽样法。它是从一个可以分成不同子总体(或称为层)的总体中,按规定的比例从不同层中随机抽取样品(个体)的方法。

  • 整群抽样:是将总体中各单位归并成若干个互不交叉、互不重复的集合,称之为群;然后以群为抽样单位抽取样本的一种抽样方式。应用整群抽样时,要求各群有较好的代表性,即群内各单位的差异要大,群间差异要小。

  • 系统抽样:先将总体的全部单元按照一定顺序排列,采用简单随机抽样抽取第一个样本单元(或称为随机起点),再顺序抽取其余的样本单元,这类抽样方法被称为等距抽样(Systematic Sampling)。等距抽样又称为机械抽样、系统抽样。等距抽样往往不能给出估计量的估计方差。

参考:研究抽样的八种方法

数据图像表示法

  • 直方图:是用面积表示各组频数的多少。矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,由于分组数据具有连续性,直方图的各矩形通常是连续排列,而条形图则是分开排列。直方图用于展示数值型数据。140~240之间数据出现的次数

  • 饼状图:主要标识总体或样本中各组成部分所占的比例,对于定性数据,使用频数分布进行描述,还可以进行比例、百分比、比率等级统计量描述。140~240之间数据出现的百分比

  • 茎叶图:是反映原始数据分布的图形。它由茎和叶两部分构成,其图形是由数字组成的。通过茎叶图,可以看出数据的分布形状及数据的离散程度,比如是否对称,数据是否集中,是否有离群点,等等。茎叶图类似于横置的直方图,与直方图对比,茎叶图既能给出数据的分布状况,又能给出每一个原始数值,即保留了原始数据的信息。而直方图虽然能很好的显示数据的分布,但是不能保留原始的数值。在应用方面,直方图通常适用于大批量数据,茎叶图通常适用于小批量数据。140~240之间数据的表达,如14|1349,表达141,143,144,149这4个数据。

  • 条形图:是用条形的长度表示各类别频数的多少,其宽度(表示类别)则是固定的;条形图用于展示分类数据

  • 柱状图

 集中趋势度量

  • 众数(Mo)

    • 一组数据中出现次数最多的变量值
    • 适合于数据量较多时使用
    • 不受极端值的影响
    • 一组数据可能没有众数或有几个众数
    • 主要用于分类数据,也可用于顺序数据和数值型数据
    • 1、3、3、5其中3最多,则众数是3
    • 1、3、3、4、4、5其中3和4一样最多,则众数是3、4
  • 中位数(\widetilde{X}

    • 排序后处于中间位置上的值
    • 不受极端值的影响
    • 主要用于顺序数据,也可用数值型数据,但不能用于分类数据
    • 各变量值与中位数的离差绝对值之和最小
    • 1、2、3,中位数为2
    • 1、2、3、4,中位数为\frac{2+3}{2}=2.5
  • 四分位数(x_i{},x_j{})

    • 不受极端值的影响
    • 排序后处于25%和75%位置上的值
    • 1、2、3、4其中2位上四分位,3为下四分位数
  • 算术平均值(\overline{x},\overline{X})        

    • 也称为均值
    • 集中趋势的最常用测度值
    • 一组数据的均衡点所在
    • 体现了数据的必然性特征
    • 易受极端值的影响
    • 有简单平均数和加权平均数之分
    • 根据总体数据计算的,称为平均数;根据样本数据计算的,称为样本平均数。
  • 集合平均值

    • n 个变量值乘积的 n 次方根
    • 适用于对比率数据的平均
    • 主要用于计算平均增长率

离散趋势

极差

  • 一组数据的最大值与最小值之差: max(x_{i})-min(x_{i})
  • 离散程度的最简单测度值
  • 易受极端值影响
  • 未考虑数据的分布

四分位差

  • 上四分位数与下四分位数之差:Q_{D} = Q_{U}Q_{L} 
  • 反映了中间50%数据的离散程度
  • 不受极端值的影响 

总体方差

样本方差 

样本标准差

S = \sqrt{s^{2}}

统计量

  • 是指不含有任何未知参数的样本的函数
  • 由于总体规模一般较大,无法得到总体所有数据,所以总体参数总是未知的,所以需要从总体中抽取样本,利用样本构造统计量,将样本中包含的总体信息按照某种要求进行加工处理,把分散在样本的信息集中到统计量的取值上,进而推断总体信息,如果统计量中包含未知参数,即使得到样本数据,统计量的取值也是未知的,也无法推断总体参数了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lizz666

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值