本博文源于数据科学入门,在我们分析结构化数据时,通常会将每一列数据归为以下4个尺度中的一个:
- 定类尺度
- 定序尺度
- 定距尺度
- 定比尺度
因此本博文主要讲解如何理解它们
定类尺度
定类尺度就是划分数据划分类别。常见的有:性别、国籍、种类和啤酒的酵母种类
适合的数学运算
判断某一类是否与另一个相等或者集合隶属于
测度中心
测度中心就是描述数据趋势的数值,定类尺度我们用模来作为其测度中心。比如世界卫生组织酒精消费量数据,出现最多的州是:Africa,那么Africa就是它的测度中心
定序尺度
定序尺度是一种提供等级次序的尺度,常见的有:各种测量表(量表值:1-10那种)
适合的数学运算
排序和比较
测度中心
中位数,比如员工满意度,1-10打分,我们就会用中位数
定距尺度
定距尺度是一种可以进行有意义的减法运算
适合的数学运算
加法与减法
测度中心
算术平均值、标准差
定比尺度
定比尺度是一种比定距尺度更为强大与全面,相比于定距尺度它有0的概念。通常非负数,
适合的数学运算
加减乘除
测度中心
算术平均值与几何平均值