目录
聚类分析(Cluster Analysis)是研究事物分类的基本方法,基于我们所研究的指标或数据之间存在着不同程度的相似性或者相异性。聚类分析采用定量数学方法,根据样品或指标的数值特征对样品进行分类,从而辨别出各样品之间的亲疏关系。聚类分析是一种使用简单但是很常用的分析方法,往往被用来经验性类型的探索,而不是用来检验实现所定的假设,聚类分析分成两个宽泛的类别,包括划分聚类分析和层次聚类分析。
9.1划分聚类分析
划聚类分析的基本思想是将观测到的样本划分到一系列事先设定好的不重合的分组中去,划分聚类分析方法在计算上相比层次聚类分析方法药相对简单而且计算速度更快一些,但是它也有自己的缺点,它要求实现指定样本聚类多的精确数目,这与聚类分析探索性的本质是不相适应的。划分聚类分析包括两种:一种是K各平均数的聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的平均数的组,然后找出这些聚类;另一种是K个中位数聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的中位数的组然后找出这些聚类。
数据(案例9.1)是我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况,对其进行划分聚类分析,以便了解我国不同地区的能源消耗情况。变量分别是地区、单位地区生产总值煤消耗量/吨、单位地区生产总值电消耗量/千瓦/时、单位工业增加值煤消耗量/吨。
1.数标准化处理
egen zv2=std(V2) #本命令旨在对V2进行标准化处理
egen zv3=std(V3) #本命令旨在对V3进行标准化处理
egen zv4=std(V4) #本命令旨在对V4进行标准化处理
分析过程前三条命令时对数据进行一个标准化处理,选择的标准化处理方式是使变量的平均数为0而且标准差等于1。之所以这样做是因为我们进行聚类分析的变量都是以可比的单位进行的测度,他们具有极为不同的方差,我们对数据进行标准化处理可以避免使结果收到具有最大方差变量的影响。
sum zv2 zv3 zv4 #本命令旨在对zv2\zv3\zv4变量进行描述性统计
通过观察分析结果,我们可以看出一共有30个样本进行了参议。每个变量的平均值、方差、最小值、最大值都可清楚观察到。
2.K个平均数的聚类分析
cluster kmeans zv2 zv3 zv4,k(2)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为2类
cluster kmeans zv2 zv3 zv4,k(3)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为3类
cluster kmeans zv2 zv3 zv4,k(4)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为4类
这个_clus_1便是把样本分为两类的命令展示,我们可以看到所有的而观测样本被分为了两类:其中,山西、内蒙古、甘肃、青海、宁夏被分到第一类,其他省市的被分到第二类。我们可以看到第一类的特征是单位地区生产煤总值消耗量、单位地区生产总值电消耗量以及单位工业增加煤消耗量都相对较高,我们可以把第一类归为高耗能省市,第二类为低耗能省市。后面的分为3类和四类结果不再过多赘述。分类多了的划我们很难看出各个类别的特征,这时我们可以对数据进行排序操作:sort _clus_3