第9章 Stata聚类分析

本文详细介绍了如何在Stata中进行聚类分析,包括划分聚类的K平均数和K中位数方法,以及层次聚类的各种连接法。通过案例展示了数据标准化、设置聚类变量名称、初始聚类中心的选择等操作,揭示了聚类分析在数据分析和统计中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

       

目录

9.1划分聚类分析

1.数标准化处理

2.K个平均数的聚类分析

3.K个中位数的聚类分析

案例延伸

1.采用其他相异性指标

2.设置聚类变量的名称

3.设置观测样本为初始聚类中心

4.排除作为初始聚类中心的观测样本

9.2层次聚类分析

1.最短联结法聚类分析

2.最长联结法聚类分析

3.平均联结法聚类分析

4.加权平均联结法聚类分析

5.中位数联结法聚类分析

6.重心联结法聚类分析

7.Ward联结法聚类分析

案例延伸


        聚类分析(Cluster Analysis)是研究事物分类的基本方法,基于我们所研究的指标或数据之间存在着不同程度的相似性或者相异性。聚类分析采用定量数学方法,根据样品或指标的数值特征对样品进行分类,从而辨别出各样品之间的亲疏关系。聚类分析是一种使用简单但是很常用的分析方法,往往被用来经验性类型的探索,而不是用来检验实现所定的假设,聚类分析分成两个宽泛的类别,包括划分聚类分析和层次聚类分析。

9.1划分聚类分析

        划聚类分析的基本思想是将观测到的样本划分到一系列事先设定好的不重合的分组中去,划分聚类分析方法在计算上相比层次聚类分析方法药相对简单而且计算速度更快一些,但是它也有自己的缺点,它要求实现指定样本聚类多的精确数目,这与聚类分析探索性的本质是不相适应的。划分聚类分析包括两种:一种是K各平均数的聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的平均数的组,然后找出这些聚类;另一种是K个中位数聚类分析方法,此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的中位数的组然后找出这些聚类。

        数据(案例9.1)是我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况,对其进行划分聚类分析,以便了解我国不同地区的能源消耗情况。变量分别是地区、单位地区生产总值煤消耗量/吨、单位地区生产总值电消耗量/千瓦/时、单位工业增加值煤消耗量/吨。

1.数标准化处理

egen zv2=std(V2) #本命令旨在对V2进行标准化处理
egen zv3=std(V3) #本命令旨在对V3进行标准化处理
egen zv4=std(V4) #本命令旨在对V4进行标准化处理

         分析过程前三条命令时对数据进行一个标准化处理,选择的标准化处理方式是使变量的平均数为0而且标准差等于1。之所以这样做是因为我们进行聚类分析的变量都是以可比的单位进行的测度,他们具有极为不同的方差,我们对数据进行标准化处理可以避免使结果收到具有最大方差变量的影响。

sum zv2 zv3 zv4 #本命令旨在对zv2\zv3\zv4变量进行描述性统计

        通过观察分析结果,我们可以看出一共有30个样本进行了参议。每个变量的平均值、方差、最小值、最大值都可清楚观察到。

2.K个平均数的聚类分析

cluster kmeans zv2 zv3 zv4,k(2) 
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为2类
cluster kmeans zv2 zv3 zv4,k(3)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为3类
cluster kmeans zv2 zv3 zv4,k(4)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析,并把样本分为4类

 

        这个_clus_1便是把样本分为两类的命令展示,我们可以看到所有的而观测样本被分为了两类:其中,山西、内蒙古、甘肃、青海、宁夏被分到第一类,其他省市的被分到第二类。我们可以看到第一类的特征是单位地区生产煤总值消耗量、单位地区生产总值电消耗量以及单位工业增加煤消耗量都相对较高,我们可以把第一类归为高耗能省市,第二类为低耗能省市。后面的分为3类和四类结果不再过多赘述。分类多了的划我们很难看出各个类别的特征,这时我们可以对数据进行排序操作:sort _clus_3

 3.K个中位数的聚类分析


                
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值