第9章 Stata聚类分析

最新推荐文章于 2025-07-02 23:17:38 发布

查尔斯-狩乃

最新推荐文章于 2025-07-02 23:17:38 发布

阅读量1.9w

点赞数 21

CC 4.0 BY-SA版权

分类专栏： Stata数据分析文章标签：数据分析 statistics

本文链接：https://blog.csdn.net/qq_45112156/article/details/118389163

本文详细介绍了如何在Stata中进行聚类分析，包括划分聚类的K平均数和K中位数方法，以及层次聚类的各种连接法。通过案例展示了数据标准化、设置聚类变量名称、初始聚类中心的选择等操作，揭示了聚类分析在数据分析和统计中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

聚类分析（Cluster Analysis）是研究事物分类的基本方法，基于我们所研究的指标或数据之间存在着不同程度的相似性或者相异性。聚类分析采用定量数学方法，根据样品或指标的数值特征对样品进行分类，从而辨别出各样品之间的亲疏关系。聚类分析是一种使用简单但是很常用的分析方法，往往被用来经验性类型的探索，而不是用来检验实现所定的假设，聚类分析分成两个宽泛的类别，包括划分聚类分析和层次聚类分析。

9.1划分聚类分析

划聚类分析的基本思想是将观测到的样本划分到一系列事先设定好的不重合的分组中去，划分聚类分析方法在计算上相比层次聚类分析方法药相对简单而且计算速度更快一些，但是它也有自己的缺点，它要求实现指定样本聚类多的精确数目，这与聚类分析探索性的本质是不相适应的。划分聚类分析包括两种：一种是K各平均数的聚类分析方法，此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的平均数的组，然后找出这些聚类；另一种是K个中位数聚类分析方法，此方法的操作流程是通过迭代过程将观测案例分配到具有最接近的中位数的组然后找出这些聚类。

数据（案例9.1）是我国2006年各地区能源消耗的情况。根据不同省市的能源消耗情况，对其进行划分聚类分析，以便了解我国不同地区的能源消耗情况。变量分别是地区、单位地区生产总值煤消耗量/吨、单位地区生产总值电消耗量/千瓦/时、单位工业增加值煤消耗量/吨。

1.数标准化处理

egen zv2=std(V2) #本命令旨在对V2进行标准化处理
egen zv3=std(V3) #本命令旨在对V3进行标准化处理
egen zv4=std(V4) #本命令旨在对V4进行标准化处理

分析过程前三条命令时对数据进行一个标准化处理，选择的标准化处理方式是使变量的平均数为0而且标准差等于1。之所以这样做是因为我们进行聚类分析的变量都是以可比的单位进行的测度，他们具有极为不同的方差，我们对数据进行标准化处理可以避免使结果收到具有最大方差变量的影响。

sum zv2 zv3 zv4 #本命令旨在对zv2\zv3\zv4变量进行描述性统计

通过观察分析结果，我们可以看出一共有30个样本进行了参议。每个变量的平均值、方差、最小值、最大值都可清楚观察到。

2.K个平均数的聚类分析

cluster kmeans zv2 zv3 zv4,k(2) 
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析，并把样本分为2类
cluster kmeans zv2 zv3 zv4,k(3)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析，并把样本分为3类
cluster kmeans zv2 zv3 zv4,k(4)
#本命令的含义是对zv2\zv3\zv4进行K个平均数的据类分析，并把样本分为4类

这个_clus_1便是把样本分为两类的命令展示，我们可以看到所有的而观测样本被分为了两类：其中，山西、内蒙古、甘肃、青海、宁夏被分到第一类，其他省市的被分到第二类。我们可以看到第一类的特征是单位地区生产煤总值消耗量、单位地区生产总值电消耗量以及单位工业增加煤消耗量都相对较高，我们可以把第一类归为高耗能省市，第二类为低耗能省市。后面的分为3类和四类结果不再过多赘述。分类多了的划我们很难看出各个类别的特征，这时我们可以对数据进行排序操作：sort _clus_3