#读取gps文件夹下面的所有文件合并为一个数据框
from pylab import mpl
import pandas as pd
mpl.rcParams['font.sans-serif'] = ['SimHei']
import os
path='D:/Rpython/file/time/' #文件夹下有多个文件的读取
list1=os.listdir(path)
import matplotlib.pyplot as plt
data1=pd.DataFrame()
for i in list1:
data=pd.read_csv(path+i,engine='python')
data1=pd.concat([data1,data])
#提取68路的数据
temp=data1[data1.线路名称=='68路']
#画出散点图
plt.figure()
plt.scatter(temp.iloc[:,0],temp.iloc[:,1]) #选取的是公交车经度列和纬度列
plt.show()
#聚类找到30个站,将虚拟类标签转换为实际站点
def cengci(temp,num):
from scipy.cluster import hierarchy
Z = hierarchy.linkage(temp, method ='ward',metric='euclidean') #(数据,层次聚类的方法,度量:欧氏距离)
label = hierarchy.cut_tree(Z, height=num) # 取固定位置的类别数
label = label.reshape(label.size, )
return (label)
from Cengci import ceng