冬季道路管理中交通与气象数据的地理空间可视化分析
1. 出租车探测车数据聚类
1.1 背景
1.1.1 数据集
出租车探测车数据集由富士通公司提供。该数据集基于约 2000 辆在札幌市区行驶的出租车提供的信息。道路被划分为路段,每个交叉路口为新路段的起点。每 5 分钟提供每个路段的统计信息,包括平均速度、最高速度、通过车辆数、路段长度等。数据集中约有 120000 个路段。数据涵盖两个时间段:2011 年 1 月 1 日至 2 月 7 日的降雪期和 2010 年 9 月 19 日至 9 月 25 日的非降雪期。
我们研究了降雪对数据集中交通的影响。即使在非降雪期某路段平均速度较高,但在降雪期,当道路被冰雪覆盖或因路边积雪变窄时,平均速度可能会低很多。由于数据集通过统计信息描述每个路段,因此可根据这些统计信息的相似性将路段分为几个聚类,这些聚类可能为制定类似的除雪策略提供参考。
1.1.2 预处理
每个路段由每 5 分钟收集的统计信息表示。为得到路段一天的表示,我们将每个 5 分钟的平均速度统计信息(也可使用其他统计信息)连接成一个高维向量。该向量不包含路段的物理属性信息,如道路宽度、车道数或相邻路段信息,仅包含平均速度数据。按平均速度聚类时,向量包含 288 个速度读数,对应一天中每个 5 分钟的时间段。
此外,由于探测车数据通过无线电系统从行驶中的出租车传输,数据集中存在大量缺失值。为计算向量间的相似性,需要填充缺失值。缺失值的填充方式会影响分析结果。作为初步实验,我们用路段的平均值填充该路段的缺失值。
1.1.3 聚类方法
由于每个路段由高维