这篇论文主要使用GPS轨迹来判断出租车的状态,包含Occupied(用O表示)、Non-occupied(用N表示)、Parked(用P表示)。
当前出租车的现状:
1.大多数出租车没有把计费表和GPS连接到一起,所以驱动了本论文技术的研究;
2.为了省电,出租车一般将GPS的上报时间调整为分钟级,这就造成了数据的稀疏性,降低了采样率;
3.出租车状态变换比较频繁,乘客、司机、道路情况、所处时间段都是影响出租车状态的因素。
其中2、3点给本文所研究的技术带来了难度。
文章主要从以下几方面展开:
1.将GPS数据映射到道路上,结合出租车的轨迹、历史轨迹以及道路数据提取一系列的特征,这些特征可以有效弥补低采样率的不足;
2.训练两个分类器,首先是局部概率模型、然后是隐半马尔科夫模型(HSMM);
3.使用3个月内采集的600辆出租车的数据进行效果验证。
数据格式:
数据集包含一组出租车的数据;
每辆出租车的数据包含一个轨迹点集合;
每个轨迹点包含两部分,第一部分为位置信息(包含精度、纬度、时间戳),第二部分为状态标志
首先是P状态的检测算法:
1.首先使用基于密度的聚类算法得到一些备选点集。首先定义pivot point: ------------------------公式1
点xi就是pivot point,其中m是符合两个阈值条件的最大值。初始备选点集为:
然后从xi的下一个点开始,获取其之后的符合公式1条件的点来扩展备选点集C,直到没有符合条件的点为止。
重复以上过程,直到一条轨迹中所有的点都被遍历到。输出为多个备选点集。
2.阶段1只是找出了在密度上比较大的点集合,但是考虑到塞车或者红灯等情况,这些点集合可能会有噪音存在。使用有监督训练来判别一个备选点集是否为parking place,使用到的特征有:
Minimum Bounding Ratio
Average Distance
Center Distance
Duration
History and PioVector
主要从长宽比、与道路的距离、停车时间长短、历史情况等来区分道路和停车区域。