解读论文Taxi Driving Behavior Analysis in Latent Vehicle-to-Vehicle
Networks: A Social Influence Perspective
一、论文研究的问题及研究意义
问题
司机驾驶员潜在的社会交往关系和相应的社会传播方式即分享驾驶行为已被大部分研究忽略
论文提出改进方法
本文中提出了一种揭示社会传播作用如何更好地预测驾驶员司机的未来行为的方法
论文提出目的
为出租车司机提高利润和工作效率提供了有益的指导和方向
二、论文假设以及假设校验
研究内容
1、通过真实故事案例,发现出租车司机社会互动确实可以影响驾驶员行为。
2、由于用户隐私的限制,没有公开的信息可以观察到社交互动,因此需要显示出出租车司机潜在链接的技术
3、在文中的方法是通过对驾驶行为的分析来探索出租车司机潜在的车到车网络。具体方法是,提出一个两阶段的架构,以捕捉司机驾驶行为的传播。
概述
假设某些驾驶行为模式的比例越来越大可能是由更强的社会影响引起的,反之亦然。因此,整合社会传播的顺序驾驶行为可以被制定为时间序列,并作为部分排序任务解决。基于框架,可以更好地模拟历史驾驶行为,以预测未来趋势,并发现出租车司机潜在的社会关系。
三、假设如何被检验
数据信息
2013年全年在纽约市的出租车驾驶交易中收集的实际数据集(由NYC TLC提供),具体信息在论文中详见。
社交影响司机驾驶技能
驾驶技能相关性
为了衡量驾驶技能相关关系,选择交易量、平均驾驶速度和总收入三个评估指标。
司机间的相关性
司机与司机间的相关性由链接强度和技能简便性(差异的绝对值)决定。
数据统计结果分析
通过数据统计结果分析得知熟练的司机可以充当有影响力的分享专长的节点,和更强的链接通过“社会学习”计划提供更好的技能的结论,其更加支持提出的假设。
模拟司机驾驶行为和社会传播
文中用到的数学符号
U = { υ i } 表 示 选 择 的 出 租 车 司 机 的 集 合 U = \lbrace \upsilon_i \rbrace 表示选择的出租车司机的集合 U={υi}表示选择的出租车司机的集合
ω i j 表 示 υ i 到 υ j 的 社 交 链 接 强 度 \omega _ij表示\upsilon_i到\upsilon_j的社交链接强度 ωij表示υi到υj的社交链接强度
S i t 表 示 在 时 间 t 中 υ i 的 模 式 频 率 向 量 S_{i}^{t}表示在时间t中\upsilon_i的模式频率向量 Sit表示在时间t中υi的模式频率向量
S i , k t 表 示 时 间 t 中 的 υ i 的 第 k 个 模 式 比 重 S_{i,k}^{t}表示时间t中的\upsilon_i的第k个模式比重 Si,kt表示时间t中的υi的第k个模式比重
P i , k t 表 示 在 时 间 t 中 的 υ i 的 第 k 个 模 式 的 社 交 影 响 P_{i,k}^{t}表示在时间t中的\upsilon_i的第k个模式的社交影响 Pi,kt表示在时间t中的υi的第k个模式的社交影响
N i 表 示 司 机 υ i 的 社 交 近 邻 N_i表示司机\upsilon_i的社交近邻 Ni表示司机υi的社交近邻
R i t 表 示 在 上 升 时 间 t 中 υ i 的 模 式 R_{i}^{t}表示在上升时间t中\upsilon_i的模式 Rit表示在上升时间t中υi的模式
D i t 表 示 在 下 降 时 间 t 中 υ i 的 模 式 D_{i}^{t}表示在下降时间t中\upsilon_i的模式 Dit表示在下降时间t中υi的模式
具体方案和挑战
为应对以下两条挑战,文中制定出租车司机驾驶行为的社会传播,然后可以相反地揭示社会互动。
1、共同事件并不意味着面对面交流
2、偶然的共同事件是小概率事件等挑战
为了整合社会因素,本文假设驾驶行为可以表现为时间性的社会传播的作用将有下轮的波动反映出来。
为了描述出租车司机社会因素,即绘制与传统网络相似的潜在车辆到车辆网络图,引入 e i j e_ij eij来将优势从 υ i \upsilon_i υi呈现给 υ j \upsilon_j υj,相应地, w i j w_{ij} wij表示边缘权重或影响力,其中将在训练阶段进行估计。
与传统的社会传播问题不同,本文将司机自己的观点纳入这个框架,将每个司机视为自己的近邻,即 υ j ∈ N i \upsilon_j \in N_i υj∈Ni,然后介绍 w i j w_ij wij来衡量司机如何坚持自己的习惯。显然,较高的 w i j w_ij wij表示较少的传播和更多的继承,反之亦然。
综述,经过以上分析,得出问题定义:给定目标组的出租车司机 U U U,并且对于每个 υ i ∈ U \upsilon_i \in U υi∈U,以及在时间段t=1,2,3,…,T期间相应的模式向量 S i t S_{i}^{t} Sit,驾驶行为预测问题是准确地揭示每队 υ i \upsilon_i υi和 υ j \upsilon_j υj的加权社交关系 ,那么可以估计在T+1轮中驾驶行为向量 ∇ S i T + 1 \nabla S_{i}^{T+1} ∇SiT+1的波动情况。
损失函数
原因
由于假设驾驶行为的波动是由于司机内部的社交传播,对于某个司机 i i i_i ii,如果第k个模式在T+1轮中,持续保持增,则社会影响 P i , k t P_{i,k}^{t} Pi,kt可能越高,反之亦然。
因为, S i , k T + 1 S_{i,k}^{T+1} Si,kT+1比较难估计其值,所以本文的目标是预测 S i , k T + 1 S_{i,k}^{T+1} Si,kT+1在T+1轮是否增加或减少和增量在所有模式中排名如何,这些可能反应相应的社交影响力。
目的
如果能够准确地揭示潜在的社会交往,就可以达到影响力排名最优结果,相应地排名任务的优化将导致社会关系的解决。
解决方案
找到适当的 w i j w_ij wij使得对 ∀ < r , d > i , t \forall <r,d>_i,_t ∀<r,d>i,t,当 r ∈ R i t r \in R_{i}^{t} r∈Rit时我们会得到 P i , d t < P i , r t P_{i,d}^{t}<P_{i,r}^{t} Pi,dt<Pi,rt
为了得到这一目标,本文制定以下成对排序的损失函数:
m
i
n
ω
F
(
w
)
=
∑
i
,
t
∑
r
∈
R
i
t
,
d
∈
D
i
t
h
(
p
i
,
d
t
−
p
i
,
r
t
)
⋯
⋯
(
1
)
min_ \omega F(w)=\sum_{i,t}\sum_{r\in R_{i}^{t},d\in D_{i}^{t}}h(p_{i,d}^{t}-p_{i,r}^{t}) \cdots\cdots(1)
minωF(w)=i,t∑r∈Rit,d∈Dit∑h(pi,dt−pi,rt)⋯⋯(1)
简化计算,使用平方损失函数
h
(
x
)
=
m
a
x
{
a
,
b
}
2
⋯
⋯
(
2
)
h(x)=max\lbrace a,b \rbrace ^2 \cdots\cdots(2)
h(x)=max{a,b}2⋯⋯(2)
其中软边距量参数b,来容忍一个小错误,为了方便计算使b=0并且h(x)函数重写成:
∑
r
∈
R
i
t
,
d
∈
D
i
t
h
(
p
i
,
d
t
−
p
i
,
r
t
)
=
∑
r
,
d
:
p
i
,
r
t
h
(
p
i
,
d
t
−
p
i
,
r
t
)
2
⋯
⋯
(
3
)
\sum_{r\in R_{i}^{t},d\in D_{i}^{t}}h(p_{i,d}^{t}-p_{i,r}^{t})=\sum_{r,d:p_{i,r}^{t}}h(p_{i,d}^{t}-p_{i,r}^{t})^2 \cdots\cdots(3)
r∈Rit,d∈Dit∑h(pi,dt−pi,rt)=r,d:pi,rt∑h(pi,dt−pi,rt)2⋯⋯(3)
通过对比独立级联和线性阈值模型,本文选则调整稳态扩展模型来模拟社
会传播,其中每个节点具有自己的激活概览然后,在每轮中,所有的节点
试图影响他们的邻居,然后影响将不仅通过社会关系的强度来测量,而且
还将被激活概率测量。通过引入模式比例 s I , k t s_{I,k}^{t} sI,kt而不是激活概率来调整公式
得到如下公式:
p
i
,
k
t
=
1
−
∏
j
∈
N
i
(
1
−
w
j
i
⋅
δ
i
,
j
,
k
t
−
1
)
⋯
⋯
(
4
)
p_{i,k}^{t}=1-\prod_{j \in N_i}(1-w_ji\cdot\delta_{i,j,k}^{t-1})\cdots\cdots(4)
pi,kt=1−j∈Ni∏(1−wji⋅δi,j,kt−1)⋯⋯(4)
对于
δ
i
,
j
,
k
t
−
1
\delta_{i,j,k}^{t-1}
δi,j,kt−1本文设计它呈现对模式的成对影响概率,这与
w
j
i
w_ji
wji的整体社交联系强度不同
与Sigmoid功能类似,公式为:
δ
i
,
j
,
k
t
=
1
1
+
e
−
(
s
j
,
k
t
−
s
i
,
k
t
)
⋯
⋯
(
5
)
\delta_{i,j,k}^{t}= \frac{1}{1+e^-(s_{j,k}^{t}-s_{i,k}^{t})}\cdots\cdots(5)
δi,j,kt=1+e−(sj,kt−si,kt)1⋯⋯(5)
δ
i
,
j
,
k
t
−
1
\delta_{i,j,k}^{t-1}
δi,j,kt−1取值范围[0,1]
s j , k t > s i , k t − 1 s_{j,k}^{t}>s_{i,k}^{t-1} sj,kt>si,kt−1时 δ i , j , k t − 1 \delta_{i,j,k}^{t-1} δi,j,kt−1接近1,增强影响
s j , k t < s i , k t − 1 s_{j,k}^{t}<s_{i,k}^{t-1} sj,kt<si,kt−1时 δ i , j , k t − 1 \delta_{i,j,k}^{t-1} δi,j,kt−1接近0,减少影响
根据梯度下降法优化方法找到最小化
{
w
}
\lbrace w \rbrace
{w}合适
∂
F
(
w
)
∂
w
j
i
=
∑
t
∑
r
∈
R
i
,
d
∈
D
i
,
t
∂
h
(
γ
r
d
)
∂
γ
r
d
(
∂
p
i
,
d
t
∂
w
j
i
−
∂
p
i
,
r
t
∂
w
j
i
)
⋯
⋯
(
6
)
\frac{\partial F(w)}{\partial w_{ji}}=\sum_{t}\sum_{r \in R_{i,d\in D_{i,t}}}\frac{\partial h(\gamma_{rd})}{\partial \gamma_{rd}}(\frac{\partial p_{i,d}^{t}}{\partial w_{ji}}-\frac{\partial p_{i,r}^{t}}{\partial w_{ji}})\cdots\cdots(6)
∂wji∂F(w)=t∑r∈Ri,d∈Di,t∑∂γrd∂h(γrd)(∂wji∂pi,dt−∂wji∂pi,rt)⋯⋯(6)
∂ p i , k t ∂ w j i = ∏ l ∈ N i t , l ∉ j ( 1 − w l i ⋅ ∂ i , l , k t − 1 ) ⋅ ∂ i , j , k t − 1 \frac{\partial p_{i,k}^{t}}{\partial w_{ji}}=\prod_{l\in N_{i}^{t},l\notin j}(1-w_{li}\cdot\partial_{i,l,k}^{t-1})\cdot\partial_{i,j,k}^{t-1} ∂wji∂pi,kt=l∈Nit,l∈/j∏(1−wli⋅∂i,l,kt−1)⋅∂i,j,kt−1
训练阶段
给一组目标出租车司机U={Ui}以及他们在时间段t=1,2,3,…,T期间的模式向
量 s i t s_{i}^{t} sit ,推断已经实现驾驶行为向量波动 的排名最佳解释的 ∇ S i T + 1 \nabla S_{i}^{T+1} ∇SiT+1
司机间潜在的社会关系 { w i , j } \lbrace w_{i,j} \rbrace {wi,j}
测试阶段
获得潜在联系 { w i , j } \lbrace w_{i,j} \rbrace {wi,j}在训练阶段,给出一组的出租车司机 U U U,并且对于每一个 U = { u i } U=\lbrace u_{i}\rbrace U={ui},以及某些p时间段如t=T-p+1,….,T-1,T期间相应的模式向量 s i , t s_{i},^{t} si,t,以准确信号和排名来预测驾驶行为向量波动 ∇ s i T + 1 \nabla s_{i}^{T+1} ∇siT+1。对于训练阶段使用公式(1)实现潜在的社会关系,对于测试阶段使用公式(4)驾驶员 U i U_{i} Ui的每一种模式直接计算 p i , k t p_{i,k}^{t} pi,kt,然后对传播进行排序以后估计驾驶模式比例的排名或者对增量信号进行分类。
根据提出的框架,社会互动将得到解决,社会传播计划将得到预测,有利于进一步讨论智能出租车服务。
实验
首先对数据集的预处理使用最小方差进行自下而上的层次分析,直到剩下30个集群,在位置聚类之后,计算每小时内的图像频率相对不同的拾取位置。其次在预测模式变化使用二分类以区分模式增量符号,然后对其增量进行排序,在排名选择NDCG和MAP。
四、研究结果已经解读
根据结果,可以得出结论,如果不考虑额外的因素,如经济利益或运行速度,启发式方法可能不适合估计出租车司机的驾驶模式。
这种现象可能进一步解释了为什么文中的模型可以超过基准,因为文中不教“模型”如何预测变化,而是直观地“模拟社会传播方案”,这被最终证明是有效的。
显然,除了这些,出租车司机本身可能是“最好的学习者”。
参数鲁棒性:模式量和时间滞后
模式量分析图
模式量分析结果如上图,从图中分析出排名任务,由于以下两个原因,(1)更多的模式会导致指标变得更糟(更多的模式导致更稀疏的数据集,特别是当那些不受欢迎的模式研究)( 2)更多的模式提高排名。对于整体流行度方法,当模式从200增加到300时,性能会显着恶化,这可能进一步证明我们的结论,司机将很乐意遵循流行趋势。另一方面,虽然数据稀疏性也会扰乱二分类,但是当模式增加时,精度和回忆率保持相对稳定。
时间滞后分析图
时间滞后分析结果如上图,对于本文的SPC方法以及整体的流行度来说,时间延迟并不反映有效的效果。
然而,对于基于时间序列估计的个性化平均值和VAR模型,当时间延迟增加时,性能似乎稍微恶化。对于时间序列分析,更长的滞后通常更好地捕捉趋势,但对于出租车驾驶模式,如上所述,甚至可能是一个随机事件,因此时间依赖的规则可能会影响过度拟合问题。
ROC曲线
如右图ROC曲线所示,其中靠近线的数字表示正标签的百分比。从图中可以清楚地发现,对于任何阈值,本文的框架可以优于二分类任务中的所有基线,具有显着的利润。不过,无论如何规范门槛,召回率也许都不会过去,这表明其他出租车司机的社会影响力或整体受欢迎程度可能对所选择的模式至多可以解释80%,而20%左右,由其他因素引起,如市政工程或节日。
总结
本文通过模拟出租车司机的社会驾驶行为模式变化来研究潜在车辆到车辆网络中的潜在社会因素。本文提出了一个社会驾驶的两阶段框架来模拟出租车司机中的潜在社会互动,这可以更好地解释司机的未来行为。本框架的一个独特之处在于它可以将行为预测的问题转化为具有社会影响力的部分排名的形式,可以作为优化的成对排名问题。对大规模现实世界数据进行的大量实验清楚地证实了所提出的框架结构的反映性,这也证明了社会因素确实影响了出租车司机驾驶行为的假说。
五、自我总结
总结:
文中对于一些其他因素,例如利润,交通流量或可能影响路线的节日暂时被忽略,
这几类问题可能是将来研究方向。
自我启发:
本文的利用社会传播作用更好预测驾驶员司机未来行为方法,可以将其创新
的思想融合在推荐算法,以改进算法以提高对用户推荐预测的准确率。