【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem 

Deep Reinforcement Learning for Solving the
Vehicle Routing Problem
Mohammadreza Nazari, Afshin Oroojlooy, Lawrence V. Snyder, Martin Taka ́cˇ
arXiv:1802.04240v1 [cs.AI] 12 Feb 2018

⾞両配送問題(VRP)は組合せ最適化問題であり,何⼗年に渡り
応⽤数学やコンピュータサイエンスの分野で研究が⾏われてきた
従来の⼿法では,”正確な最適解が出ない”ことや”計算に時間がかかる”
ことなど課題がある
背景

本論⽂では,与えられた分布を⼀度学習し,分布に対応した全ての問題を
最適化する深層強化学習⼿法を提案する
また,従来の⼿法と⽐較して計算が早く,複雑な条件のVRPにおいても
優れた最適解を求める
⽬的

VRPとは与えられたノード（顧客）とデポ（⾞両基地）を含む
⾞両配送ルートを最適化することである
Vehicle Routing Problem (VRP)とは
Route1Route1
𝑑"
#
= [a: 5]
𝑠#
= [x1, y1]
𝑑"
/
= [b: 6]
𝑠/
= [x2, y2]
𝑑"
3
= [c: 4]
𝑠3
= [x3, y3]
𝑑"
7
= [d: 2]
𝑠7
= [x4, y4]
𝑑"
9
= [e: 3]
𝑠9
= [x5, y5]
例 VRP15

各⾞両k(k=1,…m)はデポを出発し, デポに帰還する
𝐷 𝜎 :全ルートの距離の総和
𝜎=
:各⾞両kの客の訪問順序
Q 𝜎 :容量超過量の総和
T 𝜎 :各客のサービス時刻に対するペナルティの総和
Cost 𝝈 = 𝑫 𝝈 + T 𝝈 + 𝜶Q 𝝈
𝛼は, 容量制約違反のペナルティに対する重み係数である
⽬的関数

時系列データを扱うRNNは計算に時間がかかるので
RNN層を取り除いて埋め込み層に変更
従来モデルの改善
従来モデル提案モデル

Actor-Criticは,Actorとcriticネットワークの相互作⽤
Actor：⽅策を決める
Critic：アクターが決めた⽅策を評価する
深層強化学習モデル（Actor-Critic Network）
𝑑"
#
𝑠#
𝑑"
3
𝑠3
𝑑"
7
𝑠7
𝑑"
9
𝑠9
𝑑"
/
𝑠/
𝑑#
#
𝑠
#
𝑑#
3
𝑠
3
𝑑#
7
𝑠
7
𝑑#
9
𝑠
9
𝑑#
/
𝑠
/
𝑠
#
Actor ネットワーク
Encoder
Decoder
Critic ネットワーク
Convolution
x3
𝑑"
#
𝑠#
𝑑"
3
𝑠3
𝑑"
7
𝑠7
𝑑"
9
𝑠9
𝑑"
/
𝑠/
𝑑#
#
𝑠
#
𝑑#
3
𝑠
3
𝑑#
7
𝑠
7
𝑑#
9
𝑠
9
𝑑#
/
𝑠
/
RNN
x2
TD error= 𝒓 𝒕 + 𝜸 ∗ (𝑽 𝒔 𝒕K𝟏 − 𝑽 𝒔 𝒕 )
𝑑"
#
𝑠/
𝑑"
3
𝑠3
𝑑"
7
𝑠9
𝑑"
9
𝑠O
𝑑"
/
𝑠3
𝑽
𝑷
重み更新⽤
誤差関数：𝒍𝒐𝒈𝑷×TD error

𝑎" = 𝑎" 𝑥"
W
, ℎ" = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑢")
𝑢"
W
= 𝑣`
a
tanh 𝑊`[𝑥"
W
; ℎ"]
𝑐" = h 𝑎"
W
𝑥"
W
i
jk#
P(𝑦"K# 𝑌", 𝑋" = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( 𝑢"
W
)
𝑢"
W
= 𝑣p
a
tanh 𝑊p[𝑥"
W
; 𝑐"]
埋め込み⼊⼒𝑥"
W
=(𝑠
W
, 𝑑"
W
)をiとし, ℎ"はデコーダの状態で整数ベクトル𝑎"の計算に使う
𝑢"
W
はtanℎをとった⽂脈ベクトルと埋め込み⼊⼒に重み付けしたもの
𝑃(𝑦"K# 𝑌", 𝑋" は𝑢"
W
のソフトマックス
Attention mechanismとは

顧客ノードに対する解決時間の⽐較を⽰す
提案するモデルはノードの増加に対して時間スケールしない.
実験結果：VRPを従来モデルと⽐較
VRP10 VRP20 VRP50 VRP100
RL-Greedy 0.049 0.0525 0.0312 0.0321
RL-BS(5) 0.061 0.0675 0.0416 0.039
RL-BS(10) 0.072 0.081 0.0464 0.0445
CW-Greedy 0.002 0.0055 0.0104 0.0186
CW-Rnd(5,5) 0.016 0.0265 0.0434 0.0735
CW-
Rnd(10,10)
0.079 0.128 0.1806 0.3171
SW-Basic 0.001 0.003 0.0192 0.1341
SW-Rnd(5) 0.004 0.0145 0.0944 0.632
SW-Rnd(10) 0.008 0.031 0.1976 1.2443
OR-Tools 0.004 0.005 0.0106 0.0231
Optimal 0.029 51.4 - -
RL-SD-Greedy
0.059 0.0535 0.0352 0.031
RL-SD-BS(5) 0.063 0.0725 0.0452 0.0401
RL-SD-BS(10) 0.074 0.0775 0.05 0.0477
Time/ #of customer nodes

現在は⾞両がデポ(⾞両基地)にいるが,第１の⾏動を
どの顧客ノードを選択するかを確率分布で⽰す
提案モデルの実⾏例
Point 0
Point 2
Point 9
4
1
デポ
顧客ノード
x
y

本論⽂の⼿法で訓練されたモデルは, 新しい問題ごとに再訓練の必要がなく
最適化することができる
提案する⼿法は従来の⼿法に⽐べ顧客ノードの増加に対応し,
最適解を発⾒する時間において優れたパフォーマンスを発揮する
まとめ

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem

More Related Content

What's hot (20)

Similar to 【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem  (11)

More from Tomoyuki Hioki (18)

Recently uploaded (10)