SlideShare a Scribd company logo
6
Most read
8
Most read
9
Most read
Deep Reinforcement Learning for Solving the
Vehicle Routing Problem
Mohammadreza Nazari, Afshin Oroojlooy, Lawrence V. Snyder, Martin Taka ́cˇ
arXiv:1802.04240v1 [cs.AI] 12 Feb 2018
⾞両配送問題(VRP)は組合せ最適化問題であり,何⼗年に渡り
応⽤数学やコンピュータサイエンスの分野で研究が⾏われてきた
従来の⼿法では,”正確な最適解が出ない”ことや”計算に時間がかかる”
ことなど課題がある
背景
本論⽂では,与えられた分布を⼀度学習し,分布に対応した全ての問題を
最適化する深層強化学習⼿法を提案する
また,従来の⼿法と⽐較して計算が早く,複雑な条件のVRPにおいても
優れた最適解を求める
⽬的
VRPとは与えられたノード(顧客)とデポ(⾞両基地)を含む
⾞両配送ルートを最適化することである
Vehicle Routing Problem (VRP)とは
Route1Route1
𝑑"
#
= [a: 5]
𝑠#
= [x1, y1]
𝑑"
/
= [b: 6]
𝑠/
= [x2, y2]
𝑑"
3
= [c: 4]
𝑠3
= [x3, y3]
𝑑"
7
= [d: 2]
𝑠7
= [x4, y4]
𝑑"
9
= [e: 3]
𝑠9
= [x5, y5]
例 VRP15
各⾞両k(k=1,…m)はデポを出発し, デポに帰還する
𝐷 𝜎 :全ルートの距離の総和
𝜎=
:各⾞両kの客の訪問順序
Q 𝜎 :容量超過量の総和
T 𝜎 :各客のサービス時刻に対するペナルティの総和
Cost 𝝈 = 𝑫 𝝈 + T 𝝈 + 𝜶Q 𝝈
𝛼は, 容量制約違反のペナルティに対する重み係数である
⽬的関数
時系列データを扱うRNNは計算に時間がかかるので
RNN層を取り除いて埋め込み層に変更
従来モデルの改善
従来モデル 提案モデル
Actor-Criticは,Actorとcriticネットワークの相互作⽤
Actor:⽅策を決める
Critic:アクターが決めた⽅策を評価する
深層強化学習モデル(Actor-Critic Network)
𝑑"
#
𝑠#
𝑑"
3
𝑠3
𝑑"
7
𝑠7
𝑑"
9
𝑠9
𝑑"
/
𝑠/
𝑑#
#
𝑠
#
𝑑#
3
𝑠
3
𝑑#
7
𝑠
7
𝑑#
9
𝑠
9
𝑑#
/
𝑠
/
𝑠
#
Actor ネットワーク
Encoder
Decoder
Critic ネットワーク
Convolution
x3
𝑑"
#
𝑠#
𝑑"
3
𝑠3
𝑑"
7
𝑠7
𝑑"
9
𝑠9
𝑑"
/
𝑠/
𝑑#
#
𝑠
#
𝑑#
3
𝑠
3
𝑑#
7
𝑠
7
𝑑#
9
𝑠
9
𝑑#
/
𝑠
/
RNN
x2
TD error= 𝒓 𝒕 + 𝜸 ∗ (𝑽 𝒔 𝒕K𝟏	 − 𝑽 𝒔 𝒕 )
𝑑"
#
𝑠/
𝑑"
3
𝑠3
𝑑"
7
𝑠9
𝑑"
9
𝑠O
𝑑"
/
𝑠3
𝑽
𝑷
重み更新⽤
誤差関数:𝒍𝒐𝒈𝑷×TD error
𝑎" = 𝑎" 𝑥"
W
, ℎ" = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥(𝑢")
𝑢"
W
= 𝑣`
a
tanh	 𝑊`[𝑥"
W
; ℎ"]
𝑐" = h 𝑎"
W
𝑥"
W
i
jk#
P(𝑦"K# 𝑌", 𝑋" = 𝑠𝑜𝑓𝑡𝑚𝑎𝑥( 𝑢"
W
)
𝑢"
W
= 𝑣p
a
tanh	 𝑊p[𝑥"
W
; 𝑐"]
埋め込み⼊⼒𝑥"
W
=(𝑠
W
, 𝑑"
W
)をiとし, ℎ"はデコーダの状態で整数ベクトル𝑎"の計算に使う
𝑢"
W
はtanℎをとった⽂脈ベクトルと埋め込み⼊⼒に重み付けしたもの
𝑃(𝑦"K# 𝑌", 𝑋" は𝑢"
W
のソフトマックス
Attention mechanismとは
顧客ノードに対する解決時間の⽐較を⽰す
提案するモデルはノードの増加に対して時間スケールしない.
実験結果:VRPを従来モデルと⽐較
VRP10 VRP20 VRP50 VRP100
RL-Greedy 0.049 0.0525 0.0312 0.0321
RL-BS(5) 0.061 0.0675 0.0416 0.039
RL-BS(10) 0.072 0.081 0.0464 0.0445
CW-Greedy 0.002 0.0055 0.0104 0.0186
CW-Rnd(5,5) 0.016 0.0265 0.0434 0.0735
CW-
Rnd(10,10)
0.079 0.128 0.1806 0.3171
SW-Basic 0.001 0.003 0.0192 0.1341
SW-Rnd(5) 0.004 0.0145 0.0944 0.632
SW-Rnd(10) 0.008 0.031 0.1976 1.2443
OR-Tools 0.004 0.005 0.0106 0.0231
Optimal 0.029 51.4 - -
RL-SD-Greedy
0.059 0.0535 0.0352 0.031
RL-SD-BS(5) 0.063 0.0725 0.0452 0.0401
RL-SD-BS(10) 0.074 0.0775 0.05 0.0477
Time/ #of customer nodes
現在は⾞両がデポ(⾞両基地)にいるが,第1の⾏動を
どの顧客ノードを選択するかを確率分布で⽰す
提案モデルの実⾏例
Point 0
Point 2
Point 9
4
1
デポ
顧客ノード
x
y
本論⽂の⼿法で訓練されたモデルは, 新しい問題ごとに再訓練の必要がなく
最適化することができる
提案する⼿法は従来の⼿法に⽐べ顧客ノードの増加に対応し,
最適解を発⾒する時間において優れたパフォーマンスを発揮する
まとめ

More Related Content

PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
PDF
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
 
PPTX
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
 
PDF
データに内在する構造をみるための埋め込み手法
Tatsuya Shirakawa
 
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
PPTX
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
PDF
【メタサーベイ】Video Transformer
cvpaper. challenge
 
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
 
【DL輪読会】マルチエージェント強化学習における近年の 協調的方策学習アルゴリズムの発展
Deep Learning JP
 
Maximum Entropy IRL(最大エントロピー逆強化学習)とその発展系について
Yusuke Nakata
 
データに内在する構造をみるための埋め込み手法
Tatsuya Shirakawa
 
方策勾配型強化学習の基礎と応用
Ryo Iwaki
 
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP
 
【メタサーベイ】Video Transformer
cvpaper. challenge
 

What's hot (20)

PDF
最適化超入門
Takami Sato
 
PDF
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
PDF
ブラックボックス最適化とその応用
gree_tech
 
PDF
Automatic Mixed Precision の紹介
Kuninobu SaSaki
 
PPTX
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
 
PDF
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
Deep Learning JP
 
PPTX
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
PDF
道具としての機械学習:直感的概要とその実際
Ichigaku Takigawa
 
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
PDF
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
 
PDF
TensorFlowで逆強化学習
Mitsuhisa Ohta
 
PPTX
強化学習 DQNからPPOまで
harmonylab
 
PDF
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
 
PDF
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
 
PDF
多様な強化学習の概念と課題認識
佑 甲野
 
PPTX
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
 
PDF
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
PDF
正準相関分析
Akisato Kimura
 
PDF
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
最適化超入門
Takami Sato
 
グラフィカルモデル入門
Kawamoto_Kazuhiko
 
ブラックボックス最適化とその応用
gree_tech
 
Automatic Mixed Precision の紹介
Kuninobu SaSaki
 
[DL輪読会]Meta Reinforcement Learning
Deep Learning JP
 
[DL輪読会]"Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,0...
Deep Learning JP
 
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
道具としての機械学習:直感的概要とその実際
Ichigaku Takigawa
 
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
 
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
大規模な組合せ最適化問題に対する発見的解法
Shunji Umetani
 
TensorFlowで逆強化学習
Mitsuhisa Ohta
 
強化学習 DQNからPPOまで
harmonylab
 
機会学習ハッカソン:ランダムフォレスト
Teppei Baba
 
最近のディープラーニングのトレンド紹介_20200925
小川 雄太郎
 
多様な強化学習の概念と課題認識
佑 甲野
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
Takuji Tahara
 
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
正準相関分析
Akisato Kimura
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
Preferred Networks
 
Ad

Similar to 【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem
 (11)

PPTX
配送最適化
春 根上
 
PDF
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
 
PDF
Deeplearning lt.pdf
Deep Learning JP
 
PPTX
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
harmonylab
 
PPTX
Reinforcement Learning For Taxi Rebalancing
Takuma Oda
 
PPTX
ogawa_b
harmonylab
 
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
 
PPTX
確率ロボティクス第七回
Ryuichi Ueda
 
PPTX
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
PPTX
確率ロボティクス第八回
Ryuichi Ueda
 
PDF
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
 
配送最適化
春 根上
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
MILab
 
Deeplearning lt.pdf
Deep Learning JP
 
深層強化学習による自動運転車両の追い越し行動の実現に関する研究
harmonylab
 
Reinforcement Learning For Taxi Rebalancing
Takuma Oda
 
ogawa_b
harmonylab
 
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP
 
確率ロボティクス第七回
Ryuichi Ueda
 
Efficient Deep Reinforcement Learning with Imitative Expert Priors for Autono...
harmonylab
 
確率ロボティクス第八回
Ryuichi Ueda
 
強化学習の実適用に向けた課題と工夫
Masahiro Yasumoto
 
Ad

More from Tomoyuki Hioki (18)

PDF
Analysis of cancer by structural equation
Tomoyuki Hioki
 
PDF
Analysis of cancer and health in each prefecture
Tomoyuki Hioki
 
PDF
Marketing Strategy by American Express
Tomoyuki Hioki
 
PDF
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
Tomoyuki Hioki
 
PDF
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
PDF
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
PDF
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
 
PPTX
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Tomoyuki Hioki
 
PDF
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
Tomoyuki Hioki
 
PDF
【論文紹介】Seq2Seq (NIPS 2014)
Tomoyuki Hioki
 
PDF
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
 
PDF
Prml1.2.5~1.2.6
Tomoyuki Hioki
 
PDF
Prml1.2.4
Tomoyuki Hioki
 
PDF
Prml1.2.3
Tomoyuki Hioki
 
PDF
Prml1.2.1~1.2.2
Tomoyuki Hioki
 
PPTX
PRML1.1
Tomoyuki Hioki
 
PPTX
PRML1.2
Tomoyuki Hioki
 
PDF
PRML1.1
Tomoyuki Hioki
 
Analysis of cancer by structural equation
Tomoyuki Hioki
 
Analysis of cancer and health in each prefecture
Tomoyuki Hioki
 
Marketing Strategy by American Express
Tomoyuki Hioki
 
製品改良と満足度との関係:多属性モデルに基づくシミュレーション
Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
Power energy system optimization research by reinforcement learning extended ...
Tomoyuki Hioki
 
【論文紹介】Understanding Back-Translation at Scale
Tomoyuki Hioki
 
Smart Grid Optimization by Deep Reinforcement Learning over Discrete and Cont...
Tomoyuki Hioki
 
【論文紹介】Deep Mimic: Example-Guided Deep Reinforcement Learning of Physics-Based...
Tomoyuki Hioki
 
【論文紹介】Seq2Seq (NIPS 2014)
Tomoyuki Hioki
 
[論文紹介] LSTM (LONG SHORT-TERM MEMORY)
Tomoyuki Hioki
 
Prml1.2.5~1.2.6
Tomoyuki Hioki
 
Prml1.2.4
Tomoyuki Hioki
 
Prml1.2.3
Tomoyuki Hioki
 
Prml1.2.1~1.2.2
Tomoyuki Hioki
 

Recently uploaded (10)

PPTX
BEIS ORIENTATION FOR S.Y2024 - 2025.pptx
AsmiraCo2
 
PPTX
【Qlik 医療データ活用勉強会】第50回 日本医療マネジメント学会参加報告、DPCデータの活用等
QlikPresalesJapan
 
PDF
ダイヤモンドスラリー市場規模の成長見通し:2031年には193百万米ドルに到達へ
yhresearch
 
PDF
RV車市場、CAGR2.60%で成長し、2031年には37640百万米ドル規模に
yhresearch
 
PDF
世界mPOSデバイス市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
yhresearch
 
PPTX
PRESENTASI IZIN OPERASIONAL SMK ISLAM KARYA MANDIRI
BAHRULALAM27
 
PDF
セットトップボックス市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
 
PPTX
20250729_TechTalk_QlikTalendCloud_データ品質とデータガバナンス
QlikPresalesJapan
 
PDF
埋め込み型ドラッグデリバリーデバイスの成長予測:2031年には751百万米ドルに到達へ
2418867459
 
PDF
工業用ミストシステム調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
 
BEIS ORIENTATION FOR S.Y2024 - 2025.pptx
AsmiraCo2
 
【Qlik 医療データ活用勉強会】第50回 日本医療マネジメント学会参加報告、DPCデータの活用等
QlikPresalesJapan
 
ダイヤモンドスラリー市場規模の成長見通し:2031年には193百万米ドルに到達へ
yhresearch
 
RV車市場、CAGR2.60%で成長し、2031年には37640百万米ドル規模に
yhresearch
 
世界mPOSデバイス市場のサプライチェーン解析:上流、下流、収益モデル分析2025-2031
yhresearch
 
PRESENTASI IZIN OPERASIONAL SMK ISLAM KARYA MANDIRI
BAHRULALAM27
 
セットトップボックス市場:世界の産業現状、競合分析、シェア、規模、動向2025-2031年の予測
snow326214
 
20250729_TechTalk_QlikTalendCloud_データ品質とデータガバナンス
QlikPresalesJapan
 
埋め込み型ドラッグデリバリーデバイスの成長予測:2031年には751百万米ドルに到達へ
2418867459
 
工業用ミストシステム調査レポート:市場規模、シェア、産業分析データ、最新動向2025-2031 YH Research
2418867459
 

【論文紹介】Deep Reinforcement Learning for Solving the Vehicle Routing Problem