Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
A Learning-based Iterative Method
for Solving Vehicle Routing Problems
M2 大江弘峻
2021年6月3日(木)
北海道大学 大学院情報科学研究院
情報理工学部門 複合情報工学分野 調和系工学研究室
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
著者
• Hao Lu1, Xingwen Zhang2, Shuang Yang2
– 1Princeton University
– 2Ant Financial Services Group
学会
• International Conference on Learning Representations (ICLR)
2020
リンク
• ICLR: A Learning-based Iterative Method for Solving Vehicle
Routing Problems
実装 (著者)
• rlopt/l2i
論文情報 1
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
扱う問題
• 組み合わせ最適化問題 (Combinatorial Optimization)
– 容量付き車両配送計画問題 (CVRP)
動機
• 古典的OR手法(LKH3等)の現状
– 問題サイズに対してスケールしない
• MLベースの手法の性質 / 現状
– 一度学習すると高速に解が求まる
– OR手法との性能差がまだ大きい
• 上記より、ML手法の性能向上を目指す
手法
• 提案手法:Learn to Improve (L2I)
– OR手法とMLを組み合わせた手法
結果
• 容量付き車両配送問題(CVRP)にてsota達成
概要 2
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
3
CVRPについて
目的
• 全顧客の需要を満たすコスト最小となるルートを見つける
変数
• 需要𝑑𝑖を持つ顧客𝑖と積載上限𝐶を持つ車両𝐾台
• 各地点(デポを含む)に対する距離は𝑐𝑖,𝑗
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
4
CVRPの定式化
必ずデポから出発してデポに戻る
必ず顧客には1回だけ立ち寄る
積載上限を超えないための制約
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• Vinyals et al. (2015)
– 初めてTSPに対して教師有り学習モデルを提案(Pointer
Networksを使用)
• Bello et al. (2016)
– RLを使ったPointer Networksを提案
• Nazari et al. (2018)
– Pointer Networksの改良とVRPへの拡張
--- ここまでの手法の出力はすべて直接的な解 ---
• Chen & Tian (2019)
– 領域採取ポリシーとルール採取ポリシーを定義し、
ヒューリスティックを選択させ、解を改善する手法を提案
先行研究 5
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
近似解の求め方のイメージ 6
初期解
集中化(改善操作)
多様化(摂動操作)
集中化(改善操作)
集中化と多様化を組み合わせる
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 解の探索操作をRLとルールベースの手法で選択する
• 解の改善 or 解の摂動を継続的に行う
– 各コントローラが摂動操作/改善操作を選択
Learn to Improve (L2I) 7
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
8
L2Iで使用するコントローラ
• メタコントローラ (ルールベース)
– 解の改善 or 解の摂動を選択する
– 解の改善がLステップ見られない場合に摂動を選択
• 摂動コントローラ (ルールベース)
– ランダムで摂動操作を選択する
• 改善コントローラ (RLベース)
– 局所解の改善操作の候補を選択する
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• RLは長期的影響を捉えるのが難しいため、
ルールベースを採用
• メタコントローラより、
局所最適領域に到達した際に選択される
• ランダムで摂動操作を選択
• 摂動操作
– Random permute
– Random exchange(2)
– Cyclic exchange
摂動コントローラ 9
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• Random-permute
– ランダムにm個のルートを崩し、適当な順序で組み直す
• Random-exchange(2)
– ランダムに2ルート間の近傍顧客ペアを入れ替える
• Cyclic-exchange
– 循環的に複数ルート間の顧客を入れ替える
摂動操作一覧 10
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
11
改善コントローラ
• RLベースのモデル
• 改善コントローラは以下の初期解からスタート
– ランダムな初期実行可能解(学習の初期)
– 摂動操作より生成された初期実行可能解
• 改善コントローラの概要
– 状態空間:インスタンス情報、現在の解、実行履歴
– 行動空間:改善操作の候補
– 報酬:解の改善度合い
– RLアルゴリズム:REINFORCE
– アーキテクチャ:Attention
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
12
改善コントローラ – 状態空間
• 状態空間は以下の特徴量を含む
– 問題インスタンス情報
– 現在の解の情報
– 実行履歴
• ℎステップ前の行動 𝑎𝑡−ℎ とℎステップ前の効果 𝑒𝑡−ℎ
• 効果 𝑒𝑡−ℎ の定義
– 行動 𝑎𝑡−ℎ で移動距離が改善された場合+1
– それ以外−1
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
13
改善コントローラ – 行動空間
• 行動は改善操作の選択 (表:改善操作の種類)
• 行動は以下の2クラスに分類可能
1. intra-routeオペレータ
• 個別ルート内で移動距離を削減
2. inter-routeオペレータ
• 顧客を別ルートへ移動させることで移動距離を削減
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• RLアルゴリズム
– REINFORCEを使用
• アーキテクチャ
– Attentionを使用
• input unit size:64
• output unit size:64
• Attention head:8
• 層数:1
改善コントローラ – 方策ネットワーク 14
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• 事前実験を行い、満足のいくものを2つを使用
– RF1: 改善操作が解を改善すれば+1、それ以外は-1
– RF2: 一番最初の改善試行の結果をベースラインとした差分
• 報酬に関する気づき
– 試行が進むと距離削減の見込みが減っていく
– 初期の改善操作に大きな報酬を与えるのは不公平
• 理想的な報酬を実現するための処理 (未実装)
– 同じ改善試行内の操作は同じくらいの報酬を与える
– 報酬の割引を行わない(γ=1)
改善コントローラ – 報酬設計 15
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
CVRPの設定
• 顧客数:20, 50, 100 (デポの数は1)
• 車両の容量:20, 30, 40 (上の顧客数に対応)
• 顧客とデポの位置は[0, 1]の一様分布より生成
L2Iのパラメータ
• L=6ステップで解の改善が見られなかった場合は摂動を実行
• T=40000ステップ学習
– その中で最も良かった解を選択
• ランダムに初期実行可能解を生成
• RF1、RF2のどちらを使用したのかは不明
その他
• 結果はランダムな2000試行の結果の平均
• 各クラスタでNvidia Tesla T4 1枚
実験設定 16
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• すべてのインスタンスでLKHを上回るスコアを獲得
実験結果(既存手法との比較) 17
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
18
実験結果(アンサンブル手法の分析)
• 6つの(同じ構造の)ポリシーのアンサンブルによる結果
– ポリシーの違いは入力データ(初期解)の違い
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ポリシーや学習段階によって選択される操作が異なる
• 報酬についての違い
– RF1:固定した操作のみ使用した
– RF2:全体的な操作を使用した
• Operatorの種類
– 改善と摂動+各操作のパラメータ候補を合わせて26個
実験結果(操作の分析) 19
Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved.
• ルールベースとRLベースのコントローラを組み合わ
せたLearn to Improve(L2I)を提案
• CVRPインスタンスにてL2Iはsotaを達成
• OR手法の強みとRL手法による学習性を組み合わせの
有効性を示した
まとめ 20

More Related Content

PDF
Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Ba...
PDF
Forecasting across time series databases using recurrent neural networks on g...
PPTX
Disentangling semantics and syntax in sentence embeddings with pre trained la...
PDF
A hybrid model for building energy consumption forecasting using long short t...
PPTX
Anomaly Detection for an E-commerce Pricing System
PPTX
Tell Me What They’re Holding: Weakly Supervised Object Detection with Transfe...
PPTX
From street photos to fashion trends leveraging user provided noisy labels fo...
PDF
Deep High Resolution Representation Learning for Human Pose Estimation
Intention Nets: Psychology-Inspired User Choice Behavior Modeling for Next-Ba...
Forecasting across time series databases using recurrent neural networks on g...
Disentangling semantics and syntax in sentence embeddings with pre trained la...
A hybrid model for building energy consumption forecasting using long short t...
Anomaly Detection for an E-commerce Pricing System
Tell Me What They’re Holding: Weakly Supervised Object Detection with Transfe...
From street photos to fashion trends leveraging user provided noisy labels fo...
Deep High Resolution Representation Learning for Human Pose Estimation

What's hot (12)

PPTX
Personalized outfit recommendation with learnable anchors
PPTX
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
PPTX
メトリックラーニングを用いたバス乗客ODデータの推定に関する研究
PPTX
セマンティックセグメンテーションによる路面画像の積雪状況認識に関する基礎研究
PPTX
Learning to Incetivize Other Learning Agents
PPTX
灯油残量推定に基づく灯油配送計画の最適化に関する研究
PPTX
家庭料理における調理効率化に向けた料理レシピの構造化に関する研究
PDF
Car Overview Dec 2008
PDF
January 2021: Top Ten Cited Article in Computer Science, Engineering
PDF
Grid07 3 Gasos
PDF
Stereoscopic Display of Lung PET/CT DICOM Scans using Perspective
PDF
Je TIC au passé, présent et au futur, Journée du 23/12/2014
Personalized outfit recommendation with learnable anchors
HigherHRNet: Scale-Aware Representation Learning for Bottom-Up Human Pose Est...
メトリックラーニングを用いたバス乗客ODデータの推定に関する研究
セマンティックセグメンテーションによる路面画像の積雪状況認識に関する基礎研究
Learning to Incetivize Other Learning Agents
灯油残量推定に基づく灯油配送計画の最適化に関する研究
家庭料理における調理効率化に向けた料理レシピの構造化に関する研究
Car Overview Dec 2008
January 2021: Top Ten Cited Article in Computer Science, Engineering
Grid07 3 Gasos
Stereoscopic Display of Lung PET/CT DICOM Scans using Perspective
Je TIC au passé, présent et au futur, Journée du 23/12/2014
Ad

Similar to A Learning-based Iterative Method for Solving Vehicle Routing Problems (9)

PDF
safe and efficient off policy reinforcement learning
PDF
increasing the action gap - new operators for reinforcement learning
PPTX
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
PDF
Challenges for machine learning systems toward continuous improvement
PDF
二人零和マルコフゲームにおけるオフ方策評価
PDF
方策勾配型強化学習の基礎と応用
PDF
Deep Counterfactual Regret Minimization
PDF
Deep Learningを用いた経路予測の研究動向
PDF
Automatic selection of object recognition methods using reinforcement learning
safe and efficient off policy reinforcement learning
increasing the action gap - new operators for reinforcement learning
Efficient Lifelong Learning with A-GEM ( ICLR 2019 読み会 in 京都 20190602)
Challenges for machine learning systems toward continuous improvement
二人零和マルコフゲームにおけるオフ方策評価
方策勾配型強化学習の基礎と応用
Deep Counterfactual Regret Minimization
Deep Learningを用いた経路予測の研究動向
Automatic selection of object recognition methods using reinforcement learning
Ad

More from harmonylab (20)

PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
PDF
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
PDF
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
PPTX
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
PPTX
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
PDF
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
PDF
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
PPTX
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
PDF
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
PPTX
【DLゼミ】Generative Image Dynamics, CVPR2024
PDF
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
PDF
Generating Automatic Feedback on UI Mockups with Large Language Models
PDF
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
PPTX
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
PPTX
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
PPTX
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
PPTX
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
PPTX
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
PPTX
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
PPTX
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究
【卒業論文】深層学習によるログ異常検知モデルを用いたサイバー攻撃検知に関する研究
【卒業論文】LLMを用いたエージェントの相互作用による俳句の生成と評価に関する研究
【修士論文】帝国議会および国会議事速記録における可能表現の長期的変遷に関する研究
【修士論文】競輪における注目レース選定とLLMを用いたレース紹介記事生成に関する研究
【卒業論文】ステレオカメラによる車両制御における深層学習の適用に関する研究(A Study on Application of Deep Learning...
A Study on the Method for Generating Deformed Route Maps for Supporting Detou...
【修士論文】LLMを用いた俳句推敲と批評文生成に関する研究
【修士論文】視覚言語モデルを用いた衣服画像ペアの比較文章生成に関する研究(A Study on the Generation of Comparative...
【DLゼミ】Generative Image Dynamics, CVPR2024
From Pretraining Data to Language Models to Downstream Tasks: Tracking the Tr...
Generating Automatic Feedback on UI Mockups with Large Language Models
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone

Recently uploaded (20)

PDF
The AI Revolution in Customer Service - 2025
PDF
NewMind AI Journal Monthly Chronicles - August 2025
PDF
Early detection and classification of bone marrow changes in lumbar vertebrae...
PDF
Transform-Your-Factory-with-AI-Driven-Quality-Engineering.pdf
PDF
Streamline Vulnerability Management From Minimal Images to SBOMs
PPTX
AQUEEL MUSHTAQUE FAKIH COMPUTER CENTER .
PPTX
Blending method and technology for hydrogen.pptx
PDF
SaaS reusability assessment using machine learning techniques
PPTX
Presentation - Principles of Instructional Design.pptx
PDF
Advancing precision in air quality forecasting through machine learning integ...
PDF
Lung cancer patients survival prediction using outlier detection and optimize...
PDF
Human Computer Interaction Miterm Lesson
PDF
A symptom-driven medical diagnosis support model based on machine learning te...
PDF
Rapid Prototyping: A lecture on prototyping techniques for interface design
PPTX
How to Convert Tickets Into Sales Opportunity in Odoo 18
PDF
A hybrid framework for wild animal classification using fine-tuned DenseNet12...
PPTX
Information-Technology-in-Human-Society.pptx
PDF
Build Real-Time ML Apps with Python, Feast & NoSQL
PDF
CXOs-Are-you-still-doing-manual-DevOps-in-the-age-of-AI.pdf
PDF
giants, standing on the shoulders of - by Daniel Stenberg
The AI Revolution in Customer Service - 2025
NewMind AI Journal Monthly Chronicles - August 2025
Early detection and classification of bone marrow changes in lumbar vertebrae...
Transform-Your-Factory-with-AI-Driven-Quality-Engineering.pdf
Streamline Vulnerability Management From Minimal Images to SBOMs
AQUEEL MUSHTAQUE FAKIH COMPUTER CENTER .
Blending method and technology for hydrogen.pptx
SaaS reusability assessment using machine learning techniques
Presentation - Principles of Instructional Design.pptx
Advancing precision in air quality forecasting through machine learning integ...
Lung cancer patients survival prediction using outlier detection and optimize...
Human Computer Interaction Miterm Lesson
A symptom-driven medical diagnosis support model based on machine learning te...
Rapid Prototyping: A lecture on prototyping techniques for interface design
How to Convert Tickets Into Sales Opportunity in Odoo 18
A hybrid framework for wild animal classification using fine-tuned DenseNet12...
Information-Technology-in-Human-Society.pptx
Build Real-Time ML Apps with Python, Feast & NoSQL
CXOs-Are-you-still-doing-manual-DevOps-in-the-age-of-AI.pdf
giants, standing on the shoulders of - by Daniel Stenberg

A Learning-based Iterative Method for Solving Vehicle Routing Problems

  • 1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. A Learning-based Iterative Method for Solving Vehicle Routing Problems M2 大江弘峻 2021年6月3日(木) 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 調和系工学研究室
  • 2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 著者 • Hao Lu1, Xingwen Zhang2, Shuang Yang2 – 1Princeton University – 2Ant Financial Services Group 学会 • International Conference on Learning Representations (ICLR) 2020 リンク • ICLR: A Learning-based Iterative Method for Solving Vehicle Routing Problems 実装 (著者) • rlopt/l2i 論文情報 1
  • 3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 扱う問題 • 組み合わせ最適化問題 (Combinatorial Optimization) – 容量付き車両配送計画問題 (CVRP) 動機 • 古典的OR手法(LKH3等)の現状 – 問題サイズに対してスケールしない • MLベースの手法の性質 / 現状 – 一度学習すると高速に解が求まる – OR手法との性能差がまだ大きい • 上記より、ML手法の性能向上を目指す 手法 • 提案手法:Learn to Improve (L2I) – OR手法とMLを組み合わせた手法 結果 • 容量付き車両配送問題(CVRP)にてsota達成 概要 2
  • 4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 CVRPについて 目的 • 全顧客の需要を満たすコスト最小となるルートを見つける 変数 • 需要𝑑𝑖を持つ顧客𝑖と積載上限𝐶を持つ車両𝐾台 • 各地点(デポを含む)に対する距離は𝑐𝑖,𝑗
  • 5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 CVRPの定式化 必ずデポから出発してデポに戻る 必ず顧客には1回だけ立ち寄る 積載上限を超えないための制約
  • 6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • Vinyals et al. (2015) – 初めてTSPに対して教師有り学習モデルを提案(Pointer Networksを使用) • Bello et al. (2016) – RLを使ったPointer Networksを提案 • Nazari et al. (2018) – Pointer Networksの改良とVRPへの拡張 --- ここまでの手法の出力はすべて直接的な解 --- • Chen & Tian (2019) – 領域採取ポリシーとルール採取ポリシーを定義し、 ヒューリスティックを選択させ、解を改善する手法を提案 先行研究 5
  • 7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 近似解の求め方のイメージ 6 初期解 集中化(改善操作) 多様化(摂動操作) 集中化(改善操作) 集中化と多様化を組み合わせる
  • 8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 解の探索操作をRLとルールベースの手法で選択する • 解の改善 or 解の摂動を継続的に行う – 各コントローラが摂動操作/改善操作を選択 Learn to Improve (L2I) 7
  • 9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 L2Iで使用するコントローラ • メタコントローラ (ルールベース) – 解の改善 or 解の摂動を選択する – 解の改善がLステップ見られない場合に摂動を選択 • 摂動コントローラ (ルールベース) – ランダムで摂動操作を選択する • 改善コントローラ (RLベース) – 局所解の改善操作の候補を選択する
  • 10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • RLは長期的影響を捉えるのが難しいため、 ルールベースを採用 • メタコントローラより、 局所最適領域に到達した際に選択される • ランダムで摂動操作を選択 • 摂動操作 – Random permute – Random exchange(2) – Cyclic exchange 摂動コントローラ 9
  • 11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • Random-permute – ランダムにm個のルートを崩し、適当な順序で組み直す • Random-exchange(2) – ランダムに2ルート間の近傍顧客ペアを入れ替える • Cyclic-exchange – 循環的に複数ルート間の顧客を入れ替える 摂動操作一覧 10
  • 12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 改善コントローラ • RLベースのモデル • 改善コントローラは以下の初期解からスタート – ランダムな初期実行可能解(学習の初期) – 摂動操作より生成された初期実行可能解 • 改善コントローラの概要 – 状態空間:インスタンス情報、現在の解、実行履歴 – 行動空間:改善操作の候補 – 報酬:解の改善度合い – RLアルゴリズム:REINFORCE – アーキテクチャ:Attention
  • 13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 改善コントローラ – 状態空間 • 状態空間は以下の特徴量を含む – 問題インスタンス情報 – 現在の解の情報 – 実行履歴 • ℎステップ前の行動 𝑎𝑡−ℎ とℎステップ前の効果 𝑒𝑡−ℎ • 効果 𝑒𝑡−ℎ の定義 – 行動 𝑎𝑡−ℎ で移動距離が改善された場合+1 – それ以外−1
  • 14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 改善コントローラ – 行動空間 • 行動は改善操作の選択 (表:改善操作の種類) • 行動は以下の2クラスに分類可能 1. intra-routeオペレータ • 個別ルート内で移動距離を削減 2. inter-routeオペレータ • 顧客を別ルートへ移動させることで移動距離を削減
  • 15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • RLアルゴリズム – REINFORCEを使用 • アーキテクチャ – Attentionを使用 • input unit size:64 • output unit size:64 • Attention head:8 • 層数:1 改善コントローラ – 方策ネットワーク 14
  • 16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • 事前実験を行い、満足のいくものを2つを使用 – RF1: 改善操作が解を改善すれば+1、それ以外は-1 – RF2: 一番最初の改善試行の結果をベースラインとした差分 • 報酬に関する気づき – 試行が進むと距離削減の見込みが減っていく – 初期の改善操作に大きな報酬を与えるのは不公平 • 理想的な報酬を実現するための処理 (未実装) – 同じ改善試行内の操作は同じくらいの報酬を与える – 報酬の割引を行わない(γ=1) 改善コントローラ – 報酬設計 15
  • 17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. CVRPの設定 • 顧客数:20, 50, 100 (デポの数は1) • 車両の容量:20, 30, 40 (上の顧客数に対応) • 顧客とデポの位置は[0, 1]の一様分布より生成 L2Iのパラメータ • L=6ステップで解の改善が見られなかった場合は摂動を実行 • T=40000ステップ学習 – その中で最も良かった解を選択 • ランダムに初期実行可能解を生成 • RF1、RF2のどちらを使用したのかは不明 その他 • 結果はランダムな2000試行の結果の平均 • 各クラスタでNvidia Tesla T4 1枚 実験設定 16
  • 18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • すべてのインスタンスでLKHを上回るスコアを獲得 実験結果(既存手法との比較) 17
  • 19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験結果(アンサンブル手法の分析) • 6つの(同じ構造の)ポリシーのアンサンブルによる結果 – ポリシーの違いは入力データ(初期解)の違い
  • 20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ポリシーや学習段階によって選択される操作が異なる • 報酬についての違い – RF1:固定した操作のみ使用した – RF2:全体的な操作を使用した • Operatorの種類 – 改善と摂動+各操作のパラメータ候補を合わせて26個 実験結果(操作の分析) 19
  • 21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. • ルールベースとRLベースのコントローラを組み合わ せたLearn to Improve(L2I)を提案 • CVRPインスタンスにてL2Iはsotaを達成 • OR手法の強みとRL手法による学習性を組み合わせの 有効性を示した まとめ 20