SlideShare a Scribd company logo
DEEP LEARNING JP
[DL Papers]
Fujiki Nakamura
Playing FPS Games with Deep Reinforcement Learning
http://deeplearning.jp/
- 書誌情報
- ViZDoom と Visual Doom AI Competition
- review Deep Q-Networks
- MDP/POMDP
- POMDP における RL agent
- Arnold model
- Experiments, Results, Conclusion
- Bonus
- Learning to Act by Predicting the Future (DFP)
- UNREAL
- RL Framework “Coach”
- References
content
2
- �出� arXiv on 18 Sep 2016.
- AAAI 2017 accepted paper.
- Guillaume Lample, Devendra Singh Chaplot
- CMU �人た�.
- Visual Doom AI Competition 2016 で2位���を収めたモデル.
- チーム Terminators による Arnold という bot.
- Visual Doom AI Competition 2017 で�1位.
書誌情報
3
Visual Doom AI Competition
4
- FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン.
- ViZDoom [Kempka+ 2016] というプラットフォームが舞台.
- 参�チーム��自が��した ViZDoom bot を競い合わせる.
- 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
basic.
�対���に出�する敵を倒す.
横移動と射撃.
Defend the Center.
�����にいて,�りに出�する敵を倒す .
回転と射撃.
ViZDoom
5
コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage
health gathering.
health pack を回収しより長く生き延びる.
����により�定�期で,
また毒薬瓶に触れることで health を失う.
- 方方策策 (policy)
- 状態 s で�行動 a ��び方.π : S ↦ A
- 確率的方策 π(a|s) であることもし�し�.
- 収収益益 (Return)
- を最大化したい.
- �値によって割り引く.
- 行行動動価価値値関関数数 (Q-function)
- 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬.
Deep Q-Networks (brief review)
6
- 最最適適方方策策 π*
- 期待累積報酬を最大化する方策.
- 最最適適行行動動価価値値関関数数
- Q*(s, a) = Qπ*
(s, a) = maxπ
Qπ
(s, a)
- 最終的に,π(s) = argmaxa
Q*(s, a) として最適方策を得る.
- 最適行動価値 Q* をどうやって求めるか?
- → Bellman 最最適適方方程程式式 (Bellman optimality equation)
- 最適行動価値関数に関する再帰的な関係式.
- 行動価値関数が最適であるため��要����.
Deep Q-Networks (brief review)
7
- 最終的に,以���失関数を最適化する.
- Bellman 最適方程式���と��が�しくなることを��す.
- DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため�
工夫が施されている.
- Experience Replay
- Target Q-Network
- reward clipping
- これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13.
Deep Q-Networks (brief review)
8
Q ����
= ターゲット
- DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で�
御できる強化学習モデル.
Deep Q-Networks (brief review)
9
�行動� Q値を出力
Mnih et al., 2015
Markov Decision Process
- ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP)
- 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式.
- 完全観測 (fully observable)
- 重要な��,���こと����状態��で決まる/決められるということ.
10Reinforcement Learning: An Introduction (Second edition), Sutton et.al.
Markov Decision Process
- [参考] David Silver �生�講義スライ�.ついでに [講義動画]
11
Partially Observable MDP
- agent が環境�状態を完全に観測することができると��らない.
- 完全観測で�なくて,��観測.
- 例え�,以����な例で�,����にかかわら�チーター�状態��化していない
が,��せいで観測��化している.
12
Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 �
Supervised learning and imitation 回�スライ�から��.
Partially Observable MDP
- (例によって) [参考] David Silver �生�講義スライ�
13
st
�も�や直接�観測されない
ot
を代わり受け取る
観測�観測関数Z により決まる
POMDP ��対処
- DQN が得意とする Atari も (よくよく考えれ�) POMDP.
- 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速
���からない.
- DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対
処している.
14Hausknecht et al., 2015
- ���フレーム�差�を入力として,速��情報を得る.
- Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy
- �����モデル�,policy を直接最適化する policy gradient という手法.
- ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない)
- Pong をプレイする agent を numpy でスクラッチで書いている.
- チュートリアルとして�価が高い���ですよ�.
POMDP ��対処
15
Deep Recurrent Q-Networks
- DRQN [Hausknecht+ 2015]
- LSTM を使うことで1フレームを
入力としながらも,複数フレーム間
にまたがる情報を統合することが
できる.
- Arnold �基�となるモデル.
16
Arnold model
Game feature augmentation
- 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc)
- ゲーム�����出をさせることでパフォーマンスが��.
- → CNN � kernel が重要な情報を捉える.
17
game feature あり��合 パフォーマンスが向上
Arnold model
-
18
Arnold model
Divide and conquer
- deathmatch �敵���によって,2つ�フェー�に�けられる.
- action phase : 敵と戦う
- navigation phase : マップを探索し,アイテム・敵を探す
- action network (= DRQN + game feature) が敵���を��.
- 敵がいない or 弾薬がない → navigation network (= DQN)
- それ以外 → action network
19
Training
Reward Shaping
- コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数)
- sparse な�で学習が困難 かつ delayed な�で credit assignment も困難.
- 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化.
- action network
➕ 敵を殺す
➖ 自殺
➕ アイテムを拾う (health, weapon, ammo)
➖ health �低� (敵��撃を受ける, ���上を�く)
➖ 撃って弾薬を失う
- navigation network
➕ アイテムを拾う
➖ ���上を�く
少し➕ 最��ステップから�移動��に�じて 20
Training
Frame Skip
- 結果的に 4 frame skip するとよいことがわかった.
- skip ��同じ行動をリ�ート.学習が高速化.
Sequential updates
- 最低でも 4 history を経てから update するようにした.
21
update 数が多いと サンプル��関が高くなり,よくな
い.
Experiments
Scenarios
- deathmatch
- built-in � Doom bot と対戦.
- 最終スコア� frag数 (= 倒した bot 数 - 自殺数)
- Limited deathmatch
- 訓練とテストで同じマップ.
- 武器���ットランチ�ー��.health pack と弾薬を回収できる.
- Full deathmatch
- 訓練とテストで異なるマップ.
- 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる.
- 汎化性能をチェック.
22
Experiments
Evaluation Metrics
- 基本,K/D (倒した数 / 倒された数)
- �にも倒した数��対数,回収したアイテム数など
Results & Analysis
- デモ video
- navigation network があるとよい (Table 2)
- 武器・アイテムを回収することに貢献.
- 人間を outperform (Table 1)
- game feature �予測�あった�うがよい.
- 敵���予測���と最終スコア��関
23
- recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が
できた.
- ViZDoom AI Competition 2016 結果
- [Chaplot+ 2017]
- frag数的に�2位.
- K/D で��を�いている.
- 2017年�コン�で�1位.
Conclusion
24
Bonus
25
- IntelAct [Dosovitskiy+ 2016]
- Arnold ��敵
- 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝.
- (再掲) Visual Doom AI Competition 2016
- DL輪読会で読まれたことがある [link]
- ��に���的な RL で�なく,教師あり学習.
- health, frag, 弾薬数といった “measurements” ���における値を予測.
- supplementary video, deathmatch
- 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある.
- UNREAL [Jaderberg+ 2016] [DeepMind Blog]
- 基本的な RL で�わ�かな教師��を�りに学習している.
- よって,大��データが�要 (サンプル効率❌)
- 補助的な教師なしタスクを同時に学習させることで,問題解決.
- Arnold � game feature 予測と同じ役割.
RL Framework “Coach”
- rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース.
- OpenAI Gym, Roboschool, ViZDoom ��環境が使える.
- 最近,CARLA という自動運転シミュレータもサポート.
- agent �ライン�ップ�,DQN, PG, A3C, PPO, etc
- DFP もサポートしている�� Coach だけ!
Bonus
26Reinforcement Learning Coach by Intel より引用
Bonus
27
Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している )
自動運転にどれだけ RL が関係していく�か�,�人的に��.
References
28
- [Kempka+ 2016]
ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning
- [Mnih+ 2015]
Human-level control through deep reinforcement learning
- [Hausknecht+ 2015]
Deep Recurrent Q-Learning for Partially Observable MDPs
- [Chaplot+ 2017]
Arnold: An Autonomous Agent to Play FPS Games
- [Dosovitskiy+ 2016]
Learning to Act by Predicting the Future
- [Jaderberg+ 2016]
Reinforcement Learning with Unsupervised Auxiliary Tasks
- [Dosovitskiy+ 2017]
CARLA: An Open Urban Driving Simulator

More Related Content

PDF
[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competiti...
Deep Learning JP
 
PDF
ドメイン駆動設計 失敗したことと成功したこと
BIGLOBE Inc.
 
PPTX
backbone としての timm 入門
Takuji Tahara
 
PPTX
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
PPTX
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
PPTX
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
 
PPTX
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
 
[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competiti...
Deep Learning JP
 
ドメイン駆動設計 失敗したことと成功したこと
BIGLOBE Inc.
 
backbone としての timm 入門
Takuji Tahara
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
 
[DL輪読会] マルチエージェント強化学習と心の理論
Deep Learning JP
 
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Deep Learning JP
 
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
Deep Learning JP
 
[DL輪読会]DropBlock: A regularization method for convolutional networks
Deep Learning JP
 

What's hot (20)

PDF
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
 
PDF
異次元のグラフデータベースNeo4j
昌桓 李
 
PDF
CUDA 6の話@関西GPGPU勉強会#5
Yosuke Onoue
 
PPTX
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
PDF
Generative Models(メタサーベイ )
cvpaper. challenge
 
PPTX
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
PPTX
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
 
PDF
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
 
PPTX
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
PDF
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
Deep Learning JP
 
PDF
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
Deep Learning JP
 
PDF
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
PDF
モデルではなく、データセットを蒸留する
Takahiro Kubo
 
PDF
Google Cloud Game Servers 徹底入門 | 第 10 回 Google Cloud INSIDE Games & Apps Online
Google Cloud Platform - Japan
 
PDF
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
Yoshiro Tokumasu
 
PDF
マイクロにしすぎた結果がこれだよ!
mosa siru
 
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
 
PDF
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
 
PDF
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
NTT DATA Technology & Innovation
 
[DL輪読会]深層強化学習はなぜ難しいのか?Why Deep RL fails? A brief survey of recent works.
Deep Learning JP
 
異次元のグラフデータベースNeo4j
昌桓 李
 
CUDA 6の話@関西GPGPU勉強会#5
Yosuke Onoue
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP
 
Generative Models(メタサーベイ )
cvpaper. challenge
 
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
[DL輪読会]AutoAugment: LearningAugmentation Strategies from Data & Learning Data...
Deep Learning JP
 
[DL輪読会]Learning Task Informed Abstractions
Deep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
[DL輪読会]マルチエージェント強化学習と⼼の理論 〜Hanabiゲームにおけるベイズ推論を⽤いたマルチエージェント 強化学習⼿法〜
Deep Learning JP
 
[DL輪読会]Domain Adaptive Faster R-CNN for Object Detection in the Wild
Deep Learning JP
 
[DL輪読会]Neural Radiance Flow for 4D View Synthesis and Video Processing (NeRF...
Deep Learning JP
 
モデルではなく、データセットを蒸留する
Takahiro Kubo
 
Google Cloud Game Servers 徹底入門 | 第 10 回 Google Cloud INSIDE Games & Apps Online
Google Cloud Platform - Japan
 
JDK 16 で導入された JEP 396 にご注意!! (JJUG CCC 2021 Spring)
Yoshiro Tokumasu
 
マイクロにしすぎた結果がこれだよ!
mosa siru
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
 
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
Jun Okumura
 
[DL輪読会]DISTRIBUTIONAL POLICY GRADIENTS
Deep Learning JP
 
バイトコードって言葉をよく目にするけど一体何なんだろう?(JJUG CCC 2022 Spring 発表資料)
NTT DATA Technology & Innovation
 

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

Recently uploaded (10)

PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 

[DL Hacks 実装]Playing FPS Games with Deep Reinforcement Learning

  • 1. DEEP LEARNING JP [DL Papers] Fujiki Nakamura Playing FPS Games with Deep Reinforcement Learning http://deeplearning.jp/
  • 2. - 書誌情報 - ViZDoom と Visual Doom AI Competition - review Deep Q-Networks - MDP/POMDP - POMDP における RL agent - Arnold model - Experiments, Results, Conclusion - Bonus - Learning to Act by Predicting the Future (DFP) - UNREAL - RL Framework “Coach” - References content 2
  • 3. - �出� arXiv on 18 Sep 2016. - AAAI 2017 accepted paper. - Guillaume Lample, Devendra Singh Chaplot - CMU �人た�. - Visual Doom AI Competition 2016 で2位���を収めたモデル. - チーム Terminators による Arnold という bot. - Visual Doom AI Competition 2017 で�1位. 書誌情報 3
  • 4. Visual Doom AI Competition 4 - FPS (First Person Shooting) Game を題�にした強化学習�コン�テ�シ�ン. - ViZDoom [Kempka+ 2016] というプラットフォームが舞台. - 参�チーム��自が��した ViZDoom bot を競い合わせる. - 2016年�コン�で� Terminators チーム Arnold � full deathmatch ��� [YouTube]
  • 5. basic. �対���に出�する敵を倒す. 横移動と射撃. Defend the Center. �����にいて,�りに出�する敵を倒す . 回転と射撃. ViZDoom 5 コン�テ�シ�ン��にもいくつか�シ�リ�が用意されている cf. ViZDoom Homepage health gathering. health pack を回収しより長く生き延びる. ����により�定�期で, また毒薬瓶に触れることで health を失う.
  • 6. - 方方策策 (policy) - 状態 s で�行動 a ��び方.π : S ↦ A - 確率的方策 π(a|s) であることもし�し�. - 収収益益 (Return) - を最大化したい. - �値によって割り引く. - 行行動動価価値値関関数数 (Q-function) - 状態 s で行動 a を�び,そ��方策 π に�った�合�期待累積報酬. Deep Q-Networks (brief review) 6
  • 7. - 最最適適方方策策 π* - 期待累積報酬を最大化する方策. - 最最適適行行動動価価値値関関数数 - Q*(s, a) = Qπ* (s, a) = maxπ Qπ (s, a) - 最終的に,π(s) = argmaxa Q*(s, a) として最適方策を得る. - 最適行動価値 Q* をどうやって求めるか? - → Bellman 最最適適方方程程式式 (Bellman optimality equation) - 最適行動価値関数に関する再帰的な関係式. - 行動価値関数が最適であるため��要����. Deep Q-Networks (brief review) 7
  • 8. - 最終的に,以���失関数を最適化する. - Bellman 最適方程式���と��が�しくなることを��す. - DQN [Mnih+ 2015] �,以上�強化学習�基本的な�定に�えて,学習をうまく�めるため� 工夫が施されている. - Experience Replay - Target Q-Network - reward clipping - これら工夫があって�じめて DQN と呼ぶそう.[参考] � p.13. Deep Q-Networks (brief review) 8 Q ���� = ターゲット
  • 9. - DQN = Q-function �関数近�に CNN を使い,そ��学習上���な工夫�らした,画像で� 御できる強化学習モデル. Deep Q-Networks (brief review) 9 �行動� Q値を出力 Mnih et al., 2015
  • 10. Markov Decision Process - ママルルココフフ決決定定過過程程 (Markov Decision Process, MDP) - 環境と agent �インタラクシ�ンを�いた強化学習�問題�定�定式. - 完全観測 (fully observable) - 重要な��,���こと����状態��で決まる/決められるということ. 10Reinforcement Learning: An Introduction (Second edition), Sutton et.al.
  • 11. Markov Decision Process - [参考] David Silver �生�講義スライ�.ついでに [講義動画] 11
  • 12. Partially Observable MDP - agent が環境�状態を完全に観測することができると��らない. - 完全観測で�なくて,��観測. - 例え�,以����な例で�,����にかかわら�チーター�状態��化していない が,��せいで観測��化している. 12 Sergey Levine による講義 CS 294: Deep Reinforcement Learning, Fall 2017 � Supervised learning and imitation 回�スライ�から��.
  • 13. Partially Observable MDP - (例によって) [参考] David Silver �生�講義スライ� 13 st �も�や直接�観測されない ot を代わり受け取る 観測�観測関数Z により決まる
  • 14. POMDP ��対処 - DQN が得意とする Atari も (よくよく考えれ�) POMDP. - 以���状態1つで�,Pong や Double Dunk ��ール�速�や Frostbite ����速 ���からない. - DQN で� 4フレームを重�て�ットワークに入力するという�ューリステ�ックな方法で対 処している. 14Hausknecht et al., 2015
  • 15. - ���フレーム�差�を入力として,速��情報を得る. - Deep Reinforcement Learning: Pong from Pixels by Andrej Karpathy - �����モデル�,policy を直接最適化する policy gradient という手法. - ↔ DQN � Q値を推定する value-based な手法 (policy を��的に���しない) - Pong をプレイする agent を numpy でスクラッチで書いている. - チュートリアルとして�価が高い���ですよ�. POMDP ��対処 15
  • 16. Deep Recurrent Q-Networks - DRQN [Hausknecht+ 2015] - LSTM を使うことで1フレームを 入力としながらも,複数フレーム間 にまたがる情報を統合することが できる. - Arnold �基�となるモデル. 16
  • 17. Arnold model Game feature augmentation - 入力画像に映る物体を予測させた (enemy, health pack, weapon, ammo, etc) - ゲーム�����出をさせることでパフォーマンスが��. - → CNN � kernel が重要な情報を捉える. 17 game feature あり��合 パフォーマンスが向上
  • 19. Arnold model Divide and conquer - deathmatch �敵���によって,2つ�フェー�に�けられる. - action phase : 敵と戦う - navigation phase : マップを探索し,アイテム・敵を探す - action network (= DRQN + game feature) が敵���を��. - 敵がいない or 弾薬がない → navigation network (= DQN) - それ以外 → action network 19
  • 20. Training Reward Shaping - コン�テ�シ�ン��価�,frag数 (= 敵を殺した数 - 自殺数) - sparse な�で学習が困難 かつ delayed な�で credit assignment も困難. - 報酬関数を工夫して,小さな即時報酬を導入,学習を高速化. - action network ➕ 敵を殺す ➖ 自殺 ➕ アイテムを拾う (health, weapon, ammo) ➖ health �低� (敵��撃を受ける, ���上を�く) ➖ 撃って弾薬を失う - navigation network ➕ アイテムを拾う ➖ ���上を�く 少し➕ 最��ステップから�移動��に�じて 20
  • 21. Training Frame Skip - 結果的に 4 frame skip するとよいことがわかった. - skip ��同じ行動をリ�ート.学習が高速化. Sequential updates - 最低でも 4 history を経てから update するようにした. 21 update 数が多いと サンプル��関が高くなり,よくな い.
  • 22. Experiments Scenarios - deathmatch - built-in � Doom bot と対戦. - 最終スコア� frag数 (= 倒した bot 数 - 自殺数) - Limited deathmatch - 訓練とテストで同じマップ. - 武器���ットランチ�ー��.health pack と弾薬を回収できる. - Full deathmatch - 訓練とテストで異なるマップ. - 武器��ストルから�まる.��武器や health pack, 弾薬を回収できる. - 汎化性能をチェック. 22
  • 23. Experiments Evaluation Metrics - 基本,K/D (倒した数 / 倒された数) - �にも倒した数��対数,回収したアイテム数など Results & Analysis - デモ video - navigation network があるとよい (Table 2) - 武器・アイテムを回収することに貢献. - 人間を outperform (Table 1) - game feature �予測�あった�うがよい. - 敵���予測���と最終スコア��関 23
  • 24. - recurrence を導入して POMDP に対処した DRQN + game feature で強い ViZDoom bot が できた. - ViZDoom AI Competition 2016 結果 - [Chaplot+ 2017] - frag数的に�2位. - K/D で��を�いている. - 2017年�コン�で�1位. Conclusion 24
  • 25. Bonus 25 - IntelAct [Dosovitskiy+ 2016] - Arnold ��敵 - 2016年�コン�で2位� Arnold に圧倒的差をつけて優勝. - (再掲) Visual Doom AI Competition 2016 - DL輪読会で読まれたことがある [link] - ��に���的な RL で�なく,教師あり学習. - health, frag, 弾薬数といった “measurements” ���における値を予測. - supplementary video, deathmatch - 著者らによる実装 [GitHub] と RL フレームワーク “Coach” で�実装がある. - UNREAL [Jaderberg+ 2016] [DeepMind Blog] - 基本的な RL で�わ�かな教師��を�りに学習している. - よって,大��データが�要 (サンプル効率❌) - 補助的な教師なしタスクを同時に学習させることで,問題解決. - Arnold � game feature 予測と同じ役割.
  • 26. RL Framework “Coach” - rllab, OpenAI baselines, ChainerRL, tensorforce ��間.2017年10月にリリース. - OpenAI Gym, Roboschool, ViZDoom ��環境が使える. - 最近,CARLA という自動運転シミュレータもサポート. - agent �ライン�ップ�,DQN, PG, A3C, PPO, etc - DFP もサポートしている�� Coach だけ! Bonus 26Reinforcement Learning Coach by Intel より引用
  • 27. Bonus 27 Robotics だからといって何でも RL 使え�いい�か...? (上���プチ�で�����している ) 自動運転にどれだけ RL が関係していく�か�,�人的に��.
  • 28. References 28 - [Kempka+ 2016] ViZDoom: A Doom-based AI Research Platform for Visual Reinforcement Learning - [Mnih+ 2015] Human-level control through deep reinforcement learning - [Hausknecht+ 2015] Deep Recurrent Q-Learning for Partially Observable MDPs - [Chaplot+ 2017] Arnold: An Autonomous Agent to Play FPS Games - [Dosovitskiy+ 2016] Learning to Act by Predicting the Future - [Jaderberg+ 2016] Reinforcement Learning with Unsupervised Auxiliary Tasks - [Dosovitskiy+ 2017] CARLA: An Open Urban Driving Simulator