機械学習 論文輪読会
Hybrid Reward Architecture for
Reinforcement Learning
Ishizaki Yuko
2018/1/8
Hybrid Reward Architecture for
Reinforcement Learning
NIPS 2017 Accepted Paper
http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for-
reinforcement-learning.pdf
パックマンを攻略した論文 2017年6月にarXive.orgに掲載
MicrosoftのチームMaluuba
ミズ.パックマンでフルスコアの99万9990点を記録した
Topic
1. 強化学習とは
2. DQNとは
3. HRAとは
4. 実験1 フルーツゲーム
5. 実験2 パックマン
強化学習
エージェント:プレーヤー
状態:エージェントの置かれている状態 𝑆 = { 𝑠1, 𝑠2, 𝑠3, … }
行動:エージェントが行う行動 𝐴 = { 𝑎1, 𝑎2, 𝑎3, … }
報酬:環境から得られる報酬 𝑟𝑡 = 𝑅 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1
状態遷移確率:ある状態𝑠𝑡である行動𝑎 𝑡を起こて、ある状態𝑠𝑡+1になる確率
𝑃 𝑠𝑡+1 | 𝑠𝑡, 𝑎 𝑡
方針:エージェントがとある状態でどんな行動を行うか
𝜋: 𝑆 × 𝐴 → [0, 1]
強化学習の目的
各ステップごとに状態𝑠と行動𝑎と報酬𝑟を観測し、
累積報酬𝐺𝑡を最大にする方針𝜋∗を見つけること
𝐺𝑡: =
𝑖=0
∞
𝛾 𝑖 𝑟𝑡+𝑖
𝛾 ∈ [0,1]は時間割引率
1秒後の報酬+100の方が10秒後の報酬+100よりも高い報酬とみなす
マルコフ決定過程
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 モデル化したものをマルコフ決定過程(MDP)という
次の状態(の確率)が現在の状態のみで決まる
𝜋: 𝑆 × 𝐴 → [0, 1]
→ 過去は関係ない
→ 状態は全て把握できている
行動価値関数
ある状態である行動を行うことの価値を表す関数
→ 価値とは報酬をもとにした、仮想的な値
𝑄 𝜋
𝑠, 𝑎 = 𝔼 𝐺𝑡 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
𝑠という状態で𝑎という行動をとった場合の価値は、方針𝜋で得られる
累積報酬の期待値で表される。
最適行動価値関数
強化学習の目的は累積報酬が最大になる方針𝜋∗を見つけること
→ 𝜋∗では報酬が最大になるように行動する
→ 価値関数の値が最大になるように行動する
𝑄∗ 𝑠, 𝑎 ≔ max
𝜋
𝑄 𝜋 𝑠, 𝑎
𝑄∗
𝑠, 𝑎 ≔ 𝔼 𝑟 + 𝛾 max
𝑎′
𝑄∗
(𝑠′
, 𝑎′
)
Q-Learning
最適行動価値関数を見つけるために行動価値関数を更新
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾 max𝔼
𝑎′
𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎
(𝛼 ∈ 0,1 ∶ 学習率)
ある行動価値が一つ前の行動価値に伝播していく
DQN (Deep Q-Network)
𝑄 𝑠, 𝑎 を、とあるパラメータθを使った近似関数 𝑄 𝑠, 𝑎; θ で表現
→ パラメータθをディープラーニングで求める
損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA ( Hybrid Reward Architecture for RL )
DQNは複雑なゲームだと、学習が遅くて安定しない
→ 近似関数をもっと簡単にできないか?
報酬関数が分けられるときは分けて、それぞれ行動価値関数を学
習させれば、学習が容易にならないか?
𝑅(𝑠, 𝑎, 𝑠′
) =
𝑘=1
𝑛
𝑅 𝑘(𝑠, 𝑎, 𝑠′
)
イメージ
エージェント 報酬1 報酬2
+10
+10 +0
+0
+0
+0
+0+0 +10
+0
+0
+0
+0
+0+0
+10 +0
+0
+0
+0
+0+0
+0
+0
𝑅(𝑠, 𝑎, 𝑠′
) 𝑅1(𝑠, 𝑎, 𝑠′
) 𝑅2(𝑠, 𝑎, 𝑠′
)= +
行動価値関数 (HRAバージョン)
𝑄 𝜋 𝑠, 𝑎 = 𝔼
𝑖=0
∞
𝛾 𝑖 𝑅(𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1) | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
= 𝔼
𝑖=0
∞
𝛾 𝑖
𝑘=1
𝑛
𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝔼
𝑖=0
∞
𝛾 𝑖 𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝑄 𝑘
𝜋
𝑠, 𝑎 ∶= 𝑄 𝐻𝑅𝐴
𝜋
𝑠, 𝑎
近似関数の損失関数 (HRAバージョン)
DQN損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
ネットワークのイメージ
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
𝜃は1つで、各𝑄 𝑘重みを結合したもの
→ 多数決+重みによって最終的な行動を𝑄 𝐻𝑅𝐴が決める
問題固有の知識を活用
• 無関係な特徴量を削除する
→ 報酬1に対応する 𝑄1 𝑠, 𝑎 にとって、報酬2の情報は不要
• 最終状態を認識させる
→ 報酬1に対応する 𝑄1 𝑠, 𝑎 は、報酬1を得たら終了
• 擬似報酬を利用する
→ 報酬が得られる可能性のある場所に擬似的な報酬を設定する
実験1 フルーツゲーム
ルール
• エージェントは10×10のマスを移動して
フルーツを食べる
• 10箇所にフルーツが置かれる可能性があり
実際におかれているのは5箇所
• 1ゲームごとにフルーツの場所は変わる
• エージェントの開始位置はランダム
• フルーツを5個食べ終えたら終了、
もしくは300ステップを超えたら終了。
パターン
HRAではフルーツがおかれる可能性のある場所ごとに𝑅 𝑘 𝑠, 𝑎, 𝑠′ と
𝑄 𝑘 𝑠, 𝑎 設定する。フルーツに1ポイントの報酬。
比較対象のDQNではただ単にフルーツに1ポイントの報酬
問題固有の知識を導入
• HRA+1 各𝑄 𝑘に対応するフルーツの位置だけ
• HRA+2 各𝑄 𝑘に対応するフルーツが食べられない状態では学習しない
• HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬
• DQN+1 HAR+1と同じネットワークを利用
フルーツゲームの結果
HRAの場合、問題固有の知識を有効に活用することができる
実験2 パックマン
• ペレットを食べるとポイントがもらえる
• ゴーストに触れると死ぬ
• スペシャルパワーペレットを食べると
ゴーストが青くなってゴーストを食べれ
てポイントがもらえる
• 全てのペレットを食べると次のレベルに
いける
• レベルごとにフルーツが2個食べれる。
フルーツは7種類あってポイントがそれ
ぞれ違う
• 4種類のエリアがある
HRA表現
状態 : ネットワークのinput部分
• エリアを160×160で表現
• ゴースト4体それぞれの位置
• 青ゴースト4体それぞれの位置
• パックマンの位置
• フルーツの位置
• ペレットの位置
HRA表現
行動:ネットワークのoutput layer (headごと)のnodes
→ パックマンの上下左右で4つ
報酬:それぞれ𝑅 𝑘 𝑠, 𝑎, 𝑠′ と𝑄 𝑘 𝑠, 𝑎 設定する
• ペレット → ゲーム内でのポイント
• ゴースト → -1000ポイント
• 青ゴースト → ゲーム内でのポイント
• フルーツ → ゲーム内でのポイント
工夫
• 各𝑄 𝑘 𝑠, 𝑎 を合算するとき、正規化する
• エリア内の特定の場所へ移動するための擬似報酬を設定する
• 探索用の𝑄 𝑘 𝑠, 𝑎 を2つ追加
→ 1つめは一様分布のランダムな値[0,20]
→ 2つめは𝑠とaが今までにないパターンの場合にボーナスを与える
結果
報酬を分割することで、問題固有の知識を活用でき、学習を容易
にすることが可能
結論

More Related Content

PPTX
ナップサックDPを説明してみた
PDF
Kerasを用いた3次元検索エンジン@TFUG
PPTX
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
PDF
20180830 implement dqn_platinum_data_meetup_vol1
PPTX
全脳アーキテクチャ若手の会 強化学習
PPTX
1017 論文紹介第四回
PDF
実機で動かす深層強化学習(画像なし)
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
ナップサックDPを説明してみた
Kerasを用いた3次元検索エンジン@TFUG
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning
20180830 implement dqn_platinum_data_meetup_vol1
全脳アーキテクチャ若手の会 強化学習
1017 論文紹介第四回
実機で動かす深層強化学習(画像なし)
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み

Similar to 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning (20)

PDF
強化学習の実適用に向けた課題と工夫
PPTX
DeepLoco
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
DOCX
レポート深層学習Day4
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PPTX
Feature engineering for predictive modeling using reinforcement learning
PDF
[Dl輪読会]introduction of reinforcement learning
PDF
「これからの強化学習」勉強会#1
PPTX
強化学習 DQNからPPOまで
PDF
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
PDF
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
PPTX
Reinforcement Learning For Taxi Rebalancing
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
PPTX
Batch Reinforcement Learning
PDF
論文紹介:”Playing hard exploration games by watching YouTube“
PPTX
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
強化学習の実適用に向けた課題と工夫
DeepLoco
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
レポート深層学習Day4
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
Feature engineering for predictive modeling using reinforcement learning
[Dl輪読会]introduction of reinforcement learning
「これからの強化学習」勉強会#1
強化学習 DQNからPPOまで
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α
Reinforcement Learning For Taxi Rebalancing
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
強化学習とは (MIJS 分科会資料 2016/10/11)
Batch Reinforcement Learning
論文紹介:”Playing hard exploration games by watching YouTube“
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Ad

Recently uploaded (8)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Vibe Codingを触って感じた現実について.pptx .
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
Ad

機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning