機械学習　論文輪読会 Hybrid Reward Architecture for Reinforcement Learning

機械学習論文輪読会
Hybrid Reward Architecture for
Reinforcement Learning
Ishizaki Yuko
2018/1/8

Hybrid Reward Architecture for
Reinforcement Learning
NIPS 2017 Accepted Paper
http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for-
reinforcement-learning.pdf
パックマンを攻略した論文 2017年6月にarXive.orgに掲載
MicrosoftのチームMaluuba
ミズ.パックマンでフルスコアの99万9990点を記録した

Topic
1. 強化学習とは
2. DQNとは
3. HRAとは
4. 実験１フルーツゲーム
5. 実験２パックマン

強化学習
エージェント：プレーヤー
状態：エージェントの置かれている状態 𝑆 = { 𝑠1, 𝑠2, 𝑠3, … }
行動：エージェントが行う行動 𝐴 = { 𝑎1, 𝑎2, 𝑎3, … }
報酬：環境から得られる報酬 𝑟𝑡 = 𝑅 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1
状態遷移確率：ある状態𝑠𝑡である行動𝑎 𝑡を起こて、ある状態𝑠𝑡+1になる確率
𝑃 𝑠𝑡+1 | 𝑠𝑡, 𝑎 𝑡
方針：エージェントがとある状態でどんな行動を行うか
𝜋: 𝑆 × 𝐴 → [0, 1]

強化学習の目的
各ステップごとに状態𝑠と行動𝑎と報酬𝑟を観測し、
累積報酬𝐺𝑡を最大にする方針𝜋∗を見つけること
𝐺𝑡: =
𝑖=0
∞
𝛾 𝑖 𝑟𝑡+𝑖
𝛾 ∈ [0,1]は時間割引率
1秒後の報酬+100の方が10秒後の報酬+100よりも高い報酬とみなす

マルコフ決定過程
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 モデル化したものをマルコフ決定過程(MDP)という
次の状態（の確率）が現在の状態のみで決まる
𝜋: 𝑆 × 𝐴 → [0, 1]
→ 過去は関係ない
→ 状態は全て把握できている

行動価値関数
ある状態である行動を行うことの価値を表す関数
→ 価値とは報酬をもとにした、仮想的な値
𝑄 𝜋
𝑠, 𝑎 = 𝔼 𝐺𝑡 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
𝑠という状態で𝑎という行動をとった場合の価値は、方針𝜋で得られる
累積報酬の期待値で表される。

最適行動価値関数
強化学習の目的は累積報酬が最大になる方針𝜋∗を見つけること
→ 𝜋∗では報酬が最大になるように行動する
→ 価値関数の値が最大になるように行動する
𝑄∗ 𝑠, 𝑎 ≔ max
𝜋
𝑄 𝜋 𝑠, 𝑎
𝑄∗
𝑠, 𝑎 ≔ 𝔼 𝑟 + 𝛾 max
𝑎′
𝑄∗
(𝑠′
, 𝑎′
)

Q-Learning
最適行動価値関数を見つけるために行動価値関数を更新
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾 max𝔼
𝑎′
𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎
(𝛼 ∈ 0,1 ∶ 学習率)
ある行動価値が一つ前の行動価値に伝播していく

DQN (Deep Q-Network)
𝑄 𝑠, 𝑎 を、とあるパラメータθを使った近似関数 𝑄 𝑠, 𝑎; θ で表現
→ パラメータθをディープラーニングで求める
損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]

HRA ( Hybrid Reward Architecture for RL )
DQNは複雑なゲームだと、学習が遅くて安定しない
→ 近似関数をもっと簡単にできないか？
報酬関数が分けられるときは分けて、それぞれ行動価値関数を学
習させれば、学習が容易にならないか？
𝑅(𝑠, 𝑎, 𝑠′
) =
𝑘=1
𝑛
𝑅 𝑘(𝑠, 𝑎, 𝑠′
)

イメージ
エージェント報酬１報酬２
+10
+10 +0
+0
+0
+0
+0+0 +10
+0
+0
+0
+0
+0+0
+10 +0
+0
+0
+0
+0+0
+0
+0
𝑅(𝑠, 𝑎, 𝑠′
) 𝑅1(𝑠, 𝑎, 𝑠′
) 𝑅2(𝑠, 𝑎, 𝑠′
)= +

行動価値関数 (HRAバージョン)
𝑄 𝜋 𝑠, 𝑎 = 𝔼
𝑖=0
∞
𝛾 𝑖 𝑅(𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1) | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
= 𝔼
𝑖=0
∞
𝛾 𝑖
𝑘=1
𝑛
𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝔼
𝑖=0
∞
𝛾 𝑖 𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝑄 𝑘
𝜋
𝑠, 𝑎 ∶= 𝑄 𝐻𝑅𝐴
𝜋
𝑠, 𝑎

近似関数の損失関数 (HRAバージョン)
DQN損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]

ネットワークのイメージ
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
𝜃は1つで、各𝑄 𝑘重みを結合したもの
→ 多数決＋重みによって最終的な行動を𝑄 𝐻𝑅𝐴が決める

問題固有の知識を活用
• 無関係な特徴量を削除する
→ 報酬１に対応する 𝑄1 𝑠, 𝑎 にとって、報酬２の情報は不要
• 最終状態を認識させる
→ 報酬１に対応する 𝑄1 𝑠, 𝑎 は、報酬１を得たら終了
• 擬似報酬を利用する
→ 報酬が得られる可能性のある場所に擬似的な報酬を設定する

実験１フルーツゲーム
ルール
• エージェントは10×10のマスを移動して
フルーツを食べる
• 10箇所にフルーツが置かれる可能性があり
実際におかれているのは5箇所
• １ゲームごとにフルーツの場所は変わる
• エージェントの開始位置はランダム
• フルーツを５個食べ終えたら終了、
もしくは300ステップを超えたら終了。

パターン
HRAではフルーツがおかれる可能性のある場所ごとに𝑅 𝑘 𝑠, 𝑎, 𝑠′ と
𝑄 𝑘 𝑠, 𝑎 設定する。フルーツに１ポイントの報酬。
比較対象のDQNではただ単にフルーツに１ポイントの報酬
問題固有の知識を導入
• HRA+1 各𝑄 𝑘に対応するフルーツの位置だけ
• HRA+2 各𝑄 𝑘に対応するフルーツが食べられない状態では学習しない
• HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬
• DQN+1 HAR+1と同じネットワークを利用

フルーツゲームの結果
HRAの場合、問題固有の知識を有効に活用することができる

実験２パックマン
• ペレットを食べるとポイントがもらえる
• ゴーストに触れると死ぬ
• スペシャルパワーペレットを食べると
ゴーストが青くなってゴーストを食べれ
てポイントがもらえる
• 全てのペレットを食べると次のレベルに
いける
• レベルごとにフルーツが２個食べれる。
フルーツは７種類あってポイントがそれ
ぞれ違う
• ４種類のエリアがある

HRA表現
状態 : ネットワークのinput部分
• エリアを160×160で表現
• ゴースト4体それぞれの位置
• 青ゴースト4体それぞれの位置
• パックマンの位置
• フルーツの位置
• ペレットの位置

HRA表現
行動：ネットワークのoutput layer (headごと)のnodes
→ パックマンの上下左右で４つ
報酬：それぞれ𝑅 𝑘 𝑠, 𝑎, 𝑠′ と𝑄 𝑘 𝑠, 𝑎 設定する
• ペレット → ゲーム内でのポイント
• ゴースト → -1000ポイント
• 青ゴースト → ゲーム内でのポイント
• フルーツ → ゲーム内でのポイント

工夫
• 各𝑄 𝑘 𝑠, 𝑎 を合算するとき、正規化する
• エリア内の特定の場所へ移動するための擬似報酬を設定する
• 探索用の𝑄 𝑘 𝑠, 𝑎 を２つ追加
→ １つめは一様分布のランダムな値[0,20]
→ ２つめは𝑠とaが今までにないパターンの場合にボーナスを与える

報酬を分割することで、問題固有の知識を活用でき、学習を容易
にすることが可能
結論

機械学習　論文輪読会 Hybrid Reward Architecture for Reinforcement Learning

More Related Content

Similar to 機械学習　論文輪読会 Hybrid Reward Architecture for Reinforcement Learning (20)

Recently uploaded (8)