More Related Content
[DL輪読会]Hybrid Reward Architecture for Reinforcement Learning 20180830 implement dqn_platinum_data_meetup_vol1 分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み Similar to 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning (20)
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜 Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde... 【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri... Feature engineering for predictive modeling using reinforcement learning [Dl輪読会]introduction of reinforcement learning Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン NIPS2017読み会@PFN: Hierarchical Reinforcement Learning + α Reinforcement Learning For Taxi Rebalancing 【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making? 強化学習とは (MIJS 分科会資料 2016/10/11) Batch Reinforcement Learning 論文紹介:”Playing hard exploration games by watching YouTube“ Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定 NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用 Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ... Recently uploaded (8)
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual... 20250823_IoTLT_vol126_kitazaki_v1___.pdf Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由 Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION 生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。 Vibe Codingを触って感じた現実について.pptx . Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に... 20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning
- 2. Hybrid Reward Architecture for
Reinforcement Learning
NIPS 2017 Accepted Paper
http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for-
reinforcement-learning.pdf
パックマンを攻略した論文 2017年6月にarXive.orgに掲載
MicrosoftのチームMaluuba
ミズ.パックマンでフルスコアの99万9990点を記録した
- 4. 強化学習
エージェント:プレーヤー
状態:エージェントの置かれている状態 𝑆 = { 𝑠1, 𝑠2, 𝑠3, … }
行動:エージェントが行う行動 𝐴 = { 𝑎1, 𝑎2, 𝑎3, … }
報酬:環境から得られる報酬 𝑟𝑡 = 𝑅 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1
状態遷移確率:ある状態𝑠𝑡である行動𝑎 𝑡を起こて、ある状態𝑠𝑡+1になる確率
𝑃 𝑠𝑡+1 | 𝑠𝑡, 𝑎 𝑡
方針:エージェントがとある状態でどんな行動を行うか
𝜋: 𝑆 × 𝐴 → [0, 1]
- 6. マルコフ決定過程
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 モデル化したものをマルコフ決定過程(MDP)という
次の状態(の確率)が現在の状態のみで決まる
𝜋: 𝑆 × 𝐴 → [0, 1]
→ 過去は関係ない
→ 状態は全て把握できている
- 10. DQN (Deep Q-Network)
𝑄 𝑠, 𝑎 を、とあるパラメータθを使った近似関数 𝑄 𝑠, 𝑎; θ で表現
→ パラメータθをディープラーニングで求める
損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
- 11. HRA ( Hybrid Reward Architecture for RL )
DQNは複雑なゲームだと、学習が遅くて安定しない
→ 近似関数をもっと簡単にできないか?
報酬関数が分けられるときは分けて、それぞれ行動価値関数を学
習させれば、学習が容易にならないか?
𝑅(𝑠, 𝑎, 𝑠′
) =
𝑘=1
𝑛
𝑅 𝑘(𝑠, 𝑎, 𝑠′
)
- 12. イメージ
エージェント 報酬1 報酬2
+10
+10 +0
+0
+0
+0
+0+0 +10
+0
+0
+0
+0
+0+0
+10 +0
+0
+0
+0
+0+0
+0
+0
𝑅(𝑠, 𝑎, 𝑠′
) 𝑅1(𝑠, 𝑎, 𝑠′
) 𝑅2(𝑠, 𝑎, 𝑠′
)= +
- 13. 行動価値関数 (HRAバージョン)
𝑄 𝜋 𝑠, 𝑎 = 𝔼
𝑖=0
∞
𝛾 𝑖 𝑅(𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1) | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
= 𝔼
𝑖=0
∞
𝛾 𝑖
𝑘=1
𝑛
𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝔼
𝑖=0
∞
𝛾 𝑖 𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝑄 𝑘
𝜋
𝑠, 𝑎 ∶= 𝑄 𝐻𝑅𝐴
𝜋
𝑠, 𝑎
- 14. 近似関数の損失関数 (HRAバージョン)
DQN損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
- 15. ネットワークのイメージ
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
𝜃は1つで、各𝑄 𝑘重みを結合したもの
→ 多数決+重みによって最終的な行動を𝑄 𝐻𝑅𝐴が決める
- 18. パターン
HRAではフルーツがおかれる可能性のある場所ごとに𝑅 𝑘 𝑠, 𝑎, 𝑠′ と
𝑄 𝑘 𝑠, 𝑎 設定する。フルーツに1ポイントの報酬。
比較対象のDQNではただ単にフルーツに1ポイントの報酬
問題固有の知識を導入
• HRA+1 各𝑄 𝑘に対応するフルーツの位置だけ
• HRA+2 各𝑄 𝑘に対応するフルーツが食べられない状態では学習しない
• HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬
• DQN+1 HAR+1と同じネットワークを利用
- 20. 実験2 パックマン
• ペレットを食べるとポイントがもらえる
• ゴーストに触れると死ぬ
• スペシャルパワーペレットを食べると
ゴーストが青くなってゴーストを食べれ
てポイントがもらえる
• 全てのペレットを食べると次のレベルに
いける
• レベルごとにフルーツが2個食べれる。
フルーツは7種類あってポイントがそれ
ぞれ違う
• 4種類のエリアがある
- 23. 工夫
• 各𝑄 𝑘 𝑠, 𝑎 を合算するとき、正規化する
• エリア内の特定の場所へ移動するための擬似報酬を設定する
• 探索用の𝑄 𝑘 𝑠, 𝑎 を2つ追加
→ 1つめは一様分布のランダムな値[0,20]
→ 2つめは𝑠とaが今までにないパターンの場合にボーナスを与える