1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
“Learning to Adapt: Meta-Learning for Model-Based Control",
Ignasi Clavera, Anusha Nagabandi, Ronald S. Fearing, Pieter Abbeel,
Sergey Levine, Chelsea Finn
Presentater: Kei Akuzawa
書誌情報
• 投稿先: arxiv, 2018/03
• プロジェクトページ: https://sites.google.com/berkeley.edu/metaadaptivecontrol
• 著者: Ignasi Clavera, Anusha Nagabandi, Ronald S. Fearing, Pieter Abbeel,
Sergey Levine, Chelsea Finn
• 選定理由:
• メタ学習への興味
• 実環境で動くエージェントを作るためにオンラインで適応させるのは筋が良
いように思えた
概要
• モチベーション: 深層強化学習(DRL)において,環境にオンライン適応
するエージェントを育てたい
• なぜオンライン適応が必要か
• テスト環境が訓練環境と違う
• テストエピソード中に環境に急激な変化が生じる
• 人間はオンラインで適応しているっぽい
• 未知の重さの物体を持ち上げる
• 雪の上を歩く
• 提案手法:
• DRL + オンライン適応では,サンプル効率が問題となる
• メタ学習を用いて,環境のモデルを効率的に適応させる
イントロ
• 実環境では急激な環境の変化が起きる
• ロボットが一部故障
• 坂道での勾配の変化
イントロ
• 貢献:
• こうした変化に素早く適応するために,二つの手法を組み合わせた
• Model-Based RL
• 環境のモデル: 𝑠 𝑡 = 𝑓𝜃(𝑠 𝑡, 𝑎 𝑡)
• 教師信号𝑠 𝑡+1が各ステップごとに得られる
• Meta-Learning
• ここでは,「別の環境に効率的に適応できるような学習則(メタ知識)を学習す
る」くらいの意味
提案手法
1. 環境のモデル𝜃と, 𝜃の更新則𝑢のメタ訓練
2. 𝜃を用いたアクションの選択
3. 更新則𝑢について
1. Recurrence-Based Adaptive Control
2. Gradient-Based Adaptive Control
環境のモデル𝜃と, 𝜃の更新則𝑢のメタ訓練
• Meta-Agentは更新則𝑢を用いて,直近の遷移(s, a) をもとに,少し先の
未来の予測誤差が少なくなるような環境のモデル𝜃′を得る
• 各タイムステップごとに𝜃′を更新する(オンライン適応)
• 更新則𝑢の詳細は後述
①最近の遷移をもとに②環境のモデルを
更新し
③少し先の
予測誤差を最小化
𝜃を用いたアクションの選択(Model Predictive Control, MPC)
• 環境のモデル𝜃′をもとに,t期からt+H期までのアクションをPlanning
する
• しかし,Planning時の予測 𝑠 𝑡+ℎと実際の𝑠 𝑡+ℎは当然ずれる
• そこで,一度アクションを取るたびにPlanningを再度行う(MPC)
• 直感的説明: Hタイムステップ先までのアクションを計画するけど,計画通り
に行かないことはわかっているので,各タイムステップでプランを練り直す
• (MPC自体は提案ではない)
環境のダイナミクスf 𝜃′に従うとい
う制約下で累積報酬が最大になる
アクションを選ぶ
ここまでのアルゴリズムまとめ
①それぞれのタイムステップで
②環境のモデルを更新し
③アクションを決定する
更新則𝑢について
• 二つの更新則𝑢について検証する
• Recurrence-Based Adaptive Control (RBAC)
• Santoro et al., 2016
• Duan et al., 2016
• Gradient-Based Adaptive Control (GBAC)
• Finn et al., 2017
Recurrence-Based Adaptive Control (RBAC)
• (s, a)を入力としてRNNを更新していく
• 重みパラメータ: 𝑢
• Hidden State: 𝜃
• 詳細は載っていないが,参考になりそうなもの
• Santoro et al., 2016
• Duan et al., 2016
• Mishra et al., 2018
• Finn and Levin, 2018
Gradient-Based Adaptive Control (GBAC)
• Model Agnostic Meta-Learning(MAML)を基盤
• 更新則𝑢を以下で定める
• 直感的には,直近の環境のモデルの予測誤差を修正するように𝜃を更新
• 実験では𝛼を固定した(適応的にすることもできる)
• 利点: GBACはメタ訓練環境の分布の外にも適応できそう
• c.f., Finn and Levin, 2018
実験
• 目的
• 様々な環境の変化にオンラインで適応できるか確認
• GBACとRBACを様々な設定で比較
• 訓練環境の分布の外での振る舞いを確認
• 設定 (ビデオ: https://sites.google.com/view/metalearning4ac/)
• half-cheetah における環境の変化:
• トルクを固定する, 床の傾きを変える, Dynamics(摩擦,湿度?)を変える
• Ant:
• 足の長さを変える,トルクを固定する
• 7-DoF arm:
• 運んでいる物体に様々な大きさの力(重力?)をかける
実験
• 比較手法:
• MB: モデルベース(Nagabandi et al., 2017)
• MB + DE: モデルベースとDynamic Evaluation(Krause et al., 2017) の組み合わせ
• MF: モデルフリー(TRPO)
実験: Static
• 訓練環境とテスト環境のパラメータを同じ分布からサンプリングする
設定
実験: Dynamic
• テストエピソードの実行中に急に環境が変化する設定
• e.g.,途中で急に足が故障する
• 訓練時にはこのような急激な変化は起こさない
実験: Generalize
• 訓練環境の分布の外側のパフォーマンスを比較
• e.g., めっちゃ急な坂道
• GBACは,変化が大きい(e.g., アリの足が使えない + 長さが縮む)ときに,
RBACに対して優位になりそう
結論
• メタ学習とModel-Based RLを組み合わせたオンライン適合手法を提案
• メタ学習の二つの手法(Gradient-Based, Recurrent-Based)について検証
• Future Works
• Gradient-Based と Recurrent-Basedを組み合わせる
• 実環境での実験
Reference
• Santoro, Adam, Bartunov, Sergey, Botvinick, Matthew, Wierstra, Daan, and Lillicrap,
Timothy. One-shot learning with memory-augmented neural networks. arXiv preprint
arXiv:1605.06065, 2016.
• Duan, Yan, Schulman, John, Chen, Xi, Bartlett, Peter L., Sutskever, Ilya, and Abbeel, Pieter.
Rl$ˆ2$: Fast reinforcement learning via slow reinforcement learning. CoRR,
abs/1611.02779, 2016.
• Finn, Chelsea, Abbeel, Pieter, and Levine, Sergey. Model-agnostic meta-learning for fast
adaptation of deep networks. CoRR, abs/1703.03400, 2017.
• Nagabandi, Anusha, Kahn, Gregory, Fearing, Ronald S., and Levine, Sergey. Neural
network dynamics for model-based deep reinforcement learning with model-free fine-
tuning. CoRR, abs/1708.02596, 2017.
• Krause, Ben, Kahembwe, Emmanuel, Murray, Iain, and Renals, Steve. Dynamic evaluation
of neural sequence models. CoRR, abs/1709.07432, 2017.
• Finn, Chelsea and Levine, Sergey. Meta-learning and universality: Deep representations
and gradient descent can approximate any learning algorithm. International Conference
on Learning Representations(ICLR), 2018.
• Nikhil Mishra, Mostafa Rohaninejad, Xi Chen, and Pieter Abbeel. A simple neural
attentive meta-learner. International Conference on Learning Representations (ICLR),
2018.

More Related Content

PPTX
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
PPTX
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PPTX
[DL輪読会]Dense Captioning分野のまとめ
PPTX
[DL輪読会]逆強化学習とGANs
PPTX
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)
[DL輪読会]SOLAR: Deep Structured Representations for Model-Based Reinforcement L...
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Dense Captioning分野のまとめ
[DL輪読会]逆強化学習とGANs
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)

What's hot (20)

PPTX
Statistical machine learning forecasting methods concerns and ways forward
PDF
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
PPTX
海鳥の経路予測のための逆強化学習
PDF
【CVPR 2019】Learning spatio temporal representation with local and global diff...
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
PPTX
北大調和系 DLゼミ A3C
PDF
生成モデルの Deep Learning
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
PDF
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
PDF
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
PDF
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
PPTX
強化学習 DQNからPPOまで
PPTX
動画像を用いた経路予測手法の分類
PPTX
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
PPTX
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
PPTX
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
PPTX
[DL輪読会]Deep Face Recognition: A Survey
PDF
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
Statistical machine learning forecasting methods concerns and ways forward
【CVPR 2019】Second-order Attention Network for Single Image Super-Resolution
海鳥の経路予測のための逆強化学習
【CVPR 2019】Learning spatio temporal representation with local and global diff...
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
【DL輪読会】Data-Efficient Reinforcement Learning with Self-Predictive Representat...
北大調和系 DLゼミ A3C
生成モデルの Deep Learning
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]マテリアルズインフォマティクスにおける深層学習の応用
【DL輪読会】Where do Models go Wrong? Parameter-Space Saliency Maps for Explainabi...
【DL輪読会】Free Lunch for Few-shot Learning: Distribution Calibration
強化学習 DQNからPPOまで
動画像を用いた経路予測手法の分類
【輪読会】Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineeri...
[DL輪読会]YOLOv4: Optimal Speed and Accuracy of Object Detection
【DL輪読会】Responsive Safety in Reinforcement Learning by PID Lagrangian Methods...
[DL輪読会]Deep Face Recognition: A Survey
[DL輪読会]Parallel WaveNet: Fast High-Fidelity Speech Synthesis
Semi supervised, weakly-supervised, unsupervised, and active learning
Ad

Similar to [DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control (20)

PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PPTX
[DL輪読会]Meta Reinforcement Learning
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
PPTX
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
PDF
[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competiti...
PDF
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
PDF
Deep Learningの基礎と応用
PDF
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
PDF
NeurIPS'21参加報告 tanimoto_public
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
Ibis2016okanohara
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
PPT
Deep Learningの技術と未来
PDF
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
PDF
Deeplearning lt.pdf
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Meta Reinforcement Learning
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
[DL輪読会]Model-Based Reinforcement Learning via Meta-Policy Optimization
[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competiti...
[DL Hacks]Model-Agnostic Meta-Learning for Fast Adaptation of Deep Network
強化学習とは (MIJS 分科会資料 2016/10/11)
Deep Learningの基礎と応用
[DL Hacks] Deterministic Variational Inference for RobustBayesian Neural Netw...
NeurIPS'21参加報告 tanimoto_public
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
Decision Transformer: Reinforcement Learning via Sequence Modeling
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
Ibis2016okanohara
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learningの技術と未来
Learning Deep Architectures for AI (第 3 回 Deep Learning 勉強会資料; 松尾)
Deeplearning lt.pdf
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control