DEEP LEARNING JP
[DL Papers]
Continuous Adaptation via Meta-Learning in Nonstationary and
Competitive Environments
Hiroaki Shioya, Matsuo Lab
http://deeplearning.jp/
書誌情報
● ICLR 2018 under review
● OpenAI
● 内容
○ 環境が次々と変化していくタイプの問題に対する方策の学習をメタラーニングで解く
2
アウトライン
● 研究背景
○ 問題設定
○ モチベーション
● 関連研究
○ Meta Learning
● 本研究
3
強化学習
● エージェントの良いふるまいを学習したい
● 問題設定
4
研究背景
environment
P, R, γ
agent
Π, V
a s, r
notation:
s : 状態
a : 行動
r : 報酬
P:遷移関数 (s×a→s)
R : 報酬関数 (s×a→r)
Π:方策(s→a)
V : 価値関数(s → v)
γ : 割引率
環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す
問題設定
5
研究背景
1つの決まったタスク
を解く
stationaly environment
定まった複数のタスクを
解く
性質が変化し続ける
1つのタスクを解く
non-stationaly environment
次々と現れる複数の
タスクを(忘却せずに)解
く
single task
multi task
agent
agent
agent
agent
agent
agent
continual learning
life-long learning
問題設定
6
研究背景
1つの決まったタスク
を解く
stationaly environment
定まった複数のタスクを
解く
性質が変化し続ける
1つのタスクを解く
non-stationaly environment
次々と現れる複数の
タスクを(忘却せずに)解
く
single task
multi task
本研究の対象は、こ
のセルのさらに一部
(環境の変化に何ら
かの性質を仮定)agent
agent
agent
agent
agent
agent
モチベーション
● 汎用人工知能に向けて
○ 変化する環境に(素早く)適応するのは知的な振る舞いにおける重要な要素の一つ
● 実用上の観点
○ マルチエージェントシステム
■ 刻々と変化する他のエージェントに適応し続けなければならない
○ 機械、器具の操作
■ 現実の物質は扱っていくうちに変化する
● タイヤ、ギアの磨耗による挙動の変化など
7
研究背景
ソリューションに求められる性質
● 変化する環境に適応する
● できるだけ素早く適応する
○ Deep RLはsample inefficient
○ 遅いと現環境に適応する前にまた環境が変わってしまう
8
研究背景
classicalな変化適応
● 環境変化検出 + fine tuning(tracking)
● 大抵の場合、遅い ⇨ 環境が変わった際の学習の方法自体を学習してより賢くすれ
ばよい?
9
関連研究
Meta Learning
● ある決まったバイアス,すなわち仮説空間の中から,事例に応じて,適切な仮説を
獲得する普通の学習器をベース学習器という.その上位で,学習対象のタスクやド
メインに応じて,学習器のバイアスを決定するためのメタ知識を獲得するのがメタ
学習
10
関連研究
http://ibisforest.org/index.php?%E3%83%A1%E3%82%BF%E5%AD%A6%E7%BF%92
Meta Learningの例
● 古典的な例
○ Stacked generalization
■ 異なるバイアスのベース学習器の予測結果を特徴量として、メタ学習器をつくる
● ニューラルネットワーク
○ optimizerの学習
○ タスクのembeding
○ RLによる学習
○ fine tuningするのに良い初期値を学習
11
関連研究
Meta Learning + Reinforcement Learning : RL2
12
関連研究
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks
● あるタスク集合においてFine tuningすると良い値にいくような初期値を学習する
● 教師あり、教師なし、強化学習いずれにも使える
13
関連研究
ある分布から生成されるタスクTでθからK step更新した結果得られたφでのlossが
最小化されるようなθを学習する
MAML for RL
14
関連研究
fast adaptation by MAML
● 数ステップで異なるタスクに適合できる
15
複数環境に適応できる他の枠組みとの違い
● CVaR
○ 複数の環境のうち、worst caseに対応する方策を学習することで複数の環境にロバストな方策を得
る
○ 追加の更新・適合なしで一つの方策が複数の環境に適合するには限界がある
● Context policy search
○ ポリシーの入力にcontextとしてタスクを入れる (π(a|s) ⇨ π(a|s, ω), ω : タスク)
○ 入力としてのタスクの表現が必要
○ 経験をコンテクストにして meta agentをつくるとRL2
16
関連研究
問題設定
● タスクの遷移に依存関係を仮定する
○ 段々と学習して強くなる敵エージェント (self-play)
○ 機械の磨耗などは前の状態から連続的に変化する
17
本研究
MAML 本研究
提案手法
● タスク遷移の依存関係を踏まえてMAMLを変更
● 次にくるタスクが良くなるような初期値を探す
18
本研究
アルゴリズム実装上の細かいTips
● φiからφi + 1ではなく、常に同じパラメータθから適合を行う
○ 学習の安定性のため
● 上記の工夫のために、更新のためにθで環境からサンプリングする必要があるが、
テスト時にはφiを実行に使いたいので、重み付け変更
19
本研究
アルゴリズム実装上の細かいTips
● 学習率αもadaptiveに変更し、θと一緒に学習する
○ 学習の安定性のため
20
本研究
提案手法のアルゴリズム
● 先述のθからの更新により、訓練時と実行時のアルゴリズムが異なる
21
本研究
タスク
a. 本研究で使用するエージェント
b. タスク1. 選ばれた足のactivationが線形に1⇨0に減少する
c. タスク2. RoboSumo. 2体のエージェントが相撲を行う,Tatamiから押し出したら勝
利
22
本研究
実験設計上の工夫
● 環境設計
○ RoboSumoでは、self-playによってpre-trainしたPPO agentを保存し、共通の環境とした
■ 敵エージェントの成長具合がばらばらだと手法間の比較がうまくできないため。真の意味での
competitive scinarioはfuture work.
● 報酬設計
○ 一定時間でdrawになる上、わずかなepisodeで適合しなければならないため、勝ち負けのみの疎な
報酬では学習不可、よって Tatami中央からの距離も報酬に使う
■ unsupervisedなsense rewardを用いるなどはfuture work.
● エージェント設計
○ Ant, Bug, Spiderの勝率が、初期状態では五分になるように頑張って重さとかを calibulationした(つ
らそう)
● and more…..
23
本研究
実験結果1: dynamics
● 提案手法(緑とピンク)が、概ね他手法よりもうまく適合している
● シナリオが変わっても、3 episode程度で元の水準を保っている
24
本研究
実験結果2: RoboSumo
● 提案手法(赤)が、概ね他手法よりもうまく適合している
● 前の実験に比べると結果微妙
25
本研究
実験結果3: 適合速度と達成パフォーマンスの比較
● meta learning(赤と青)はfine tuning(緑)に対して速い適合を見せる
● 適合を重ねると、fine tuningの方が最終的なパフォーマンスは上
● 学習時に定めたK step(ここではK = 3)を超えて更新してもうまくいく
26
本研究
実験結果4: RoboSumoのレーティング
● RoboSumoのTrueSkill(Elo
ratingのようなもの)(上)
● TrueSkillに基づくランク(左下)
● 対戦勝率表(右下)
○ 同じネットワーク構造で比較する
とMeta learnの方が良いが、
LSTMの方が効いてる
27
本研究
実験結果5: 勝ち残り形式
● 提案手法を用いたエージェントが他を駆逐して増えていく
28
本研究
まとめ
● 環境が次々と変化していく問題に対して、メタラーニングの1手法であるMAMLを拡
張する手法を提案
● ベースライン(Fine Tuning, RL2
)と比較して、素早く適合して高パフォーマンスを達
成した
● 実験設計に細かな工夫が多く、実験するのとても大変そうだった
29

More Related Content

PDF
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
PPTX
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
PPTX
[DL輪読会]相互情報量最大化による表現学習
PPTX
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
PDF
[DL輪読会]Disentangling by Factorising
PDF
変分推論と Normalizing Flow
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PDF
「世界モデル」と関連研究について
深層自己符号化器+混合ガウスモデルによる教師なし異常検知
【DL輪読会】DayDreamer: World Models for Physical Robot Learning
[DL輪読会]相互情報量最大化による表現学習
CVPR2018 pix2pixHD論文紹介 (CV勉強会@関東)
[DL輪読会]Disentangling by Factorising
変分推論と Normalizing Flow
DQNからRainbowまで 〜深層強化学習の最新動向〜
「世界モデル」と関連研究について

What's hot (20)

PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
PDF
点群深層学習 Meta-study
PPTX
近年のHierarchical Vision Transformer
PPTX
Noisy Labels と戦う深層学習
PDF
実装レベルで学ぶVQVAE
PDF
深層生成モデルと世界モデル
PDF
ELBO型VAEのダメなところ
PDF
PRML学習者から入る深層生成モデル入門
PDF
自己教師学習(Self-Supervised Learning)
PDF
GAN(と強化学習との関係)
PPTX
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
PDF
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
PDF
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
PDF
Variational AutoEncoder
PPTX
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
PPTX
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
PDF
AdaFace(CVPR2022)
PPTX
マルチモーダル深層学習の研究動向
PDF
Kaggleのテクニック
PPTX
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
点群深層学習 Meta-study
近年のHierarchical Vision Transformer
Noisy Labels と戦う深層学習
実装レベルで学ぶVQVAE
深層生成モデルと世界モデル
ELBO型VAEのダメなところ
PRML学習者から入る深層生成モデル入門
自己教師学習(Self-Supervised Learning)
GAN(と強化学習との関係)
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
(DL hacks輪読) How to Train Deep Variational Autoencoders and Probabilistic Lad...
Variational AutoEncoder
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
AdaFace(CVPR2022)
マルチモーダル深層学習の研究動向
Kaggleのテクニック
[DL輪読会]Dream to Control: Learning Behaviors by Latent Imagination
Ad

Similar to [DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments (20)

PPTX
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
論文紹介「A Perspective View and Survey of Meta-Learning」
PDF
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
PPTX
[DL輪読会]Meta Reinforcement Learning
PPTX
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
PDF
Never give up
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
20150930
PDF
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
PPTX
全脳関西編(松尾)
PPTX
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
PPTX
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
PDF
論文紹介:”Playing hard exploration games by watching YouTube“
PPTX
[DL輪読会]ODT: Online Decision Transformer
PDF
Decision Transformer: Reinforcement Learning via Sequence Modeling
PPTX
"Universal Planning Networks" and "Composable Planning with Attributes"
PDF
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
[DL輪読会]Learning to Adapt: Meta-Learning for Model-Based Control
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
論文紹介「A Perspective View and Survey of Meta-Learning」
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
Never give up
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
20150930
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
全脳関西編(松尾)
[DL輪読会]Learning to Generalize: Meta-Learning for Domain Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
論文紹介:”Playing hard exploration games by watching YouTube“
[DL輪読会]ODT: Online Decision Transformer
Decision Transformer: Reinforcement Learning via Sequence Modeling
"Universal Planning Networks" and "Composable Planning with Attributes"
[DL輪読会]Shaping Belief States with Generative Environment Models for RL
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
PPTX
【DL輪読会】事前学習用データセットについて
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
PPTX
【DL輪読会】マルチモーダル LLM
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
PPTX
【DL輪読会】Hopfield network 関連研究について
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】事前学習用データセットについて
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】マルチモーダル LLM
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...

[DL輪読会]Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments