Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
DeNA	Co.,	Ltd.	
システム本部	
AI	システム部	AI	研究開発第三グループ	
甲野	佑
強化学習の基礎的な考え⽅と問題の分類
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
甲野	佑	
所属	:	株式会社ディー・エヌ・エー	AI	システム部	AI	研究開発第三グループ	
   	東京電機⼤学	理⼯学部	講師	(兼業)	
研究	:	強化学習,”逆転転オセロニア”	への応⽤	
興味:神経科学,認知科学に基づいた階層型	RL	アーキテクチャ	
〜2017年3⽉:	⼤学で強化学習の研究してきました	
2017年4⽉〜:	強化学習を応⽤したゲーム	AI	の研究開発をしています	
2018年4⽉〜:	東京電機⼤学にて⼈⼯知能についての授業をしています	
⾃⼰紹介
2
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
3
【前提として】	
前半は既存発表スライドによる基礎概念の説明	
(https://www.slideshare.net/yukono1/ss-102843951)	
(https://www.slideshare.net/yukono1/ai-82646808)	
↓	
後半は応⽤時の強化学習課題の作り⽅	
本スライドはもう少し整理してからアップロード予定
今回のテーマ
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
4
強化学習とは
・報酬を最⼤化する⽅策を獲得するのが⽬的	
・基本は動物が芸を覚えるのと同じ	
 -	当該の⾏動の選択分布(⽅策)の良し悪しを環境との相互作⽤から学習	
 -	収益が良かったらその⾏動を取る確率が上がり,悪かったら下がる	
  →	基本の理屈は単純
状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得
強化
基本的には鳩の条件付け実験	”スキナー箱”	そのもの
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
5
強化学習と教師あり学習の対応関係
教師あり学習と同じ
教師あり学習と異なる
⽬的はともかく具体的な学習では関数近似をしている	
- 今後得られる収益予測に対する回帰	(価値関数の学習)	
- ⾏動選択に対する多クラス分類	(⽅策分布の学習)
環境に対する主体的なデータ※のサンプリングが前提	
  ※	データ	=	(状態,	⾏動)	→	(次状態)	(報酬)	の状態遷移軌跡
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
6
強化学習と教師あり学習の対応関係
⽬的
教師あり学習 強化学習 教師なし学習
環境	or	データ
教師信号⼊⼒信号
データは所与
報酬観測状態観測
データは自分で収集
⼊⼒信号
データは所与
損失関数 報酬の定義 条件・制約
法則発⾒適応⾏動完璧な予測
データ所与である前提と異なり,強化学習は	
環境を探索して主体的にデータを獲得しつつ⾏動⽅策を最適化
※	わかりやすさ重視で簡略化
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
7
強化学習と教師あり学習の対応関係
教師あり学習と同じ
教師あり学習と異なる
⽬的はともかく具体的な学習では関数近似をしている	
- 今後得られる収益予測に対する回帰	(価値関数の学習)	
- ⾏動選択に対する多クラス分類	(⽅策分布の学習)
環境に対する主体的なデータ※のサンプリングが前提	
  ※	データ	=	(状態,	⾏動)	→	(次状態)	(報酬)	の状態遷移軌跡	
- 動的なサンプリングなのでデータが⼤量に取得しにくい	
- 収益に対する	bias	and	variance	trade-off	
- サンプリングされるデータが強化学習エージェント⾃⾝の現
⾏動⽅針	(⽅策)	に依存	
- この⾃⼰依存性が強化学習を難しくしている
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
8
基本的強化学習概念
実⽤向き	→	バンディット問題・⽂脈付きバンディット問題	
応⽤事例は限定的だが保証有	→	テーブル型強化学習	
⾼度な応⽤に向けた技術	→	(関数近似)	強化学習	e.g.	DQN	等
⽂脈付き	
バンディット問題
バンディット問題
教師あり学習	
(⾮時系列)
強化学習	
(関数近似使⽤)
テーブル型	
強化学習
状態系列=軌跡	
VS	
単発状態
環境観測	(サンプリング)	で状態表現を取得		
VS	
テーブル形式での状態の完全な表現が所与報酬による評価	
VS	
教師信号
最も単純な強化学習課題であるバンディット問題との関係
※	わかりやすさ重視で簡略化	※VS	の内側概念の⽅が問題クラスが広い
Littman, M. L. Reinforcement learning improves behaviour from evaluative feedback. Nature, 521, (7553), 445-451. 2015.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
9
強化学習と教師あり学習の対応関係のまとめ
⽬的はともかくやっていることは概ね回帰かクラス分類課題に落とし
込める	
- つまり深層ニューラルネット等の⾼度な関数近似を利⽤可能	
- 深層ニューラルネットを関数近似に利⽤した強化学習を深層強
化学習と呼ぶ	
教師あり学習を既に知っている強化学習の初学者にとって複雑に感じ
る点は以下による	
- データは⾃分で環境からサンプリングしなければいけない	
- ターゲット	(教師あり学習でいう教師信号)	が⾃⼰依存
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
10
・学習が難しい,学習コストが⾼い	
・シミュレータ開発コストが⾼い	
・リアリティーギャップ	
・タスク間の汎⽤性	
・マルチタスクが苦⼿	
・不完全情報	(不完全観測)	
・(本質的に)	時系列依存	
・マルチエージェント	
・[深層学習由来の問題]	価値関数の学習の困難さ	
すぐ思いつくだけでも沢⼭存在	
細かい問題の羅列は	↓	
(https://www.slideshare.net/yukono1/ss-102843951)
現在の強化学習の主要な課題
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
11
バンディット問題を使った応⽤
広告A	
を提⽰
ユーザー	
の来訪
広告B	
を提⽰
提⽰された広告をユーザーがクリックする	or	しない
A/B	テストが有名,例:ユーザーに対してどの広告を提⽰するか	
ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的
↓	
試⾏錯誤して⽬的を最⼤化する広告の提⽰割合を調整するのが	AI	の役⽬
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
12
バンディット問題を使った応⽤
⽂脈付きバンディット問題:ユーザーごとに適切な広告を提⽰
広告A	
を提⽰
ユーザー	
の来訪
広告B	
を提⽰
A/B	テストが有名,例:ユーザーに対してどの広告を提⽰するか	
ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的
提⽰された広告をユーザーがクリックする	or	しない
広告A	
を提⽰
男性/20代
広告B	
を提⽰
広告A	
を提⽰
⼥性/30代
広告B	
を提⽰
広告A	
を提⽰
⼥性/20代
広告B	
を提⽰
広告A	
を提⽰
男性/40代
広告B	
を提⽰
ユーザー属性(特徴量)を細かく定義,類似度に応じて広告の好嫌を共有
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
13
⽂脈付きバンディット問題を知らずに応⽤はできない(かも?)
広告A	
を提⽰
閲覧者
広告B	
を提⽰
知っている⼈には退屈な話・・・しかし,	
⽂脈付きバンディット問題は深層強化学習応⽤時に必要な知⾒を教えてくれる	
        ・状態の特徴量設計の重要さ	
        ・アルゴリズムの評価とシミュレーション
閲覧者	a
閲覧者	b 閲覧者	d
閲覧者	c
閲覧者	f
潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする	or	しない
閲覧者	e
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
14
バンディット問題の⼿法
試⾏錯誤しないと新規広告を含めた最良の配信⽅法はわからない	
うまく試⾏錯誤するような評価⽅法	
 →	UCB	系アルゴリズム,Thompson	Sampling	がメジャー	
ユーザーの属性,類似度を定義する特徴量の設計が重要
探索報酬で真の報酬推定に	
反する⾏動を促進	
評価の未知度合いを上乗せ	
試⾏していくと減少
A B< A B>
試⾏錯誤:UCB系
A B
情報の共有:LinUCB	等
特	
徴	
1
特	
徴	
2
特	
徴	
3
特	
徴	
4
特	
徴	
5
特	
徴	
1
特	
徴	
2
特	
徴	
3
特	
徴	
4
特	
徴	
5
ユーザーの持つ特徴の評価の和	
ユーザー間の同じ特徴の評価は
共有される
<
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
15
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明	
→	実運⽤⼊の前にアルゴリズムの良し悪しを評価したい	
 	→	過去のデータを使ってシミュレーション
広告A	
を提⽰
閲覧者
広告B	
を提⽰
閲覧者	a
閲覧者	b 閲覧者	d
閲覧者	c
閲覧者	f
実環境:潜在的なユーザー群
ほか多数
訪問
提⽰された広告を閲覧者がクリックする	or	しない
閲覧者	e
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A	
を提⽰
16
バンディットアルゴリズムの評価と環境
実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ
りよくユーザーへのアクション(広告配信)を最適化できるかが不明	
→	実運⽤⼊の前にアルゴリズムの良し悪しを評価したい	
 	→	過去のデータを使ってシミュレーション	
→	過去のデータからは実績データと異なる選択の正確な評価ができない
閲覧者
広告B	
を提⽰
閲覧者	a
閲覧者	b 閲覧者	d
閲覧者	c
閲覧者	f
過去のユーザーデータ
ほか多数
サンプリング
過去のユーザー履歴:過去の提⽰広告を閲覧者がクリックした	or	しなかった
閲覧者	e
←過去に提⽰した広告
現学習中のアルゴリズム	
はこちらを提⽰するかも→
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
広告A	
を提⽰
17
バンディットアルゴリズムの評価と環境
閲覧者
広告B	
を提⽰
閲覧者	a
閲覧者	b 閲覧者	d
閲覧者	c
閲覧者	f
過去のユーザーデータ
ほか多数
サンプリング
報酬の混合モデル	
過去のデータから作られた閲覧者と広告のクリック(報酬)予測モデルと	
+	
過去のデータからクリック実績を当時のサンプリング分布で補正した報酬値
閲覧者	e
←過去に提⽰した広告
現学習中のアルゴリズム	
はこちらを提⽰するかも→
→	シミュレーション環境を教師あり学習で作成してアルゴリズムを評価
Li, L., et al. Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms. Proceedings
of the fourth ACM international conference on Web search and data mining. 2011.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
18
強化学習の応⽤事例
※	上記の系列	(状態と⾏動の遷移軌跡)	が強化学習を考える上での情報の単位
ユーザー	
からの質問
AI	
の応答
ユーザー	
からの応答
AI	
の応答
状態	1 ⾏動 状態	2 ⾏動
状態遷移
建物や	
揺れの状態
ダンパー
の調整
建物や	
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
ユーザーの評価
報酬関数
強化学習の基本:
対話課題:
耐震ダンパー制御:
状態遷移
状態遷移
※	Seq2Seq	で⽂字列⽣成を事前学習後
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
19
強化学習と動的計画法とその利点
ある制約(MDP)を前提に,単発の意思決定	×	多段階にして探索空間を削減
動的計画法(Dynamic	Programming,	DP)の基本的考え⽅
全ての⼿順のパターンを試す 単発の選択を何度も繰り返し試す
次状態次状態
マルコフ決定過程(MDP) 現在参照している状態の情報のみから	
次にどの状態に遷移するか決まる予測可能	
(確率的な場合も)
時系列を次が予測可能な情報単位に分割できる
状態⾏動 ⾏動
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
×	繰り返し計算
20
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
報酬
×	状態の数	(多段階,環境全体)
MDP	の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法	
強化学習と繰り返し
収束するまで繰り返す
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
21
強化学習と繰り返し
MDP	の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法	
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
π Rπ⽅策 ⽅策の評価	(収益)
⽅策(⾏動の選択分布)の評価に基づいて良い⽅策を探索/最適化する
⽅策(⾏動の選択分布)の良さを実際の⾏動結果から評価する
π’ Rπ⽅策 ⽅策の評価	(収益)
全てはこの反復で成り⽴っている	
難しく⾒えてもこのなんらかの近似でしかない
評価をサンプル:環境モデルが不明だからサンプリング
⽅策の修正
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
×	繰り返し計算
22
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
×	状態の数	(多段階,環境全体)
強化学習の本質は繰り返し,ゆえに⾼コスト	
単発の意思決定	×	多段階	×	繰り返し試⾏錯誤	
反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易
MDP	の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法	
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
報酬
強化学習と繰り返し
	×	試⾏錯誤
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
×	繰り返し計算
23
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
×	状態の数	(多段階,環境全体)
強化学習の本質は繰り返し,ゆえに⾼コスト	
単発の意思決定	×	多段階	×	繰り返し試⾏錯誤	
反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易
MDP	の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法	
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
報酬
強化学習と繰り返し
	×	試⾏錯誤
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
×	繰り返し計算	×	試⾏錯誤
24
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
×	状態の数	(多段階,環境全体)
MDP	の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法	
離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う
報酬
状態⾏動 ⾏動
状態⾏動 ⾏動
状態が類似	→	知識の共有	
・類似を定義する特徴量	
・知識をうまく共有する近似関数	
の設計
強化学習と繰り返し
↑	
深層学習が⼀応解決	
(油断は禁物)
状態の数に対する反復の効率化	
→	類似した状態への知識(反復結果)の転移
→
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
25
MDPと状態の特徴量の定義
状態		
t
⾏動
状態	
t+1
⾏動
状態遷移
⼀つ前の状態⾏動のみから次の状態が決まる	
 →	1	階マルコフ連鎖	(単純マルコフ)	
 →	現在の情報からのみ⾏動を最適化できる	
 →	次状態が予測可能な⼊⼒が必要	
  ・画像情報	(ゲーム)	
  ・各種センサー情報	(運動制御など)	
  ・+などから作られた特徴量
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態		
t-2
⾏動
状態		
t-1
⾏動
26
MDPと状態の特徴量の定義
状態		
t
⾏動
状態	
t+1
⾏動
状態遷移
状態		
t-3
⾏動
N	個の状態⾏動から次の状態が決まる	
 →	N	階マルコフ連鎖	
 →	過去の情報を覚えていないと⾏動を最適化できない
ここで発⽣する問題	
・過去の状態⾏動の組み合わせが爆発	
 -	たとえ近似関数を使ってもパラメータ数が指数的に増加	
・過去をどの程度の⻑さで覚えておくべきかがわからない	
・全て覚えておくのが⼤変	(学習データの巨⼤化)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態		
t-2
⾏動
状態		
t-1
⾏動
27
MDPと状態の特徴量の定義
状態		
t
⾏動
状態	
t+1
⾏動
状態遷移
状態		
t-3
⾏動
状態遷移を予測するのに必要な情報だけを特徴量として設計することで	
状態を圧縮して組合せ爆発を防ぐ	
※	RNN	を⽤いて時系列を学習する⽅法もあるが学習の難易度は上がる
過去を代替えする
状態の特徴量	t
状態		
t
⾏動
状態	
t+1
⾏動
状態遷移
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
状態		
t-2
⾏動
状態		
t-1
⾏動
28
MDPと状態の特徴量の定義
状態		
t
⾏動
状態	
t+1
⾏動
状態遷移
状態		
t-3
⾏動
間の⾏動や遷移が決まりきった系列(スキル・お作法・テクニック)なら	
その複数の⾏動系列をひとつの⾏動として⾒なすこともできる
状態	
t+1
⾏動
状態遷移
状態		
t-3
⾏動	=	ある決まった状態⾏動系列	(スキル等)	
e.g.	短期的なルールベース⾏動
状態特徴と⾏動の単位をうまく設計して問題を,	
 ・⽂脈付きバンディット問題	
 ・できるだけ短い状態遷移系列の問題	
に近づけて,学習の繰り返し回数が減少,学習しやすくさせる
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
29
強化学習として解くのに必要なものと困難さ
(1)	シミュレータ	
課題環境のモデリング
(2)	報酬関数	
⽬的の定義
(1)	と	(3)	はデータサイエンスを駆使して作成する必要がある	
他が不完全な設計でも⾼度な	(4)	の導⼊で解消できる可能性も
(3)	状態特徴の定義	
特徴量の設計
(4)	強化学習アルゴリズム	
解き⽅,他の不⾜を吸収可能
現実の問題に対処しようとすると	(1)	と	(2)	が作りにくい
ユーザーから	
の質問	(3)
AI	
の応答
ユーザーから	
の応答	(3)
AI	
の応答
ユーザーの評価	(2)
対話課題:
⼈間の応答モデル?	(1)
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
30
シミュレータの問題
⾏動	A 状態 ⾏動	B
状態	a
状態	b 状態	d
状態	c
状態	f
過去に得られた状態データ群
ほか多数
サンプリング
報酬モデル
状態	e
←	実際にとった⾏動
シミュレータ要素
通常の強化学習では状態遷移の概念が加わる	
→	シミュレータはなるべく正確に遷移パターンを模倣する必要がある
先ほどの⽂脈付きバンディット問題の評価を強化学習課題と捉えると・・・
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
31
シミュレータの問題
状態	1 ⾏動 状態	2 ⾏動
報酬
状態遷移
シミュレータ
膨⼤な反復回数が必要なので,シミュレータが⾼速であれば学習が早まる	
→	それだけ学習時におけるシミュレータは重要な役割
強化学習⼀般:
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
32
ゲームの場合
ゲーム	
ステータス	1
コントローラ	
操作
ゲーム	
ステータス	2
コントローラ	
操作
ゲームスコア等
状態遷移
⾼速ゲームロジック
ゲームであれば描画などを切り離した	
⾼速なゲームロジックで学習シミュレータを作成	
ゲーム開発チームとの連携が必要	
もちろん	DQN	などのようにゲーム画⾯をそのまま使っても良い	
(ゲーム進⾏が遅い=学習時間も遅くなる)	
IMPALA	や	R2D2	などの分散型強化学習で	
シミュレータからの情報を並列化的にサンプリングすることで効率化	
(⾼いエンジニアリングスキルが必要)
ゲーム:
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
33
耐震ダンパー制御の場合
建物や	
揺れの状態
ダンパー
の調整
建物や	
揺れの状態
ダンパー
の調整
建物の揺れの⼩ささ
耐震ダンパー制御:
状態遷移
物理シミュレータ
耐震実験データ
膨⼤な揺れのパターン 建物の特性 建物の揺れ幅等
参考	URL	:	https://inforium.nttdata.com/foresight/ai-vibration-control.html
数理的な解析からモデルを作成
⾼度な解析での状態遷移モデルの作成	
揺れのパターンより建物の特性が優位という知⾒の発⾒が重要	
→	状態の特徴量設計にも活きる
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
34
“対話”など極めてモデル化の難しい課題の場合
ユーザー	
からの質問
AI	の	
応答
ユーザー	
からの応答
AI	の	
応答
ユーザーの評価
対話課題:
状態遷移
オンラインな実環境
現実の⼈間という複雑すぎてモデルの作成が困難である場合,	
オンラインな実験環境で試すしかない	
→	学習環境と実運⽤環境のズレは少ないが,データ数が稼げない	
映画チケットの予約等,⽐較的ドメインが固定された課題では	
ルールベースの応答	bot	(シミュレータ)	を相⼿に学習	
同じ⾃然⾔語課題でも翻訳では	BLEU	等の指標を収益として強化学習する	
BLEU	等の翻訳指標は直接損失関数にできない	(勾配計算不能)	ので	
系列⽣成の学習に強化学習を利⽤する	(MIXER	等)
Ranzato, M. A, Chopra, S., Auli, M., Zaremba, W. Sequence level training with recurrent neural networks. arXiv preprint arXiv:
1511.06732. 2015. https://arxiv.org/abs/1511.06732
Li, X., Chen, Y. N., Li, L., Gao, J., Celikyilmaz, A., End-to-End Task-Completion Neural Dialogue SystemsIJCNLP. 2017.
https://arxiv.org/abs/1703.01008
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
35
複雑なロボットの運動制御の場合	(より複雑な課題として)
状態	1 ⾏動 状態	2 ⾏動
報酬
状態遷移
シミュレータ
オンラインな実環境
少なからず乖離が存在する
どんな課題でも特徴量設計は重要	
ロボットの運動制御ではそれ以上にアルゴリズムに依存することが多い	
   ・シミュレータの完成度も重要だが限界がある	
   ・各関節の⾏動の組み合わせが複雑すぎる		
    	-	AI	が選択する関節の出⼒値は連続的な分布で近似	
    	-	有名な	TRPO	や	PPO	などの⽅策勾配法を使って⽅策分布を学習	
   ・明らかに無意味な⾏動パターンも多い
強化学習⼀般:
複雑なので無意味な⾏動パターンが多い
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
36
状態	1 ⾏動 状態	2 ⾏動
報酬
状態遷移
シミュレータ
オンラインな実環境
激しく乖離	
→	実環境より難しくなる	
 	→	結果,ロバストな⽅策を学習
強化学習⼀般:
何らかの統計情報・データ
強⼒なノイズ+
あらかじめシミュレータが強いランダム性を持つものとして設計	
そのようなランダム性に対処していくとノイズに強い頑健な⽅策を学習	
(場当たり的な)	シミュレータ側の⼯夫
シミュレータと実環境のギャップへの対処
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
37
逆強化学習
状態	1 ⾏動 状態	2 ⾏動
報酬
エキスパートの報酬モデル
エキスパートのデモンストレーションの実験データ
逆強化学習アルゴリズムで報酬関数を作成
エキスパートの挙動を再現するような⾏動が優先されるような報酬	
→	無意味な⾏動をあまり取らなくなる	
→	学習の効率が良くなる	
報酬関数の⼯夫
逆強化学習や転移学習に複雑な⾏動探索を簡略化し,学習を効率化する
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
38
転移学習
状態	1 ⾏動 状態	2 ⾏動
報酬
複雑な⾏動を覚えた	
コントローラ
⽐較的単純な複数のタスク
物を掴む課題 移動する課題物を置く課題
各タスクで学習した意味のある⾏動を	
コントローラに埋め込む	(転移学習)	
無意味な⾏動を防ぎ探索空間を削減
より単純にあらかじめ単純なタスクで基礎的な⾏動をマルチタスク学習して	
そのパラメータを初期パラメータとして流⽤するのも転移学習	
タスク段階的に難しくして繰り返す場合,カリキュラム学習とも呼ばれる
逆強化学習や転移学習に複雑な⾏動探索を簡略化し,学習を効率化する
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
39
マルチエージェント
・マルチエージェント強化学習	
- 1	つの環境の中で複数のエージェントが⾏動する事を前提	
• エージェントは個別に⽬的を持ったり	
• 敵対したり	
• 協⼒したり	
- マルチエージェトの例	
• 対戦型ゲーム	
• 公道での⾃動運転,渋滞の解消	
• その他社会性が関係する課題全て	
・基本的には	Self-play	が前提となる	
- 不完全情報を含む場合はゲーム⽊依存になる場合が多い	
- 複雑で巨⼤なゲーム⽊を簡略化する⼿法を応⽤	
- 多⼈数ゲーム	(e.g.	ポーカー)	AI	系技術
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
40
Self-play	のイメージ
過去の⾃⾝やデータ
環境内の他	
エージェント
学習	
エージェント
対戦・学習
過去G
過去A
過去B
過去D
過去C
過去E
過去F
⾃⾝	or	選択を保存
ランダムに過去の⾃信を選択	or		平均的な⾃分の振る舞いを学習
⽬的(報酬関数)が異なるエージェントごとに学習して	
環境の構成要員として更新し続ける
シミュレータ
+
状態
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
41
×	エージェントの数
×	繰り返し計算	×	試⾏錯誤
次状態次状態
単発の意思決定の最適化
状態⾏動 ⾏動
×	状態の数	(多段階,環境全体)
Self-play	は繰り返しの繰り返しなので更に反復回数が更に膨⼤になる	
影響が弱いなら環境側としてモデリングしてしまう⼿段はある	
→	シミュレータの状態遷移として多数のエージェントを環境として背景化	
 	→	環境の複雑さとしてシミュレータに押し付けている	(正確さには⽋ける)
マルチエージェント
or
環境内の他	
エージェント
シミュレータ
環境の遷移	
のモデル	
今まではこちらだけ	
を考えていた
何らかの統計情報・データ
例:過去の対戦情報
阻害⾏動
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
42
状態	1 ⾏動 状態	2 ⾏動
報酬
状態遷移
シミュレータ
学習エージェント:
マルチエージェントの技術は単⼀エージェントの強化学習にも使える	
学習エージェントの⾏動を阻害するように学習する	
敵対エージェントと競い合うように学習することで	
結果的に未知の状況にも強い頑健な⽅策を学習できる	
強化学習アルゴリズム側の⼯夫
マルチエージェントとロバストな⽅策
敵対学習エージェント:
Pinto, L., et al. Robust Adversarial Reinforcement Learning. https://arxiv.org/abs/1703.02702. 2017.
Copyright (C) DeNA Co.,Ltd. All Rights Reserved.
43
問題の分解の仕⽅のまとめ
・強化学習応⽤時の問題の分割	
- 応⽤したい問題にとって(1)(2)(3)(4)が何かを把握すること	
・いずれかの不⾜を他に押し付けるために問題の定義を書き換えることも重要	
- 実際に使う	(4)	を決めるためには	(1)(2)(3)をしっかり整理検討	
- (1)(2)(3)	をどう定義すべきかは複数の	(4)	の知識が必要	
• 問題を強化学習に落とし込むのも上記の繰り返し	
• ⼀般的データサイエンスと強化学習のアルゴリズム知⾒が両⽅必要
(1)	シミュレータ	
課題環境のモデリング
(2)	報酬関数	
⽬的の定義
(3)	状態特徴の定義	
特徴量の設計
(4)	強化学習アルゴリズム	
解き⽅,他の不⾜を吸収可能

More Related Content

PDF
多様な強化学習の概念と課題認識
PDF
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
PDF
方策勾配型強化学習の基礎と応用
PDF
強化学習その2
PDF
DQNからRainbowまで 〜深層強化学習の最新動向〜
PDF
強化学習と逆強化学習を組み合わせた模倣学習
PPTX
強化学習 DQNからPPOまで
多様な強化学習の概念と課題認識
カスタムSIで使ってみよう ~ OpenAI Gym を使った強化学習
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
方策勾配型強化学習の基礎と応用
強化学習その2
DQNからRainbowまで 〜深層強化学習の最新動向〜
強化学習と逆強化学習を組み合わせた模倣学習
強化学習 DQNからPPOまで

What's hot (20)

PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PDF
Bayesian Neural Networks : Survey
PPTX
強化学習における好奇心
PDF
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
PDF
[DL輪読会]Control as Inferenceと発展
PDF
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
PDF
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
PDF
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
PPTX
[DL輪読会]GQNと関連研究,世界モデルとの関係について
PDF
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
PPTX
畳み込みニューラルネットワークの高精度化と高速化
PDF
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
PDF
数学で解き明かす深層学習の原理
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
3次元レジストレーション(PCLデモとコード付き)
PDF
「世界モデル」と関連研究について
PDF
ドメイン適応の原理と応用
PDF
Active Learning 入門
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Bayesian Neural Networks : Survey
強化学習における好奇心
深層強化学習の分散化・RNN利用の動向〜R2D2の紹介をもとに〜
[DL輪読会]Control as Inferenceと発展
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
SSII2022 [TS1] Transformerの最前線〜 畳込みニューラルネットワークの先へ 〜
[DL輪読会]GQNと関連研究,世界モデルとの関係について
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
畳み込みニューラルネットワークの高精度化と高速化
【論文調査】XAI技術の効能を ユーザ実験で評価する研究
数学で解き明かす深層学習の原理
[DL輪読会]相互情報量最大化による表現学習
3次元レジストレーション(PCLデモとコード付き)
「世界モデル」と関連研究について
ドメイン適応の原理と応用
Active Learning 入門
Ad

Similar to 強化学習の基礎的な考え方と問題の分類 (20)

PDF
強化学習とは (MIJS 分科会資料 2016/10/11)
PDF
[DL輪読会]Learning to Act by Predicting the Future
PPTX
Reinforcement Learning(方策改善定理)
PPTX
強化学習1章
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
PPT
Reinforcement learning
PPT
Reinforcement learning
PDF
Computational Motor Control: Reinforcement Learning (JAIST summer course)
PDF
強化学習メモスライド
PPTX
深層強化学習入門
PDF
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
PPTX
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
PDF
強化学習@PyData.Tokyo
PPTX
RL_chapter1_to_chapter4
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
PDF
Study aiラビットチャレンジ 深層学習Day4
PPTX
強化学習 と ゲーム理論 (MARL)
PPTX
1017 論文紹介第四回
DOCX
レポート深層学習Day4
PDF
深層強化学習 Pydata.Okinawa Meetup #22
強化学習とは (MIJS 分科会資料 2016/10/11)
[DL輪読会]Learning to Act by Predicting the Future
Reinforcement Learning(方策改善定理)
強化学習1章
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
Reinforcement learning
Reinforcement learning
Computational Motor Control: Reinforcement Learning (JAIST summer course)
強化学習メモスライド
深層強化学習入門
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
【DL輪読会】Is Conditional Generative Modeling All You Need For Decision-Making?
強化学習@PyData.Tokyo
RL_chapter1_to_chapter4
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Study aiラビットチャレンジ 深層学習Day4
強化学習 と ゲーム理論 (MARL)
1017 論文紹介第四回
レポート深層学習Day4
深層強化学習 Pydata.Okinawa Meetup #22
Ad

Recently uploaded (12)

PDF
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
PDF
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
PDF
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
PPTX
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
PPTX
Vibe Codingを触って感じた現実について.pptx .
PDF
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
PDF
20250823_IoTLT_vol126_kitazaki_v1___.pdf
PPTX
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
PDF
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
PDF
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
PDF
Working as an OSS Developer at Ruby Association Activity Report 2025
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual...
Geminiの出力崩壊 本レポートは、Googleの大規模言語モデル「Gemini 2.5」が、特定の画像と短文入力に対して、誤った地名を推定し、最終的に...
ココロ分解帳|感情をやさしく分解し自分と他者を理解するためのモバイルノートアプリ
生成AIとモデルベース開発:実はとても相性が良いことを説明します。まあそうだろうなと思われる方はご覧ください。
Vibe Codingを触って感じた現実について.pptx .
20250826_Devinで切り拓く沖縄ITの未来_AI駆動開発勉強会 沖縄支部 第2回
20250823_IoTLT_vol126_kitazaki_v1___.pdf
Cosense - 整えずして完全勝利!Cosenseが他のwikiツールと違う理由
Yamaha DT200WR Real Enduro ENGINE CYLINDER TRANSMISSION
翔泳社 「C++ ゼロからはじめるプログラミング」対応 C++学習教材(三谷純)
Working as an OSS Developer at Ruby Association Activity Report 2025

強化学習の基礎的な考え方と問題の分類

  • 1. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. DeNA Co., Ltd. システム本部 AI システム部 AI 研究開発第三グループ 甲野 佑 強化学習の基礎的な考え⽅と問題の分類
  • 2. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 甲野 佑 所属 : 株式会社ディー・エヌ・エー AI システム部 AI 研究開発第三グループ     東京電機⼤学 理⼯学部 講師 (兼業) 研究 : 強化学習,”逆転転オセロニア” への応⽤ 興味:神経科学,認知科学に基づいた階層型 RL アーキテクチャ 〜2017年3⽉: ⼤学で強化学習の研究してきました 2017年4⽉〜: 強化学習を応⽤したゲーム AI の研究開発をしています 2018年4⽉〜: 東京電機⼤学にて⼈⼯知能についての授業をしています ⾃⼰紹介 2
  • 3. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 3 【前提として】 前半は既存発表スライドによる基礎概念の説明 (https://www.slideshare.net/yukono1/ss-102843951) (https://www.slideshare.net/yukono1/ai-82646808) ↓ 後半は応⽤時の強化学習課題の作り⽅ 本スライドはもう少し整理してからアップロード予定 今回のテーマ
  • 4. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 4 強化学習とは ・報酬を最⼤化する⽅策を獲得するのが⽬的 ・基本は動物が芸を覚えるのと同じ  - 当該の⾏動の選択分布(⽅策)の良し悪しを環境との相互作⽤から学習  - 収益が良かったらその⾏動を取る確率が上がり,悪かったら下がる   → 基本の理屈は単純 状態:ランプ点灯 行動:ボタン押下 報酬:エサ獲得 強化 基本的には鳩の条件付け実験 ”スキナー箱” そのもの
  • 5. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 5 強化学習と教師あり学習の対応関係 教師あり学習と同じ 教師あり学習と異なる ⽬的はともかく具体的な学習では関数近似をしている - 今後得られる収益予測に対する回帰 (価値関数の学習) - ⾏動選択に対する多クラス分類 (⽅策分布の学習) 環境に対する主体的なデータ※のサンプリングが前提   ※ データ = (状態, ⾏動) → (次状態) (報酬) の状態遷移軌跡
  • 6. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 6 強化学習と教師あり学習の対応関係 ⽬的 教師あり学習 強化学習 教師なし学習 環境 or データ 教師信号⼊⼒信号 データは所与 報酬観測状態観測 データは自分で収集 ⼊⼒信号 データは所与 損失関数 報酬の定義 条件・制約 法則発⾒適応⾏動完璧な予測 データ所与である前提と異なり,強化学習は 環境を探索して主体的にデータを獲得しつつ⾏動⽅策を最適化 ※ わかりやすさ重視で簡略化
  • 7. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 7 強化学習と教師あり学習の対応関係 教師あり学習と同じ 教師あり学習と異なる ⽬的はともかく具体的な学習では関数近似をしている - 今後得られる収益予測に対する回帰 (価値関数の学習) - ⾏動選択に対する多クラス分類 (⽅策分布の学習) 環境に対する主体的なデータ※のサンプリングが前提   ※ データ = (状態, ⾏動) → (次状態) (報酬) の状態遷移軌跡 - 動的なサンプリングなのでデータが⼤量に取得しにくい - 収益に対する bias and variance trade-off - サンプリングされるデータが強化学習エージェント⾃⾝の現 ⾏動⽅針 (⽅策) に依存 - この⾃⼰依存性が強化学習を難しくしている
  • 8. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 8 基本的強化学習概念 実⽤向き → バンディット問題・⽂脈付きバンディット問題 応⽤事例は限定的だが保証有 → テーブル型強化学習 ⾼度な応⽤に向けた技術 → (関数近似) 強化学習 e.g. DQN 等 ⽂脈付き バンディット問題 バンディット問題 教師あり学習 (⾮時系列) 強化学習 (関数近似使⽤) テーブル型 強化学習 状態系列=軌跡 VS 単発状態 環境観測 (サンプリング) で状態表現を取得 VS テーブル形式での状態の完全な表現が所与報酬による評価 VS 教師信号 最も単純な強化学習課題であるバンディット問題との関係 ※ わかりやすさ重視で簡略化 ※VS の内側概念の⽅が問題クラスが広い Littman, M. L. Reinforcement learning improves behaviour from evaluative feedback. Nature, 521, (7553), 445-451. 2015.
  • 9. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 9 強化学習と教師あり学習の対応関係のまとめ ⽬的はともかくやっていることは概ね回帰かクラス分類課題に落とし 込める - つまり深層ニューラルネット等の⾼度な関数近似を利⽤可能 - 深層ニューラルネットを関数近似に利⽤した強化学習を深層強 化学習と呼ぶ 教師あり学習を既に知っている強化学習の初学者にとって複雑に感じ る点は以下による - データは⾃分で環境からサンプリングしなければいけない - ターゲット (教師あり学習でいう教師信号) が⾃⼰依存
  • 10. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 10 ・学習が難しい,学習コストが⾼い ・シミュレータ開発コストが⾼い ・リアリティーギャップ ・タスク間の汎⽤性 ・マルチタスクが苦⼿ ・不完全情報 (不完全観測) ・(本質的に) 時系列依存 ・マルチエージェント ・[深層学習由来の問題] 価値関数の学習の困難さ すぐ思いつくだけでも沢⼭存在 細かい問題の羅列は ↓ (https://www.slideshare.net/yukono1/ss-102843951) 現在の強化学習の主要な課題
  • 11. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 11 バンディット問題を使った応⽤ 広告A を提⽰ ユーザー の来訪 広告B を提⽰ 提⽰された広告をユーザーがクリックする or しない A/B テストが有名,例:ユーザーに対してどの広告を提⽰するか ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的 ↓ 試⾏錯誤して⽬的を最⼤化する広告の提⽰割合を調整するのが AI の役⽬
  • 12. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 12 バンディット問題を使った応⽤ ⽂脈付きバンディット問題:ユーザーごとに適切な広告を提⽰ 広告A を提⽰ ユーザー の来訪 広告B を提⽰ A/B テストが有名,例:ユーザーに対してどの広告を提⽰するか ユーザー全体に対する⽬的(クリック率など)の最⼤化が⽬的 提⽰された広告をユーザーがクリックする or しない 広告A を提⽰ 男性/20代 広告B を提⽰ 広告A を提⽰ ⼥性/30代 広告B を提⽰ 広告A を提⽰ ⼥性/20代 広告B を提⽰ 広告A を提⽰ 男性/40代 広告B を提⽰ ユーザー属性(特徴量)を細かく定義,類似度に応じて広告の好嫌を共有
  • 13. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 13 ⽂脈付きバンディット問題を知らずに応⽤はできない(かも?) 広告A を提⽰ 閲覧者 広告B を提⽰ 知っている⼈には退屈な話・・・しかし, ⽂脈付きバンディット問題は深層強化学習応⽤時に必要な知⾒を教えてくれる         ・状態の特徴量設計の重要さ         ・アルゴリズムの評価とシミュレーション 閲覧者 a 閲覧者 b 閲覧者 d 閲覧者 c 閲覧者 f 潜在的なユーザー群 ほか多数 訪問 提⽰された広告を閲覧者がクリックする or しない 閲覧者 e
  • 14. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 14 バンディット問題の⼿法 試⾏錯誤しないと新規広告を含めた最良の配信⽅法はわからない うまく試⾏錯誤するような評価⽅法  → UCB 系アルゴリズム,Thompson Sampling がメジャー ユーザーの属性,類似度を定義する特徴量の設計が重要 探索報酬で真の報酬推定に 反する⾏動を促進 評価の未知度合いを上乗せ 試⾏していくと減少 A B< A B> 試⾏錯誤:UCB系 A B 情報の共有:LinUCB 等 特 徴 1 特 徴 2 特 徴 3 特 徴 4 特 徴 5 特 徴 1 特 徴 2 特 徴 3 特 徴 4 特 徴 5 ユーザーの持つ特徴の評価の和 ユーザー間の同じ特徴の評価は 共有される <
  • 15. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 15 バンディットアルゴリズムの評価と環境 実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ りよくユーザーへのアクション(広告配信)を最適化できるかが不明 → 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい   → 過去のデータを使ってシミュレーション 広告A を提⽰ 閲覧者 広告B を提⽰ 閲覧者 a 閲覧者 b 閲覧者 d 閲覧者 c 閲覧者 f 実環境:潜在的なユーザー群 ほか多数 訪問 提⽰された広告を閲覧者がクリックする or しない 閲覧者 e
  • 16. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 広告A を提⽰ 16 バンディットアルゴリズムの評価と環境 実際に試してみないとアルゴリズム,ハイパーパラメータ,特徴量がよ りよくユーザーへのアクション(広告配信)を最適化できるかが不明 → 実運⽤⼊の前にアルゴリズムの良し悪しを評価したい   → 過去のデータを使ってシミュレーション → 過去のデータからは実績データと異なる選択の正確な評価ができない 閲覧者 広告B を提⽰ 閲覧者 a 閲覧者 b 閲覧者 d 閲覧者 c 閲覧者 f 過去のユーザーデータ ほか多数 サンプリング 過去のユーザー履歴:過去の提⽰広告を閲覧者がクリックした or しなかった 閲覧者 e ←過去に提⽰した広告 現学習中のアルゴリズム はこちらを提⽰するかも→
  • 17. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 広告A を提⽰ 17 バンディットアルゴリズムの評価と環境 閲覧者 広告B を提⽰ 閲覧者 a 閲覧者 b 閲覧者 d 閲覧者 c 閲覧者 f 過去のユーザーデータ ほか多数 サンプリング 報酬の混合モデル 過去のデータから作られた閲覧者と広告のクリック(報酬)予測モデルと + 過去のデータからクリック実績を当時のサンプリング分布で補正した報酬値 閲覧者 e ←過去に提⽰した広告 現学習中のアルゴリズム はこちらを提⽰するかも→ → シミュレーション環境を教師あり学習で作成してアルゴリズムを評価 Li, L., et al. Unbiased offline evaluation of contextual-bandit-based news article recommendation algorithms. Proceedings of the fourth ACM international conference on Web search and data mining. 2011.
  • 18. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 18 強化学習の応⽤事例 ※ 上記の系列 (状態と⾏動の遷移軌跡) が強化学習を考える上での情報の単位 ユーザー からの質問 AI の応答 ユーザー からの応答 AI の応答 状態 1 ⾏動 状態 2 ⾏動 状態遷移 建物や 揺れの状態 ダンパー の調整 建物や 揺れの状態 ダンパー の調整 建物の揺れの⼩ささ ユーザーの評価 報酬関数 強化学習の基本: 対話課題: 耐震ダンパー制御: 状態遷移 状態遷移 ※ Seq2Seq で⽂字列⽣成を事前学習後
  • 19. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 19 強化学習と動的計画法とその利点 ある制約(MDP)を前提に,単発の意思決定 × 多段階にして探索空間を削減 動的計画法(Dynamic Programming, DP)の基本的考え⽅ 全ての⼿順のパターンを試す 単発の選択を何度も繰り返し試す 次状態次状態 マルコフ決定過程(MDP) 現在参照している状態の情報のみから 次にどの状態に遷移するか決まる予測可能 (確率的な場合も) 時系列を次が予測可能な情報単位に分割できる 状態⾏動 ⾏動
  • 20. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. × 繰り返し計算 20 次状態次状態 単発の意思決定の最適化 状態⾏動 ⾏動 報酬 × 状態の数 (多段階,環境全体) MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法 強化学習と繰り返し 収束するまで繰り返す
  • 21. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 21 強化学習と繰り返し MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法 離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う π Rπ⽅策 ⽅策の評価 (収益) ⽅策(⾏動の選択分布)の評価に基づいて良い⽅策を探索/最適化する ⽅策(⾏動の選択分布)の良さを実際の⾏動結果から評価する π’ Rπ⽅策 ⽅策の評価 (収益) 全てはこの反復で成り⽴っている 難しく⾒えてもこのなんらかの近似でしかない 評価をサンプル:環境モデルが不明だからサンプリング ⽅策の修正
  • 22. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. × 繰り返し計算 22 次状態次状態 単発の意思決定の最適化 状態⾏動 ⾏動 × 状態の数 (多段階,環境全体) 強化学習の本質は繰り返し,ゆえに⾼コスト 単発の意思決定 × 多段階 × 繰り返し試⾏錯誤 反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易 MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法 離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う 報酬 強化学習と繰り返し × 試⾏錯誤
  • 23. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. × 繰り返し計算 23 次状態次状態 単発の意思決定の最適化 状態⾏動 ⾏動 × 状態の数 (多段階,環境全体) 強化学習の本質は繰り返し,ゆえに⾼コスト 単発の意思決定 × 多段階 × 繰り返し試⾏錯誤 反復回数が多いため状態の数や状態遷移数は少ないほど学習が容易 MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法 離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う 報酬 強化学習と繰り返し × 試⾏錯誤
  • 24. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. × 繰り返し計算 × 試⾏錯誤 24 次状態次状態 単発の意思決定の最適化 状態⾏動 ⾏動 × 状態の数 (多段階,環境全体) MDP の導⼊による問題の変換,状態の定義と遷移確率が⾃明なら動的計画法 離散的な状態定義や遷移確率が⾃明でない場合に強化学習アルゴリズムを使う 報酬 状態⾏動 ⾏動 状態⾏動 ⾏動 状態が類似 → 知識の共有 ・類似を定義する特徴量 ・知識をうまく共有する近似関数 の設計 強化学習と繰り返し ↑ 深層学習が⼀応解決 (油断は禁物) 状態の数に対する反復の効率化 → 類似した状態への知識(反復結果)の転移 →
  • 25. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 25 MDPと状態の特徴量の定義 状態 t ⾏動 状態 t+1 ⾏動 状態遷移 ⼀つ前の状態⾏動のみから次の状態が決まる  → 1 階マルコフ連鎖 (単純マルコフ)  → 現在の情報からのみ⾏動を最適化できる  → 次状態が予測可能な⼊⼒が必要   ・画像情報 (ゲーム)   ・各種センサー情報 (運動制御など)   ・+などから作られた特徴量
  • 26. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 状態 t-2 ⾏動 状態 t-1 ⾏動 26 MDPと状態の特徴量の定義 状態 t ⾏動 状態 t+1 ⾏動 状態遷移 状態 t-3 ⾏動 N 個の状態⾏動から次の状態が決まる  → N 階マルコフ連鎖  → 過去の情報を覚えていないと⾏動を最適化できない ここで発⽣する問題 ・過去の状態⾏動の組み合わせが爆発  - たとえ近似関数を使ってもパラメータ数が指数的に増加 ・過去をどの程度の⻑さで覚えておくべきかがわからない ・全て覚えておくのが⼤変 (学習データの巨⼤化)
  • 27. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 状態 t-2 ⾏動 状態 t-1 ⾏動 27 MDPと状態の特徴量の定義 状態 t ⾏動 状態 t+1 ⾏動 状態遷移 状態 t-3 ⾏動 状態遷移を予測するのに必要な情報だけを特徴量として設計することで 状態を圧縮して組合せ爆発を防ぐ ※ RNN を⽤いて時系列を学習する⽅法もあるが学習の難易度は上がる 過去を代替えする 状態の特徴量 t 状態 t ⾏動 状態 t+1 ⾏動 状態遷移
  • 28. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 状態 t-2 ⾏動 状態 t-1 ⾏動 28 MDPと状態の特徴量の定義 状態 t ⾏動 状態 t+1 ⾏動 状態遷移 状態 t-3 ⾏動 間の⾏動や遷移が決まりきった系列(スキル・お作法・テクニック)なら その複数の⾏動系列をひとつの⾏動として⾒なすこともできる 状態 t+1 ⾏動 状態遷移 状態 t-3 ⾏動 = ある決まった状態⾏動系列 (スキル等) e.g. 短期的なルールベース⾏動 状態特徴と⾏動の単位をうまく設計して問題を,  ・⽂脈付きバンディット問題  ・できるだけ短い状態遷移系列の問題 に近づけて,学習の繰り返し回数が減少,学習しやすくさせる
  • 29. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 29 強化学習として解くのに必要なものと困難さ (1) シミュレータ 課題環境のモデリング (2) 報酬関数 ⽬的の定義 (1) と (3) はデータサイエンスを駆使して作成する必要がある 他が不完全な設計でも⾼度な (4) の導⼊で解消できる可能性も (3) 状態特徴の定義 特徴量の設計 (4) 強化学習アルゴリズム 解き⽅,他の不⾜を吸収可能 現実の問題に対処しようとすると (1) と (2) が作りにくい ユーザーから の質問 (3) AI の応答 ユーザーから の応答 (3) AI の応答 ユーザーの評価 (2) 対話課題: ⼈間の応答モデル? (1)
  • 30. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 30 シミュレータの問題 ⾏動 A 状態 ⾏動 B 状態 a 状態 b 状態 d 状態 c 状態 f 過去に得られた状態データ群 ほか多数 サンプリング 報酬モデル 状態 e ← 実際にとった⾏動 シミュレータ要素 通常の強化学習では状態遷移の概念が加わる → シミュレータはなるべく正確に遷移パターンを模倣する必要がある 先ほどの⽂脈付きバンディット問題の評価を強化学習課題と捉えると・・・
  • 31. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 31 シミュレータの問題 状態 1 ⾏動 状態 2 ⾏動 報酬 状態遷移 シミュレータ 膨⼤な反復回数が必要なので,シミュレータが⾼速であれば学習が早まる → それだけ学習時におけるシミュレータは重要な役割 強化学習⼀般:
  • 32. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 32 ゲームの場合 ゲーム ステータス 1 コントローラ 操作 ゲーム ステータス 2 コントローラ 操作 ゲームスコア等 状態遷移 ⾼速ゲームロジック ゲームであれば描画などを切り離した ⾼速なゲームロジックで学習シミュレータを作成 ゲーム開発チームとの連携が必要 もちろん DQN などのようにゲーム画⾯をそのまま使っても良い (ゲーム進⾏が遅い=学習時間も遅くなる) IMPALA や R2D2 などの分散型強化学習で シミュレータからの情報を並列化的にサンプリングすることで効率化 (⾼いエンジニアリングスキルが必要) ゲーム:
  • 33. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 33 耐震ダンパー制御の場合 建物や 揺れの状態 ダンパー の調整 建物や 揺れの状態 ダンパー の調整 建物の揺れの⼩ささ 耐震ダンパー制御: 状態遷移 物理シミュレータ 耐震実験データ 膨⼤な揺れのパターン 建物の特性 建物の揺れ幅等 参考 URL : https://inforium.nttdata.com/foresight/ai-vibration-control.html 数理的な解析からモデルを作成 ⾼度な解析での状態遷移モデルの作成 揺れのパターンより建物の特性が優位という知⾒の発⾒が重要 → 状態の特徴量設計にも活きる
  • 34. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 34 “対話”など極めてモデル化の難しい課題の場合 ユーザー からの質問 AI の 応答 ユーザー からの応答 AI の 応答 ユーザーの評価 対話課題: 状態遷移 オンラインな実環境 現実の⼈間という複雑すぎてモデルの作成が困難である場合, オンラインな実験環境で試すしかない → 学習環境と実運⽤環境のズレは少ないが,データ数が稼げない 映画チケットの予約等,⽐較的ドメインが固定された課題では ルールベースの応答 bot (シミュレータ) を相⼿に学習 同じ⾃然⾔語課題でも翻訳では BLEU 等の指標を収益として強化学習する BLEU 等の翻訳指標は直接損失関数にできない (勾配計算不能) ので 系列⽣成の学習に強化学習を利⽤する (MIXER 等) Ranzato, M. A, Chopra, S., Auli, M., Zaremba, W. Sequence level training with recurrent neural networks. arXiv preprint arXiv: 1511.06732. 2015. https://arxiv.org/abs/1511.06732 Li, X., Chen, Y. N., Li, L., Gao, J., Celikyilmaz, A., End-to-End Task-Completion Neural Dialogue SystemsIJCNLP. 2017. https://arxiv.org/abs/1703.01008
  • 35. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 35 複雑なロボットの運動制御の場合 (より複雑な課題として) 状態 1 ⾏動 状態 2 ⾏動 報酬 状態遷移 シミュレータ オンラインな実環境 少なからず乖離が存在する どんな課題でも特徴量設計は重要 ロボットの運動制御ではそれ以上にアルゴリズムに依存することが多い    ・シミュレータの完成度も重要だが限界がある    ・各関節の⾏動の組み合わせが複雑すぎる      - AI が選択する関節の出⼒値は連続的な分布で近似      - 有名な TRPO や PPO などの⽅策勾配法を使って⽅策分布を学習    ・明らかに無意味な⾏動パターンも多い 強化学習⼀般: 複雑なので無意味な⾏動パターンが多い
  • 36. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 36 状態 1 ⾏動 状態 2 ⾏動 報酬 状態遷移 シミュレータ オンラインな実環境 激しく乖離 → 実環境より難しくなる   → 結果,ロバストな⽅策を学習 強化学習⼀般: 何らかの統計情報・データ 強⼒なノイズ+ あらかじめシミュレータが強いランダム性を持つものとして設計 そのようなランダム性に対処していくとノイズに強い頑健な⽅策を学習 (場当たり的な) シミュレータ側の⼯夫 シミュレータと実環境のギャップへの対処
  • 37. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 37 逆強化学習 状態 1 ⾏動 状態 2 ⾏動 報酬 エキスパートの報酬モデル エキスパートのデモンストレーションの実験データ 逆強化学習アルゴリズムで報酬関数を作成 エキスパートの挙動を再現するような⾏動が優先されるような報酬 → 無意味な⾏動をあまり取らなくなる → 学習の効率が良くなる 報酬関数の⼯夫 逆強化学習や転移学習に複雑な⾏動探索を簡略化し,学習を効率化する
  • 38. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 38 転移学習 状態 1 ⾏動 状態 2 ⾏動 報酬 複雑な⾏動を覚えた コントローラ ⽐較的単純な複数のタスク 物を掴む課題 移動する課題物を置く課題 各タスクで学習した意味のある⾏動を コントローラに埋め込む (転移学習) 無意味な⾏動を防ぎ探索空間を削減 より単純にあらかじめ単純なタスクで基礎的な⾏動をマルチタスク学習して そのパラメータを初期パラメータとして流⽤するのも転移学習 タスク段階的に難しくして繰り返す場合,カリキュラム学習とも呼ばれる 逆強化学習や転移学習に複雑な⾏動探索を簡略化し,学習を効率化する
  • 39. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 39 マルチエージェント ・マルチエージェント強化学習 - 1 つの環境の中で複数のエージェントが⾏動する事を前提 • エージェントは個別に⽬的を持ったり • 敵対したり • 協⼒したり - マルチエージェトの例 • 対戦型ゲーム • 公道での⾃動運転,渋滞の解消 • その他社会性が関係する課題全て ・基本的には Self-play が前提となる - 不完全情報を含む場合はゲーム⽊依存になる場合が多い - 複雑で巨⼤なゲーム⽊を簡略化する⼿法を応⽤ - 多⼈数ゲーム (e.g. ポーカー) AI 系技術
  • 40. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 40 Self-play のイメージ 過去の⾃⾝やデータ 環境内の他 エージェント 学習 エージェント 対戦・学習 過去G 過去A 過去B 過去D 過去C 過去E 過去F ⾃⾝ or 選択を保存 ランダムに過去の⾃信を選択 or 平均的な⾃分の振る舞いを学習 ⽬的(報酬関数)が異なるエージェントごとに学習して 環境の構成要員として更新し続ける シミュレータ + 状態
  • 41. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 41 × エージェントの数 × 繰り返し計算 × 試⾏錯誤 次状態次状態 単発の意思決定の最適化 状態⾏動 ⾏動 × 状態の数 (多段階,環境全体) Self-play は繰り返しの繰り返しなので更に反復回数が更に膨⼤になる 影響が弱いなら環境側としてモデリングしてしまう⼿段はある → シミュレータの状態遷移として多数のエージェントを環境として背景化   → 環境の複雑さとしてシミュレータに押し付けている (正確さには⽋ける) マルチエージェント or 環境内の他 エージェント シミュレータ 環境の遷移 のモデル 今まではこちらだけ を考えていた 何らかの統計情報・データ 例:過去の対戦情報
  • 42. 阻害⾏動 Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 42 状態 1 ⾏動 状態 2 ⾏動 報酬 状態遷移 シミュレータ 学習エージェント: マルチエージェントの技術は単⼀エージェントの強化学習にも使える 学習エージェントの⾏動を阻害するように学習する 敵対エージェントと競い合うように学習することで 結果的に未知の状況にも強い頑健な⽅策を学習できる 強化学習アルゴリズム側の⼯夫 マルチエージェントとロバストな⽅策 敵対学習エージェント: Pinto, L., et al. Robust Adversarial Reinforcement Learning. https://arxiv.org/abs/1703.02702. 2017.
  • 43. Copyright (C) DeNA Co.,Ltd. All Rights Reserved. 43 問題の分解の仕⽅のまとめ ・強化学習応⽤時の問題の分割 - 応⽤したい問題にとって(1)(2)(3)(4)が何かを把握すること ・いずれかの不⾜を他に押し付けるために問題の定義を書き換えることも重要 - 実際に使う (4) を決めるためには (1)(2)(3)をしっかり整理検討 - (1)(2)(3) をどう定義すべきかは複数の (4) の知識が必要 • 問題を強化学習に落とし込むのも上記の繰り返し • ⼀般的データサイエンスと強化学習のアルゴリズム知⾒が両⽅必要 (1) シミュレータ 課題環境のモデリング (2) 報酬関数 ⽬的の定義 (3) 状態特徴の定義 特徴量の設計 (4) 強化学習アルゴリズム 解き⽅,他の不⾜を吸収可能