9. 基礎理論の例題
2021/8/31
項目 定義内容
環境 縦横5x5マスのグリッド
エージェント ロボット
行動(a) 上、下、左、右いずれかへの移動
状態(s) ロボットが座標(x, y)にいる状態
報酬(r) 上、右は +10、下、左は -10
エピソード ロボットがゴールに到達するまで
強化学習の定義に当てはめると…
縦横5x5マスのグリッドで、スタート地点からゴール地点に
効率よく移動できるようロボットを学習させる
問題
a
r
報酬 +10
S
(1,1)
S
(2,1)
S
(x,y)
a
r
報酬 +10
s
(5,5)
右に移動 上に移動
a
Goalに移動
報酬 +10
r
価値(報酬の累積総和)
状態遷移の例
12. 行動価値関数
2021/8/31
状態sのとき
• 行動ポリシーπとは無関係に行動aを取った後
• ある方策πに従って行動したときの価値
キーポイント
• 行動価値関数の行動aは行動ポリシーπとは別
• ある状態(s)にいるときの行動価値は、それまでと
将来得られるであろう報酬の総和(価値と報酬の違
い)
ある状態sのときに、行動aを取った後に、行動ポリシーπに従って行動する時の価値
行動価値関数:Qπ(s,a)
行動状態価値関数 Qπ(s,a)で算出したイメージ
up
down
right
left π(s, a) =
0.6 (s = (4,1), a = up)
0.1 (s = (4,1), a =
down)
0.2 (s = (4,1), a = right)
0.1 (s = (4,1), a = left)
15. 状態遷移のバックアップ図
2021/8/31
S1
S1
S1
S1
バックアップ図で状態遷移の全パターンを表すことができ、価値関数により全ての状態sの価値
を計算可能
行動ポリシー:π(s, a) の例
0.6 (s = (1,1), a = up)
0.1 (s = (1,1), a = down)
0.2 (s = (1,1), a = right)
0.1 (s = (1,1), a = left)
S0
a = a up
r = r up
a = a down
r= r down
a = a right
r = r right
a = a left
r = r left
π(s, a)
a = a up
r = r up
a = a down
r= r down
a = a right
r = r right
a = a left
r = r left
π(s, a)
S2
S2
S2
S2
Sn
スタート ゴール
改善された行動
ポリシー
16. 動的計画法(ベルマン方程式)
2021/8/31
S1
S1
S1
S1
バックアップ図で状態遷移の全パターンを表すことができ、価値関数により全ての状態sの価値
を計算可能
行動ポリシー:π(s, a) の例
0.6 (s = (1,1), a = up)
0.1 (s = (1,1), a = down)
0.2 (s = (1,1), a = right)
0.1 (s = (1,1), a = left)
S0
a = a up
r = r up
a = a down
r= r down
a = a right
r = r right
a = a left
r = r left
π(s, a)
a = a up
r = r up
a = a down
r= r down
a = a right
r = r right
a = a left
r = r left
π(s, a)
S2
S2
S2
S2
Sn
スタート ゴール
価値が最大になる経路を高効率で計算する手法 = 動的計画法(ベルマン方程式)
改善された行動
ポリシー