Submit Search
強化学習入門
125 likes
•
48,647 views
Shunta Saito
1 of 62
Download now
Downloaded 531 times
1
2
Most read
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
Most read
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
Most read
53
54
55
56
57
58
59
60
61
62
More Related Content
PDF
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
PDF
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
PDF
機械学習のためのベイズ最適化入門
hoxo_m
PDF
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
PDF
強化学習その3
nishio
PDF
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
Preferred Networks
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
機械学習のためのベイズ最適化入門
hoxo_m
最近強化学習の良記事がたくさん出てきたので勉強しながらまとめた
Katsuya Ito
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
強化学習その3
nishio
渡辺澄夫著「ベイズ統計の理論と方法」5.1 マルコフ連鎖モンテカルロ法
Kenichi Hironaka
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
What's hot
(20)
PDF
PCAの最終形態GPLVMの解説
弘毅 露崎
PDF
方策勾配型強化学習の基礎と応用
Ryo Iwaki
PDF
強化学習その4
nishio
PDF
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Takahiro Kubo
PDF
Rで架空データの発生
Makoto Hirakawa
PPTX
勾配降下法の最適化アルゴリズム
nishio
PDF
強化学習その1
nishio
PPTX
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
PDF
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
PPTX
変分ベイズ法の説明
Haruka Ozaki
PDF
ベイズ最適化
MatsuiRyo
PDF
クラスタリングとレコメンデーション資料
洋資 堅田
PPTX
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
PDF
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
PDF
4 データ間の距離と類似度
Seiichi Uchida
PDF
最適輸送の計算アルゴリズムの研究動向
ohken
PDF
はじめよう多変量解析~主成分分析編~
宏喜 佐野
PDF
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
PPTX
強化学習アルゴリズムPPOの解説と実験
克海 納谷
PPTX
強化学習における好奇心
Shota Imai
PCAの最終形態GPLVMの解説
弘毅 露崎
方策勾配型強化学習の基礎と応用
Ryo Iwaki
強化学習その4
nishio
Tech-Circle #18 Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン
Takahiro Kubo
Rで架空データの発生
Makoto Hirakawa
勾配降下法の最適化アルゴリズム
nishio
強化学習その1
nishio
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
Yoshitake Takebayashi
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka
変分ベイズ法の説明
Haruka Ozaki
ベイズ最適化
MatsuiRyo
クラスタリングとレコメンデーション資料
洋資 堅田
ノンパラメトリックベイズを用いた逆強化学習
Shota Ishikawa
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
4 データ間の距離と類似度
Seiichi Uchida
最適輸送の計算アルゴリズムの研究動向
ohken
はじめよう多変量解析~主成分分析編~
宏喜 佐野
12. Diffusion Model の数学的基礎.pdf
幸太朗 岩澤
強化学習アルゴリズムPPOの解説と実験
克海 納谷
強化学習における好奇心
Shota Imai
Ad
Viewers also liked
(18)
PPTX
全脳アーキテクチャ若手の会 強化学習
kwp_george
PDF
Pythonではじめる OpenAI Gymトレーニング
Takahiro Kubo
PPTX
Paper intoduction "Playing Atari with deep reinforcement learning"
Hiroshi Tsukahara
PDF
"Playing Atari with Deep Reinforcement Learning"
mooopan
PDF
機械学習キャンバス0.1
nishio
PDF
Deep Q-Network 論文輪読会
Kotaro Tanahashi
PDF
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Takashi J OZAKI
PDF
最近のDQN
mooopan
PDF
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
PDF
Deep learning実装の基礎と実践
Seiya Tokui
PDF
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
PDF
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Takami Sato
PDF
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
PDF
強化学習その2
nishio
PDF
Deep Learning技術の今
Seiya Tokui
ZIP
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
PPTX
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
PDF
SlideShare 101
Amit Ranjan
全脳アーキテクチャ若手の会 強化学習
kwp_george
Pythonではじめる OpenAI Gymトレーニング
Takahiro Kubo
Paper intoduction "Playing Atari with deep reinforcement learning"
Hiroshi Tsukahara
"Playing Atari with Deep Reinforcement Learning"
mooopan
機械学習キャンバス0.1
nishio
Deep Q-Network 論文輪読会
Kotaro Tanahashi
Deep Learningと他の分類器をRで比べてみよう in Japan.R 2014
Takashi J OZAKI
最近のDQN
mooopan
「深層学習」第6章 畳込みニューラルネット
Ken'ichi Matsui
Deep learning実装の基礎と実践
Seiya Tokui
機械学習プロフェッショナルシリーズ 深層学習 chapter3 確率的勾配降下法
zakktakk
Icml2015 論文紹介 sparse_subspace_clustering_with_missing_entries
Takami Sato
RBM、Deep Learningと学習(全脳アーキテクチャ若手の会 第3回DL勉強会発表資料)
Takuma Yagi
強化学習その2
nishio
Deep Learning技術の今
Seiya Tokui
今さら聞けないカーネル法とサポートベクターマシン
Shinya Shimizu
NIPS2015読み会: Ladder Networks
Eiichi Matsumoto
SlideShare 101
Amit Ranjan
Ad
Similar to 強化学習入門
(20)
PDF
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
PPTX
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
PDF
Computational Motor Control: Reinforcement Learning (JAIST summer course)
hirokazutanaka
PDF
強化学習メモスライド
twiponta_suzuki
PDF
人工知能2018 6 強化学習の基礎
Hirotaka Hachiya
PPTX
1017 論文紹介第四回
Kohei Wakamatsu
PDF
「これからの強化学習」勉強会#1
Chihiro Kusunoki
PPTX
強化学習 sutton本 2章
ssuseraf8536
PDF
人工知能2018 強化学習の応用
Hirotaka Hachiya
PDF
実機で動かす深層強化学習(画像なし)
Deep Learning Lab(ディープラーニング・ラボ)
PDF
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
Jun Okumura
PDF
「統計的学習理論」第1章
Kota Matsui
PDF
多様な強化学習の概念と課題認識
佑 甲野
KEY
LS for Reinforcement Learning
imlschedules
PDF
「これからの強化学習」勉強会#2
Chihiro Kusunoki
PDF
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
PDF
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
PPTX
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
PDF
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
PPTX
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Shota Imai
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
Shota Imai
Computational Motor Control: Reinforcement Learning (JAIST summer course)
hirokazutanaka
強化学習メモスライド
twiponta_suzuki
人工知能2018 6 強化学習の基礎
Hirotaka Hachiya
1017 論文紹介第四回
Kohei Wakamatsu
「これからの強化学習」勉強会#1
Chihiro Kusunoki
強化学習 sutton本 2章
ssuseraf8536
人工知能2018 強化学習の応用
Hirotaka Hachiya
実機で動かす深層強化学習(画像なし)
Deep Learning Lab(ディープラーニング・ラボ)
ICLR2018読み会@PFN 論文紹介:Intrinsic Motivation and Automatic Curricula via Asymmet...
Jun Okumura
「統計的学習理論」第1章
Kota Matsui
多様な強化学習の概念と課題認識
佑 甲野
LS for Reinforcement Learning
imlschedules
「これからの強化学習」勉強会#2
Chihiro Kusunoki
NIPS KANSAI Reading Group #7: 逆強化学習の行動解析への応用
Eiji Uchibe
分散型強化学習手法の最近の動向と分散計算フレームワークRayによる実装の試み
SusumuOTA
Hierarchical and Interpretable Skill Acquisition in Multi-task Reinforcement ...
Keisuke Nakata
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
最新の多様な深層強化学習モデルとその応用(第40回強化学習アーキテクチャ講演資料)
Shota Imai
More from Shunta Saito
(12)
PDF
Deep LearningフレームワークChainerと最近の技術動向
Shunta Saito
PDF
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
Shunta Saito
PDF
Introduction to Chainer
Shunta Saito
PDF
[5 minutes LT] Brief Introduction to Recent Image Recognition Methods and Cha...
Shunta Saito
PDF
A brief introduction to recent segmentation methods
Shunta Saito
PDF
LT@Chainer Meetup
Shunta Saito
PDF
Building and road detection from large aerial imagery
Shunta Saito
PDF
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
PDF
Building detection with decision fusion
Shunta Saito
PDF
Automatic selection of object recognition methods using reinforcement learning
Shunta Saito
KEY
視覚認知システムにおける知覚と推論
Shunta Saito
KEY
集合知プログラミングゼミ第1回
Shunta Saito
Deep LearningフレームワークChainerと最近の技術動向
Shunta Saito
[unofficial] Pyramid Scene Parsing Network (CVPR 2017)
Shunta Saito
Introduction to Chainer
Shunta Saito
[5 minutes LT] Brief Introduction to Recent Image Recognition Methods and Cha...
Shunta Saito
A brief introduction to recent segmentation methods
Shunta Saito
LT@Chainer Meetup
Shunta Saito
Building and road detection from large aerial imagery
Shunta Saito
DeepPose: Human Pose Estimation via Deep Neural Networks
Shunta Saito
Building detection with decision fusion
Shunta Saito
Automatic selection of object recognition methods using reinforcement learning
Shunta Saito
視覚認知システムにおける知覚と推論
Shunta Saito
集合知プログラミングゼミ第1回
Shunta Saito
Recently uploaded
(10)
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
20250729_Devin-for-Enterprise
Masaki Yamakawa
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
強化学習入門
1.
強化学習入門 理工学研究科 D2 齋藤
俊太 13年5月3日金曜日
2.
学習? 動物心理学 観察 行動主義 学習によって行動が変化 → 行動を見れば学習し たかどうか分かる 認知主義 学習によって内面的な認知が変化 →
行動に出る前に内的表象が変化 している=これも学習 13年5月3日金曜日
3.
行動主義心理学的な実験 13年5月3日金曜日
4.
パブロフの犬(古典的条件付け) 犬に を与える前に「ベルを鳴らす」 何度か繰り返す 「ベルが鳴る」という刺激に対 して唾液を分泌するようになる 「刺激」と「反応」の連合を強める=連合学習 食べる時に「唾液を分泌する」という犬が生まれつき持つ無条件反応 が,学習の過程を経て「ベルが鳴る」という刺激に対して反応するよう に変化したことを意味する 13年5月3日金曜日
5.
猫の問題箱(試行錯誤学習) 何度か繰り返すと,やがて同じ行動が出現する頻度が高くなる 外に出ようとして猫が いろいろな行動をとる 偶然に外に出られた また箱にいれる パブロフの犬の場合と違い刺激は存在しないが,行動後の「満足」また は「不快」の度合いに応じて,行動の出現頻度が学習の過程を経て変化 する →効果の法則 13年5月3日金曜日
6.
スキナーの箱(報酬学習) が出る たまたまラットがレバーを押す ラットはレバー付近にいること が多くなる レバーを押す頻度が高くなる 状況と行動の結合を強めるような報酬を「正の強化子」,弱めるような報 酬を「負の強化子」という. 満足/不快を「 」=「報酬」という形で明確に与えた「試行錯誤学 習」.報酬に応じて行動の自発頻度が変化していく.このような学習 をオペランド条件付け(or 報酬学習)という. 13年5月3日金曜日
7.
認知心理学的な実験 13年5月3日金曜日
8.
認知心理学的な実験 内的な変化は行動だけからは観察が難しい 脳科学 脳におけるシナプスの可塑性 → シナプス同士は結合を生成/消滅/増強/抑制する 学習の動機付けはドーパミンにより行われる ドーパミンの分泌量や電気生理学的な脳に対する観察から 学習の過程を理解しようとする 13年5月3日金曜日
9.
で、どうやってコンピュータは 学習を行えばいいのか? 13年5月3日金曜日
10.
教師あり学習 「答え」「問題」 この矢印が欲しい 「問題」と「答え」を事前にたくさん用意しておいて, 間をつなぐ「写像」を近似する できるだけ未知の「問題」に対しても正しい「答え」が 予測できるようにしたい → どうやって汎化能力を獲得するかが重要 13年5月3日金曜日
11.
教師なし学習 観察者「問題」 この矢印が欲しい こういう問題だな 観察 ・特性を理解する ・要約する(次元削減) ・グループ化する(クラスタリング) 13年5月3日金曜日
12.
学習? 動物心理学 観察 行動主義 学習によって行動が変化 → 行動を見れば学習し たかどうか分かる 認知主義 学習によって内面的な認知が変化 →
行動に出る前に内的表象が変化 している=これも学習 13年5月3日金曜日
13.
強化学習問題 「問題」 13年5月3日金曜日
14.
強化学習問題 「問題」 チャレンジする 行動 13年5月3日金曜日
15.
強化学習問題 「問題」 チャレンジする 行動 よい行動 よくない行動 「評価」 報酬が与えられる (罰則) 13年5月3日金曜日
16.
強化学習問題 「問題」 チャレンジする 行動 どう行動すべきか よい行動 よくない行動 「評価」 報酬が与えられる (罰則) 13年5月3日金曜日
17.
強化学習問題 「問題」 チャレンジする 行動 どう行動すべきか この矢印が欲しいよい行動 よくない行動 「評価」 報酬が与えられる (罰則) 13年5月3日金曜日
18.
強化学習問題 「問題」 チャレンジする 行動 どう行動すべきか この矢印が欲しいよい行動 よくない行動 「評価」 報酬が与えられる (罰則) 答えではなく評価 13年5月3日金曜日
19.
手法の選び方 例:アンケートの回答を分析する 「年齢」と「収入」の関係を知りたい 年齢を入力,収入を出力とする教師あり学習 「年齢と収入」から似ている回答者をグループ化したい 年齢,収入を入力とする教師なし学習 「年齢と収入」に基づき回答者に広告を送りたい 年齢,収入を入力とし,売上を報酬とした強化学習 13年5月3日金曜日
20.
強化学習の背景 心理学 「試行錯誤学習」「報酬学習」 最適制御理論 制御対象の挙動の良し悪しを表す目的関数を 最大化または最小化するように制御則を求め る設計手法 → e.g. 電気代を抑えて目的を達成するには… 13年5月3日金曜日
21.
強化学習の構成 <人の場合> 13年5月3日金曜日
22.
強化学習の構成 <コンピュータの場合> 即時報酬を最大にする行動ではなく,報酬の積み重ねとして 将来にわたって得られる合計報酬=収益を最大にするように 行動を最適化していく 13年5月3日金曜日
23.
問題設定 エージェント 状態 → MDP 13年5月3日金曜日
24.
問題設定 エージェント 状態 行動 右に行く 左に行く → MDP 13年5月3日金曜日
25.
問題設定 エージェント 状態 行動 右に行く 左に行く 政策 状態 で行動 をとる確率 → MDP 13年5月3日金曜日
26.
問題設定 エージェント 状態 行動 右に行く 左に行く 環境 政策 状態 で行動 をとる確率 → MDP 13年5月3日金曜日
27.
問題設定 エージェント 状態 行動 右に行く 左に行く 環境 遷移確率 状態 で行動 をとった とき状態が になる確率 政策 状態 で行動 をとる確率 →
MDP 13年5月3日金曜日
28.
問題設定 エージェント 状態 行動 右に行く 左に行く 環境 次の状態 遷移確率 状態 で行動 をとった とき状態が
になる確率 政策 状態 で行動 をとる確率 → MDP 13年5月3日金曜日
29.
問題設定 エージェント 状態 行動 右に行く 左に行く 環境 次の状態 遷移確率 状態 で行動 をとった とき状態が
になる確率 報酬 政策 状態 で行動 をとる確率 → MDP 13年5月3日金曜日
30.
強化学習の目的 将来得られる報酬の総和が最大になるように政策を学習する (発散しないように)割引率 を定義し,これを乗じた報酬を 将来に渡り加えた総和を収益とし,この期待値を最大化する! E " 1X t=0 t R(st, at,
st+1) # , 8s0 2 S, 8a0 2 A目的関数 下記の目的関数を最大にする政策関数 を求める⇡ at ⇠ ⇡(at|st) st+1 ⇠ PT (st+1|st, at) st 2 S, at 2 A 2 (0, 1] 制約条件 A : ありうるすべての行動集合 S : ありうるすべての状態集合 13年5月3日金曜日
31.
強化学習の目的 E " 1X t=0 t R(st, at,
st+1) # , 8s0 2 S, 8a0 2 A目的関数 ⇡⇤ (a|s) ⌘ arg max ⇡ E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # を最大にする政策関数が最適政策関数 つまり… どうやって求めるか? 13年5月3日金曜日
32.
強化学習の目的 E " 1X t=0 t R(st, at,
st+1) # , 8s0 2 S, 8a0 2 A目的関数 ⇡⇤ (a|s) ⌘ arg max ⇡ E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # を最大にする政策関数が最適政策関数 つまり… どうやって求めるか? Q(s, a) とおく 13年5月3日金曜日
33.
強化学習の目的 E " 1X t=0 t R(st, at,
st+1) # , 8s0 2 S, 8a0 2 A目的関数 ⇡⇤ (a|s) ⌘ arg max ⇡ E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # を最大にする政策関数が最適政策関数 つまり… どうやって求めるか? Q(s, a) とおく Q(s, a) = E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 行動価値関数 13年5月3日金曜日
34.
行動価値関数 ⇡(a0|s0)PT (s0, a0,
s1) s0 s1 状態 で行動 をとる確率s0 a0 状態 で行動 をとったとき 状態 に遷移する確率 s0 a0 s1 R(s0, a0, s1) 報酬発生 この連鎖で得られる報酬の合計値=収益 収益の期待値が行動価値 13年5月3日金曜日
35.
行動価値関数 Q(s, a) =
E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 行動価値関数 ⇡(a0|s0)PT (s0, a0, s1) s0 s1 状態 で行動 をとる確率s0 a0 状態 で行動 をとったとき 状態 に遷移する確率 s0 a0 s1 R(s0, a0, s1) 報酬発生 この連鎖で得られる報酬の合計値=収益 収益の期待値が行動価値 13年5月3日金曜日
36.
行動価値関数と政策関数 ⇡⇤ (a|s) ⌘ arg
max ⇡ Q⇤ (s, a) 行動価値関数を最大にするような政策を知りたい強化学習の目的 1. 政策関数を適当に初期化(一様分布など) 2. 現在の政策に従って行動を起こし,報酬を観察 3. 現れた状態行動対 の価値を推定 4. 推定した を使って政策を改善 5. 1.に戻る (s, a) Q(s, a) これを繰り返すことにより最適政策を近似する 13年5月3日金曜日
37.
行動価値関数と政策関数 ⇡⇤ (a|s) ⌘ arg
max ⇡ Q⇤ (s, a) 行動価値関数を最大にするような政策を知りたい強化学習の目的 1. 政策関数を適当に初期化(一様分布など) 2. 現在の政策に従って行動を起こし,報酬を観察 3. 現れた状態行動対 の価値を推定 4. 推定した を使って政策を改善 5. 1.に戻る (s, a) Q(s, a) これを繰り返すことにより最適政策を近似する 疑問 3.の「状態行動対 の価値を推定」ってどうやる?(s, a) 4.の「推定した を使って政策を改善」ってどうやる?Q(s, a) 13年5月3日金曜日
38.
状態行動対の価値 Q(s, a) =
E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 例えば,状態 (s0, a0) の価値が知りたい 13年5月3日金曜日
39.
状態行動対の価値 Q(s, a) =
E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 例えば,状態 (s0, a0) の価値が知りたい 13年5月3日金曜日
40.
状態行動対の価値 Q(s, a) =
E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 例えば,状態 (s0, a0) の価値が知りたい 13年5月3日金曜日
41.
状態行動対の価値 Q(s, a) =
E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # 例えば,状態 (s0, a0) の価値が知りたい 色々なパスがあるが, それらを全て考慮して 得られる報酬の期待値 を計算する必要がある 13年5月3日金曜日
42.
状態行動対の価値 a1 s3 a4 s5 報酬の期待値(収益)は 左のようなパスを通った場合, ⇡(a0|s0)P(s0, a0, s1)R(s0,
a0, s1) + ⇡(a1|s1)P(s1, a1, s3)R(s1, a1, s3) + 2 ⇡(a4|s3)P(s3, a4, s5)R(s3, a4, s5) Q⇡ (s, a) = E " 1X t=0 t R(st, at, st+1)|s0 = s, a0 = a # これを 以降の全ての場合における 状態→行動選択確率(政策)と状態行動対 →次状態への遷移確率についての期待値を 計算すると がわかる s0 ! a0 Q⇡(s0, a0) さらにそれを全ての について計算す る必要がある (s, a) 13年5月3日金曜日
43.
大変すぎる 13年5月3日金曜日
44.
大変すぎる 動的計画法などで実際に計算することも可能だが, 状態数が増えたりするとほぼ計算不可能になる 13年5月3日金曜日
45.
行動価値関数の近似計算 モンテカルロ法 有限な時間ステップTで終了する状態行動対の遷移データ(エピ ソードデータ)を使って,行動価値関数を近似する 他にも,TD法(Temporal Difference Method), SARSA法,TD(λ)法,Q学習など様々な方法が存在する →
今回は実装が容易そうなモンテカルロ法について説明します 13年5月3日金曜日
46.
モンテカルロ法 こういうパスを ることも こういうパスを
ることも いろいろな場合がある 13年5月3日金曜日
47.
モンテカルロ法 では,とある状態行動対 の真価はどうやって知るか? Q⇡ (s2, a2)例えば, が知りたい まず,最大ステップ数Tを決める (s2, a2) が現れた時点から,Tまでに 観測された報酬から収益を計算する 色々なパスについてこれをやる 観測された収益の平均値を の価値とする (s2,
a2) 1. 2. 3. 4. 13年5月3日金曜日
48.
モンテカルロ法 では,とある状態行動対 の真価はどうやって知るか? Q⇡ (s2, a2)例えば, が知りたい まず,最大ステップ数Tを決める (s2, a2) が現れた時点から,Tまでに 観測された報酬から収益を計算する 色々なパスについてこれをやる 観測された収益の平均値を の価値とする (s2,
a2) 1. 2. 3. 4. あらかじめ決めた数のパスを生成しておき,上記の手順を踏めば,そ れらのパス中に現れた状態行動対については,行動価値が推定できる 13年5月3日金曜日
49.
政策改善 行動価値関数が推定できたら,それをもとに政策(どういった状態の ときにどの行動を選ぶ確率が高いか,という値)を改善する ε-greedy法 a⇤ = arg max a Q⇡ (s,
a) ⇡0 (a|s) = ( 1 ✏ + ✏ |A| ifa = a⇤ ✏ |A| otherwise 行動価値が最も高い行動を選ぶ確率を1-εにしたあと, 全ての選択肢にεを行動数で割った値を割り振る 13年5月3日金曜日
50.
学習の流れ ⇡⇤ (a|s) ⌘ arg
max ⇡ Q⇤ (s, a) 行動価値関数を最大にするような政策を知りたい強化学習の目的 1. 政策関数を適当に初期化(一様分布など) 2. 現在の政策に従って行動を起こし,報酬を観察 3. 現れた状態行動対 の価値を推定 4. 推定した を使って政策を改善 5. 1.に戻る (s, a) Q(s, a) これを繰り返すことにより最適政策を近似する 疑問 3.の「状態行動対 の価値を推定」ってどうやる?(s, a) 4.の「推定した を使って政策を改善」ってどうやる?Q(s, a) 13年5月3日金曜日
51.
三目並べのコンピュータプレーヤを 作ってみた 13年5月3日金曜日
52.
準備 0 1 2 3
4 5 6 7 8 • 9マスある • それぞれに ○ , , 空 の3状態 • 盤面ごとに状態番号をふると,3^9状態 13年5月3日金曜日
53.
準備 0 1 2 3
4 5 6 7 8 • 9マスある • それぞれに ○ , , 空 の3状態 • 盤面ごとに状態番号をふると,3^9状態 _人人人人_ > 多い <  ̄Y^Y^Y ̄ 13年5月3日金曜日
54.
準備 0 1 2 3
4 5 6 7 8 • 9マスある • それぞれに ○ , , 空 の3状態 • 盤面ごとに状態番号をふると,3^9状態 _人人人人_ > 多い <  ̄Y^Y^Y ̄ 0 1 2 3 4 5 6 7 8 左のように,45度回転の組み合わ せで同じ状態に持っていけるものは ひとつの状態として扱う 13年5月3日金曜日
55.
状態の圧縮 o x x o o 一つの状態を9ケタの3進数で表現する 0
... 空 1 ... o 2 ... x 左の盤面は 120021100 ある状態が入力されてきたら,回転変換を施したものも含めた8状態 の3進数表現を計算する 8種類の3進数を10進数に変換する 8種類の10進数の値のうち一番小さいものを状態番号とする 1. 2. 3. 13年5月3日金曜日
56.
状態の圧縮 13年5月3日金曜日
57.
事前に仮想試合をして行動価値を学習する 仮想プレイヤー ・基本的にランダムに手を打つ ・ただし,自分がリーチのときは勝つ手を選ぶ • 仮想プレイヤーとたくさん戦って価値関数を事前に計算する • 最大5手で終わる(最大ステップ数T=5の)ゲームを1000回x 30セットやる •
勝ったら報酬+10,負けたら報酬-10,引き分けなら報酬0 学習 13年5月3日金曜日
58.
勝率の変化 勝率 セット 13年5月3日金曜日
59.
実装で使ったもの • Ruby 1.9.3-p392 •
Ruby/SDL(可視化) • NArray(行列の扱い) *Githubにソースコードをアップ しました https://github.com/mitmul/TicTacToe 13年5月3日金曜日
60.
勝負を挑む 13年5月3日金曜日
61.
強くなりすぎた 13年5月3日金曜日
62.
おしまい 13年5月3日金曜日
Download