SlideShare a Scribd company logo
The Statistical Reccurent Unit
Akuzawa Kei
DLhacks
August 28, 2017
Contents
1 書誌情報
2 Introduction
3 Model
4 Experiments
5 Discussion
6 実装上のポイント
2 / 16
書誌情報
Authors: Junier B. Oliva, Barnabas Poczos, Jeff
Schneider
Conferrence: ICML2017
選定理由: シンプルかつ高精度の系列モデル。LSTM や GRU との
比較が楽しみ。
3 / 16
Introduction
従来のモデル(GRU, LSTM)
系列モデルの訓練は、系列が長いと勾配消失の危険性
MemoryCell, Gate によって長期間の依存関係を保持することがで
きる
提案モデル(SRU)
隠れ層に統計量の移動平均のみを保持する(Gate はいらない)
いくつかの重みで移動平均をとる
直観的利点: 移動平均の組み合わせにより様々な過去の統計量を表現
できる
多くの設定で GRU, LSTM を outperforming
4 / 16
model: graph and equations
— = [—(¸1); —(¸2); ::::::; —(¸m)]
f() は relu
— がいわゆる隠れ層
5 / 16
model: interpretaions
data-driven statistics
—(¸); ’ を統計量として考える(データセットを表現する変数くらい
の意味)
これらは a-priori に定められた統計量とは違い、データから自動で学
習されるので好ましい
multi-scaled statistics
—
(¸)
t = ¸—
(¸)
t`1 + (1 ` ¸)’t
= (1 ` ¸)(’t + ¸’t`1 + ¸2
’t`2::::::)
上式から、¸ が小さいほど、より現在の統計量に重みを置いていると
解釈できる
6 / 16
model: interpretaions
Viewpoints of the Past
適当な重み wj; wk を用いて、wj—(¸j) ` wk—(¸k) を考える
これにより、様々な過去の時点を参照できるようになる
(’t + 0:2’t`1 + :::) ` (’t + 0:1’t`1 + :::) ı 0:1’t`1
5(’t + 0:1’t`1 + 0:12
’t`2:::)
+ 15(’t + 0:2’t`1 + 0:22
’t`2:::)
` 10(’t + 0:3’t`1 + 0:32
’t`2:::) ı c’t`2
7 / 16
model: interpretations
Vanishing Gradiants
勾配消失を避ける二つの工夫
その 1. Relu
その 2. ¸ による BPTT のコントロール
8 / 16
experiments
MNIST
28x28 の画像を x1; x2; :::; x748 の系列データと見て、分類を行う
ハイパーパラメタは hyperopt で Bayesian Optimzation
GRU と LSTM を outperform
9 / 16
experiments
MNIST
A = f0; 0:5; 0:9; 0:99; 0:999g を変化させた場合
A の変化に敏感なことがわかる
10 / 16
experiments
MNIST
iid: rdims = 0 ^ A = f0:99g
recur: A = f0:99g
multi: rdims = 0
この結果から、recurrent statistics(r) と muti-scaled
statistics(複数の ¸) 両方の必要性がわかる
11 / 16
論文まとめ
系列情報を保持した統計量を導入
複数の ¸ により過去の様々な時点を参照可能
これらの工夫により、long term dependencies をうまく扱うこと
ができた
12 / 16
実装上のポイント: mu の更新式
— の更新式を全ての ¸ について同時に行いたい
—
(¸)
t = ¸—
(¸)
t`1 + (1 ` ¸)’t
— = [—(0)
; —(0:5)
; —(0:9)
; —(0:99)
; —(0:999)
]
= (A ˙ I’) ˛ —t`1 + (A ˙ I’) ˛ (IA ˙ ’)
13 / 16
実装上のポイント: parameter の tuning
hyperopt をつかった tuning
50epoches の試行を、30 通りのパラメータに試す(論文中では、
10k iterations x batchsize(不明)を 100 回)
但し、今回はあくまで hyperopt の練習自体を目的とし、一部のパラ
メータは論文中で報告された値に固定している
得られた best parameter で 200Epochs 回す
系列長 784 のデータなので、勾配消失・爆発が起きやすい。いくつか
の工夫が必要
1. forget gate bias を大きくする(gru, lstm 特有)
2. gradient clipping を加える
3. RNN 系は計算時間めっちゃかかるので、cost が爆発したり学習が
見られない時は早期打ち切り
14 / 16
実験結果
SRU: 95.6, GRU: 98.4, LSTM: 97.8
ただしまだ収束していないみたいで、SRU が上回る可能性もある(実
験終わらずすみません)
やはりある程度精度は出そうなので、あとはタスクの得手不得手、
チューニングの難しさが SRU が流行るかどうかの鍵になるのではな
いか
メリット: weight initialization が GRU, LSTM より簡単
デメリット: phi-size, r-size, out-size, A など、ハイパーパラメタ
が多い
反省
パラメータのチューニングはめっちゃ時間かかるのでもっと早めに準備
すればよかった
15 / 16
References
The Statistical Recurrent Unit, JunierB.Oliva
BarnabasPoczos JeffSchneider, ICML2017 (画像はここか
ら (p13 以外))
A Simple Way to Initialize Recurrent Networks of
Rectified Linear Units, Le, Q. V., Jaitly, N., and Hinton
(pixel-by-pixel sequence of MNIST の元ネタ)
16 / 16

More Related Content

Viewers also liked (13)

PPTX
[DL輪読会] DeepNav: Learning to Navigate Large Cities
Deep Learning JP
 
PDF
[DLHacks 実装]Neural Machine Translation in Linear Time
Deep Learning JP
 
PDF
[DL輪読会] The Conditional Analogy GAN: Swapping Fashion Articles on People Images
Deep Learning JP
 
PDF
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
Deep Learning JP
 
PDF
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
PDF
[DLHacks] DLHacks説明資料
Deep Learning JP
 
PDF
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
PDF
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
Deep Learning JP
 
PDF
[DLHacks 実装]Perceptual Adversarial Networks for Image-to-Image Transformation
Deep Learning JP
 
PDF
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
 
PPTX
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
PDF
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
 
[DL輪読会] DeepNav: Learning to Navigate Large Cities
Deep Learning JP
 
[DLHacks 実装]Neural Machine Translation in Linear Time
Deep Learning JP
 
[DL輪読会] The Conditional Analogy GAN: Swapping Fashion Articles on People Images
Deep Learning JP
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
Deep Learning JP
 
[DLHacks 実装] DeepPose: Human Pose Estimation via Deep Neural Networks
Deep Learning JP
 
[DLHacks] DLHacks説明資料
Deep Learning JP
 
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
 
[DL輪読会]Opening the Black Box of Deep Neural Networks via Information
Deep Learning JP
 
[DLHacks 実装]Perceptual Adversarial Networks for Image-to-Image Transformation
Deep Learning JP
 
[DLHacks LT] PytorchのDataLoader -torchtextのソースコードを読んでみた-
Deep Learning JP
 
[DL輪読会] MoCoGAN: Decomposing Motion and Content for Video Generation
Deep Learning JP
 
[DL輪読会]Energy-based generative adversarial networks
Deep Learning JP
 

Similar to [DLHacks 実装] The statistical recurrent unit (20)

PDF
Deep Learning
Masayoshi Kondo
 
PDF
Recurrent Neural Networks
Seiya Tokui
 
PDF
Deep Learningの基礎と応用
Seiya Tokui
 
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
 
PDF
Chainerの使い方と自然言語処理への応用
Seiya Tokui
 
PDF
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
 
PPTX
Hybrid computing using a neural network with dynamic external memory
poppyuri
 
PDF
Multivariate Time series analysis via interpretable RNNs
ohken
 
PPTX
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
 
PPTX
Long short-term memory (LSTM)
Kenta Ishii
 
PDF
[第2版]Python機械学習プログラミング 第16章
Haruki Eguchi
 
PDF
Journal club dec24 2015 splice site prediction using artificial neural netw...
Hiroya Morimoto
 
DOCX
レポート深層学習Day3
ssuser9d95b3
 
PDF
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
 
PPTX
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
 
PDF
Learning to forget continual prediction with lstm
Fujimoto Keisuke
 
PDF
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
 
PPT
Deep Learningの技術と未来
Seiya Tokui
 
PPTX
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
 
PDF
Scikit-learn and TensorFlow Chap-14 RNN (v1.1)
孝好 飯塚
 
Deep Learning
Masayoshi Kondo
 
Recurrent Neural Networks
Seiya Tokui
 
Deep Learningの基礎と応用
Seiya Tokui
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
 
Chainerの使い方と自然言語処理への応用
Seiya Tokui
 
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui
 
Hybrid computing using a neural network with dynamic external memory
poppyuri
 
Multivariate Time series analysis via interpretable RNNs
ohken
 
「機械学習とは?」から始める Deep learning実践入門
Hideto Masuoka
 
Long short-term memory (LSTM)
Kenta Ishii
 
[第2版]Python機械学習プログラミング 第16章
Haruki Eguchi
 
Journal club dec24 2015 splice site prediction using artificial neural netw...
Hiroya Morimoto
 
レポート深層学習Day3
ssuser9d95b3
 
深層学習(岡本孝之 著) - Deep Learning chap.1 and 2
Masayoshi Kondo
 
Jupyter NotebookとChainerで楽々Deep Learning
Jun-ya Norimatsu
 
Learning to forget continual prediction with lstm
Fujimoto Keisuke
 
[ML論文読み会資料] Training RNNs as Fast as CNNs
Hayahide Yamagishi
 
Deep Learningの技術と未来
Seiya Tokui
 
[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS
Deep Learning JP
 
Scikit-learn and TensorFlow Chap-14 RNN (v1.1)
孝好 飯塚
 

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 

Recently uploaded (7)

PDF
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
PDF
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
PDF
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
PDF
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
PDF
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
PDF
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
PDF
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 
PostgreSQL18新機能紹介(db tech showcase 2025 発表資料)
NTT DATA Technology & Innovation
 
プライバシ保護のためのインターネットアーキテクチャの進化 (2025-07-11)
Jun Kurihara
 
Hyperledger Fabric最新v3.x系での機能強化、変更点にキャッチアップ!
LFDT Tokyo Meetup
 
20250710_Devinで切り拓くDB革命_〜価値創出に集中せよ〜.pdf
Masaki Yamakawa
 
人気ブロックチェーン基盤「Hyperledger Fabric」最新版を動かしてみた!
LFDT Tokyo Meetup
 
[Hardening Designers Confernece 2025]ランサムウェアでの見えざるログ・見えるログ
kataware
 
Hyperledger Fabric公式サンプル fabric-samples徹底解説
LFDT Tokyo Meetup
 

[DLHacks 実装] The statistical recurrent unit

  • 1. The Statistical Reccurent Unit Akuzawa Kei DLhacks August 28, 2017
  • 2. Contents 1 書誌情報 2 Introduction 3 Model 4 Experiments 5 Discussion 6 実装上のポイント 2 / 16
  • 3. 書誌情報 Authors: Junier B. Oliva, Barnabas Poczos, Jeff Schneider Conferrence: ICML2017 選定理由: シンプルかつ高精度の系列モデル。LSTM や GRU との 比較が楽しみ。 3 / 16
  • 4. Introduction 従来のモデル(GRU, LSTM) 系列モデルの訓練は、系列が長いと勾配消失の危険性 MemoryCell, Gate によって長期間の依存関係を保持することがで きる 提案モデル(SRU) 隠れ層に統計量の移動平均のみを保持する(Gate はいらない) いくつかの重みで移動平均をとる 直観的利点: 移動平均の組み合わせにより様々な過去の統計量を表現 できる 多くの設定で GRU, LSTM を outperforming 4 / 16
  • 5. model: graph and equations — = [—(¸1); —(¸2); ::::::; —(¸m)] f() は relu — がいわゆる隠れ層 5 / 16
  • 6. model: interpretaions data-driven statistics —(¸); ’ を統計量として考える(データセットを表現する変数くらい の意味) これらは a-priori に定められた統計量とは違い、データから自動で学 習されるので好ましい multi-scaled statistics — (¸) t = ¸— (¸) t`1 + (1 ` ¸)’t = (1 ` ¸)(’t + ¸’t`1 + ¸2 ’t`2::::::) 上式から、¸ が小さいほど、より現在の統計量に重みを置いていると 解釈できる 6 / 16
  • 7. model: interpretaions Viewpoints of the Past 適当な重み wj; wk を用いて、wj—(¸j) ` wk—(¸k) を考える これにより、様々な過去の時点を参照できるようになる (’t + 0:2’t`1 + :::) ` (’t + 0:1’t`1 + :::) ı 0:1’t`1 5(’t + 0:1’t`1 + 0:12 ’t`2:::) + 15(’t + 0:2’t`1 + 0:22 ’t`2:::) ` 10(’t + 0:3’t`1 + 0:32 ’t`2:::) ı c’t`2 7 / 16
  • 8. model: interpretations Vanishing Gradiants 勾配消失を避ける二つの工夫 その 1. Relu その 2. ¸ による BPTT のコントロール 8 / 16
  • 9. experiments MNIST 28x28 の画像を x1; x2; :::; x748 の系列データと見て、分類を行う ハイパーパラメタは hyperopt で Bayesian Optimzation GRU と LSTM を outperform 9 / 16
  • 10. experiments MNIST A = f0; 0:5; 0:9; 0:99; 0:999g を変化させた場合 A の変化に敏感なことがわかる 10 / 16
  • 11. experiments MNIST iid: rdims = 0 ^ A = f0:99g recur: A = f0:99g multi: rdims = 0 この結果から、recurrent statistics(r) と muti-scaled statistics(複数の ¸) 両方の必要性がわかる 11 / 16
  • 13. 実装上のポイント: mu の更新式 — の更新式を全ての ¸ について同時に行いたい — (¸) t = ¸— (¸) t`1 + (1 ` ¸)’t — = [—(0) ; —(0:5) ; —(0:9) ; —(0:99) ; —(0:999) ] = (A ˙ I’) ˛ —t`1 + (A ˙ I’) ˛ (IA ˙ ’) 13 / 16
  • 14. 実装上のポイント: parameter の tuning hyperopt をつかった tuning 50epoches の試行を、30 通りのパラメータに試す(論文中では、 10k iterations x batchsize(不明)を 100 回) 但し、今回はあくまで hyperopt の練習自体を目的とし、一部のパラ メータは論文中で報告された値に固定している 得られた best parameter で 200Epochs 回す 系列長 784 のデータなので、勾配消失・爆発が起きやすい。いくつか の工夫が必要 1. forget gate bias を大きくする(gru, lstm 特有) 2. gradient clipping を加える 3. RNN 系は計算時間めっちゃかかるので、cost が爆発したり学習が 見られない時は早期打ち切り 14 / 16
  • 15. 実験結果 SRU: 95.6, GRU: 98.4, LSTM: 97.8 ただしまだ収束していないみたいで、SRU が上回る可能性もある(実 験終わらずすみません) やはりある程度精度は出そうなので、あとはタスクの得手不得手、 チューニングの難しさが SRU が流行るかどうかの鍵になるのではな いか メリット: weight initialization が GRU, LSTM より簡単 デメリット: phi-size, r-size, out-size, A など、ハイパーパラメタ が多い 反省 パラメータのチューニングはめっちゃ時間かかるのでもっと早めに準備 すればよかった 15 / 16
  • 16. References The Statistical Recurrent Unit, JunierB.Oliva BarnabasPoczos JeffSchneider, ICML2017 (画像はここか ら (p13 以外)) A Simple Way to Initialize Recurrent Networks of Rectified Linear Units, Le, Q. V., Jaitly, N., and Hinton (pixel-by-pixel sequence of MNIST の元ネタ) 16 / 16