SlideShare a Scribd company logo
Quasi-Recurrent Neural Networks
James Bradbury, Stephen Merity, Caiming Xiong, Richard Socher
17/02/01
アジェンダ
• 書誌情報
• 背景
• 関連研究
• 提案モデル
• 実験・結果
• 結論
書誌情報
• ICLR2017 Accepted Paper
• Poster Presentation
• 採点(6, 7, 5, 7)
• Author
• Salesforce Researchのグループ
• Last authorはRecursive NNのRichard Socher
背景
• RNN
• 深層学習で系列データを扱う場合、標準的になってきている
• 並列計算ができない
• ⻑い系列を扱いにくい
• CNN
• 系列データを扱う際にも有⽤であることが⽰されている
• 並列計算が可能
• QRNN(提案⼿法)
• CNN-like:並列計算を時系列、ミニバッチの次元について可能
• RNN-like:⼊⼒系列の順序全体が出⼒に影響を与える
関連研究
• Strongly-typed recurrent neural networks
• Convolutional-recurrent models
• ByteNet
• QRNN encoder-decoderモデルが似ている
提案モデル
• QRNN
提案モデル
• QRNNはCNNにおける畳み込み層とプーリング層に対応する
2層からなる
• ⼊⼒として系列⻑Tでn次元のベクトルX∈RT×nを受け取り、
時系列⽅向に畳み込みを⾏う
• 畳み込みの際に未来の情報を含まないようにするため、
Masked convolution(系列⽅向にfilter幅に応じたpadding)を⾏う
• Z, F, Oを下の式に応じて得る
• Zの活性化関数はtanh, F, Oではシグモイド関数
• *は時系列⽅向へのMasked Convolutionを表す
提案モデル
• Pooling
• 3つのpoolingを提案
• f-pooling
• fo-pooling
• ifo-pooling
提案モデル
• Regularization
• Recurrent connectionに対して提案されている正則化のうち、
zoneoutを⽤いる(variational inference-based dropoutは使えない)
• Zoneoutは以下で実装可能
• Densely-connected layers
• Sequence classificationタスクにおいては、QRNNの各層間に
skip-connectionを⼊れた⽅が良い
• Encoder-Decoder Models
• Vl: l層の最終のencoding state
実験・結果
• QRNNの精度および実⾏時間を検証するため下記の実験を⾏う
• Sentiment Classification
• Language Modeling
• Character-level Neural Machine Translation
実験・結果
• Sentiment classification: IMDb Dataset
• 映画についてのレビューおよび採点のデータ
• X: レビュー⽂章(英語、⾃然⾔語)
• y: 対象についてpositive/negativeの評価(⼆値分類)
• 分類精度にて評価(従来のLSTMとの実⾏時間の差も合わせて⽐較)
実験・結果
• 4層のdensely-connected QRNNで最も良い精度
• 256unit/layer, 300次元word vector(GloVe embedding)
• Dropout = 0.3, L2 regularization = 4 × 10-6
• Minibatch = 24, RMSprop, learning rate = 0.001,
α=0.9, ε=10-8
実験・結果
• IMDb sentiment analysis
• LSTMと同程度の精度である⼀⽅、エポックあたりの時間は1/3程度
実験・結果
• 隠れ層の可視化
実験・結果
• Language modeling: Penn Treebank
• コーパスの⼀種であり、各⽂に統語構造の注釈が付与されたもの
• Word-level predictionを⾏う
• 929k training words, 73k validation words, 82k test words
• Vocabularyは10k
• Perplexityにて評価(低い⽅が良い)
実験・結果
• 2層、640 unit/layer(32の倍数の⽅が計算効率が良いらしい)
• Penn Treebankは⽐較的⼩さいデータセットであり、
過学習を防ぐことが重要となる
• 最適化はSGD + momentumで⾏い、学習率は最初の6epochの
間、1に設定された後、減衰率0.95で⼩さくなる(計72epoch)
実験・結果
• Penn Treebank language modeling task
• 通常のLSTM(正則化なし)と⽐較して良いperplexity
• 正則化を⾏なった場合も、highly competitive
実験・結果
• Batchあたりの処理時間
• Chainer default LSTM, 最適化されたcuDNNによるLSTMと⽐較して、
QRNNでは “RNN” 部分の計算時間が減少している
実験・結果
• Character-level neural machine translation:
IWSLT English-German spoken language translation task
• Sequence-to-sequence QRNNを評価する
• ドイツ語 -> 英語の翻訳(Character levelのsegmentation)
• 209,772sentence pair (TEDxから)
• 187 Unicode code points
実験・結果
• 4層、320unit/layer、dropoutまたはL2regularizationなし
• 最初の畳み込み層のfilter幅 = 6、その他はfilter幅 = 2
• 最適化はAdamにて⾏い、計10epoch実施
実験・結果
• IWSLT English-German spoken language translation task
• Character-level LSTMを上回る精度
• Word-level attentionによるbase lineとほぼ同程度
結論
• RNNとCNNの良い部分を合わせたようなQRNNを提案
• 複数のタスクにおいて、従来のLSTMと同程度または
少し上回る性能を⽰す
• Epochあたりに要する時間は25 ~ 50%程度になった

More Related Content

What's hot (20)

PPTX
最近の自然言語処理
naoto moriyama
 
PDF
2 3.GLMの基礎
logics-of-blue
 
PDF
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
PPTX
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
 
PDF
コンピューテーショナルフォトグラフィ
Norishige Fukushima
 
PDF
Demosaicing(デモザイキング)
Morpho, Inc.
 
PPTX
距離とクラスタリング
大貴 末廣
 
PDF
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
PDF
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
Seiya Ito
 
PDF
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
 
PDF
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
 
PDF
LSTM (Long short-term memory) 概要
Kenji Urai
 
PDF
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
 
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
PDF
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
 
PPTX
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
PPTX
深層学習の数理
Taiji Suzuki
 
PDF
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
Hiroyuki Muto
 
PPTX
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
PDF
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
 
最近の自然言語処理
naoto moriyama
 
2 3.GLMの基礎
logics-of-blue
 
[DL輪読会]ICLR2020の分布外検知速報
Deep Learning JP
 
[DL輪読会]Batch Renormalization: Towards Reducing Minibatch Dependence in Batch-...
Deep Learning JP
 
コンピューテーショナルフォトグラフィ
Norishige Fukushima
 
Demosaicing(デモザイキング)
Morpho, Inc.
 
距離とクラスタリング
大貴 末廣
 
因果探索: 基本から最近の発展までを概説
Shiga University, RIKEN
 
[論文紹介] DPSNet: End-to-end Deep Plane Sweep Stereo
Seiya Ito
 
テンソル多重線形ランクの推定法について(Estimation of Multi-linear Tensor Rank)
Tatsuya Yokota
 
論文紹介 "DARTS: Differentiable Architecture Search"
Yuta Koreeda
 
LSTM (Long short-term memory) 概要
Kenji Urai
 
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
 
『バックドア基準の入門』@統数研研究集会
takehikoihayashi
 
[DL輪読会]Graph R-CNN for Scene Graph Generation
Deep Learning JP
 
深層学習の数理
Taiji Suzuki
 
StanとRで折れ線回帰──空間的視点取得課題の反応時間データを説明する階層ベイズモデルを例に──【※Docswellにも同じものを上げています】
Hiroyuki Muto
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato
 
AHC-Lab M1勉強会 論文の読み方・書き方
Shinagawa Seitaro
 

Similar to [DL輪読会]QUASI-RECURRENT NEURAL NETWORKS (20)

PDF
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
PPTX
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
Deep Learning JP
 
PPTX
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
 
PDF
Deep Learning
Masayoshi Kondo
 
PDF
Deep Learningの基礎と応用
Seiya Tokui
 
PDF
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
PDF
Deeplearning勉強会20160220
正志 坪坂
 
PPTX
CVPR2017 参加報告 速報版 本会議 4日目
Atsushi Hashimoto
 
PPTX
Recurrent Neural Network
KozoChikai
 
PDF
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper. challenge
 
PDF
【2016.08】cvpaper.challenge2016
cvpaper. challenge
 
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
PPTX
ae-10. 中間まとめ(ディープラーニング)
kunihikokaneko1
 
PPTX
Hybrid computing using a neural network with dynamic external memory
poppyuri
 
PDF
Recurrent Neural Networks
Seiya Tokui
 
PPTX
2018/02/27 Recurrent Neural Networks starting with Neural Network Console
Sony Network Communications Inc.
 
PDF
[DLHacks 実装] The statistical recurrent unit
Deep Learning JP
 
DOCX
レポート深層学習Day3
ssuser9d95b3
 
PPTX
ae-7. 予測・判断(時系列データ,リカレントニューラルネットワーク,LSTM)
kunihikokaneko1
 
PDF
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
[DL輪読会]Training RNNs as Fast as CNNs
Deep Learning JP
 
[DL輪読会] Learning Finite State Representations of Recurrent Policy Networks (I...
Deep Learning JP
 
論文紹介:「End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF」
Naonori Nagano
 
Deep Learning
Masayoshi Kondo
 
Deep Learningの基礎と応用
Seiya Tokui
 
0から理解するニューラルネットアーキテクチャサーチ(NAS)
MasanoriSuganuma
 
Deeplearning勉強会20160220
正志 坪坂
 
CVPR2017 参加報告 速報版 本会議 4日目
Atsushi Hashimoto
 
Recurrent Neural Network
KozoChikai
 
cvpaper.challenge in CVPR2015 (PRMU2015年12月)
cvpaper. challenge
 
【2016.08】cvpaper.challenge2016
cvpaper. challenge
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
ae-10. 中間まとめ(ディープラーニング)
kunihikokaneko1
 
Hybrid computing using a neural network with dynamic external memory
poppyuri
 
Recurrent Neural Networks
Seiya Tokui
 
2018/02/27 Recurrent Neural Networks starting with Neural Network Console
Sony Network Communications Inc.
 
[DLHacks 実装] The statistical recurrent unit
Deep Learning JP
 
レポート深層学習Day3
ssuser9d95b3
 
ae-7. 予測・判断(時系列データ,リカレントニューラルネットワーク,LSTM)
kunihikokaneko1
 
効率的学習 / Efficient Training(メタサーベイ)
cvpaper. challenge
 
Ad

More from Deep Learning JP (20)

PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
PPTX
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

Recently uploaded (8)

PDF
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
PPTX
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 
PDF
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
PDF
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
PDF
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
PDF
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
PDF
2023年版Web3技術の理想と現実
Syuhei Hiya
 
PPTX
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 
生成AIパネルトーク(Interop25Tokyo APPS JAPAN M1-07,M2-07 嶋ポジショントーク)
嶋 是一 (Yoshikazu SHIMA)
 
新卒・中途採用者向け採用ピッチ資料2025年7月版(20250702).pptx
Official74
 
20250630_aws_reinforce_2025_aws_sheild_network_security_director
uedayuki
 
SIG-AUDIO 2025 Vol.02 オンラインセミナー SIG-Audioプレゼン資料_オーディオプラグイン開発_塩澤達矢.pdf
IGDA Japan SIG-Audio
 
go tool と Minimal Version Selection アルゴリズム
Keisuke Ishigami
 
AIツールを使った研究の効率化 Improving Research Efficiency with AI Tools
Tohoku University
 
2023年版Web3技術の理想と現実
Syuhei Hiya
 
オープンソース界隈の利用者や技術者から見たオープンソースEDAとは? What is open source EDA from the perspecti...
Industrial Technology Research Institute (ITRI)(工業技術研究院, 工研院)
 

[DL輪読会]QUASI-RECURRENT NEURAL NETWORKS