Tensor コアを使った PyTorch の高速化

Faster Python Meet up LT会 #1
Tensor コアを使った
PyTorch の高速化
2019/04/08
@fam_taro

Agenda
1. Tensorコア is 何
2. PyTorchで Tensor コア使うには
3. 推論(予測)で使ってみた(M2Det)
4. 学習で Tensorコアを使いたい場合
1

 16bit浮動小数点(FP16) の行列演算に特化した計算用コア
 PyTorch 等の深層学習フレームワークを使うと、デフォルトでは 32bit浮動小数点（FP32) で
諸々の計算が行われる
 NVIDIA GPU のうち Volta 世代以降の一部に乗っている
 Turing でも RTX 20 じゃないと乗ってない(GTX 1660, 60Ti には乗っていない)
 Pascal, Maxwell, Kepler には無い(無慈悲)
 GPU 例
 TITAN V
 GeForce RTX 20シリーズ(60, 70, 80, 80Ti)
 TITAN RTX
 Tesla V100 (<- GCP で試せる!)
 (今後より普及すると個人的に思ってます)
 参考リンク
 https://wikiwiki.jp/nvidiavga/GPU%E4%BB%95%E6%A7%98%E4%B8%80%E8%A6%A7%E8%A1%A8
 https://ja.wikipedia.org/wiki/NVIDIA_GeForce
2
https://www.nvidia.com/content/apac/gtc/ja/pdf/2017/1040.pdf

 Tensor コア使わないと FP16 にしても速度は 2倍程度
 Tensor コア使うと FP16 にしたら 7倍以上！
 ただし使うためには制約が多い…
 CUDA9 以降
 cuDNN 7 以降
 FP16 で扱うことを明記(ライブラリのコマンド等で)
 Conv 層の入力・出力チャンネル数が 8の倍数
 全ての層が対応しているわけではない(むしろ一部しか)
 あくまで現時点なので今後は緩和されるかも… 3
https://www.slideshare.net/NVIDIAJapan/chainer-tensor-fp16

2. PyTorchで Tensor コア使うには
 FP16 を使うことを明記すればフレームワークが勝手に
使ってくれる(ことが多い)
 最近のバージョンにしないといけないが…
 PyTorch では…
 Model と Input に対し “.half()” を付ける
 半精度にするという意味 -> FP16 にする
 Output は FP16 とは限らないので注意
 Conv 層の入力と出力チャンネル数を 8 の倍数にする
 地味にきつい制約
 Pre-train model だとうまく使えないケースが出てくる
 明示的に Tensorコアを使うようにはできない(ぽい？)
4

 M2Det とは
 論文: https://qijiezhao.github.io/imgs/m2det.pdf
 実装: https://github.com/qijiezhao/M2Det
 最近出てきた検出モデル
 YOLOv3 より速くて精度が高い(らしい)
 自分のデータでは学習全くできてないですが😢
 実験条件
 COCO dataset (Detection ではメジャーなやつ)
 学習済みモデル(512 x 512)を使用
 公式リポジトリにある test.py を使用
 model(input) の時間と後処理(NMS)の時間を計測
 足した時間を使って FPS を出す(高いほど良い)
 5,000 枚のデータに対して推論(予測) をして平均時間をとる
 元論文は 1,000 枚で取っていた
 モデルの精度は mAP 5

 実行時間や Tensor コアを使っているか確認するために使ったコマンド
 time.time() 関数
 GPU絡むため下記の方が良さそうですが今回は time() 関数で時間とりました😭
 torch.cuda.Event(enable_timing=True)
 profiler
 $ python -m torch.utils.bottleneck test.py ~~~
 PyTorch の提供する profiler
 検出の後処理(今回は NMS) がボトルネックになっていないか確認するために使用
 $ nvprof python ~~~
 NVIDIA の提供する profiler コマンド。Tensor コア使っているか見れる
 $ nvcc ~~~ (未使用)
 nvprof のコマンドを GUI でリッチに見れるらしい。ただしアプリサイズデカい(数GB) 6

 実行結果
7
GPU
mAP
(精度)
Detect time
per
image [ms]
Nms time
Per
image [ms]
Total [ms] FPS
元論文
(リポジトリ上の値)
Titan X PASCAL 37.8 55.5 18.0
PyTorch 0.4.1
(公式指定バージョン)
Titan V 37.8 74.3 9.5 83.8 11.9
PyTorch 0.4.1 + FP16 Titan V 37.8 51.3 9.5 60.8 16.4
PyTorch 1.0.1.post2 Titan V 37.8 56.6 9.7 66.3 15.1
PyTorch 1.0.1.post2
+ FP16
Titan V 37.8 43.5 9.6 53.1 18.8

 実行結果
8
GPU
mAP
(精度)
Detect time
per
image [ms]
Nms time
Per
image [ms]
Total [ms] FPS
元論文
(リポジトリ上の値)
Titan X PASCAL 37.8 55.5 18.0
PyTorch 0.4.1
(公式指定バージョン)
Titan V 37.8 74.3 9.5 83.8 11.9
PyTorch 0.4.1 + FP16 Titan V 37.8 51.3 9.5 60.8 16.4
PyTorch 1.0.1.post2 Titan V 37.8 56.6 9.7 66.3 15.1
PyTorch 1.0.1.post2
+ FP16
Titan V 37.8 43.5 9.6 53.1 18.8
“PyTorch1.0.1 にして”
かつ “FP16 使う” と最も速くなる
→ 最初の 1.5倍
(かろうじて元論文の FPS を超えた)
予測時のみなら FP16にしても精
度は変わらない
PyTorch のバージョン上げたら速くな
るし、FP16にしても速くなる

4. 学習で Tensorコアを使いたい場合
 とりあえず全部 FP16 にすればいいんでしょ？→ No！
 勾配計算時にかなり影響する (勾配が消える場合もある)
 → 精度が大きく下がる場合がある
 Mixed Precision Training
 参考リンク: https://www.slideshare.net/NVIDIAJapan/chainer-tensor-fp16
 FP16 と FP32 による計算を mix した学習方法
 具体的には以下のようなテクニックが必要
 ロススケーリング : ロス値を要所要所でスケールあっぷして勾配消失を緩和
 FP32 ウェイト更新 : Forward と Backward は FP16, Update で FP32を使用
 上記を全て自分でやると大変！(学びはあると思いますが…)
 → apex を使うと比較的手軽にできる(https://github.com/NVIDIA/apex)
 NVIDIA が提供する PyTorch 用 Automatic Mixed Precision(AMP) ツール
 元のコードに対し数行足すだけで Mixed Precision Training できるとのこと
 ただし install 時は CUDA や PyTorch のバージョンに気をつけないといけない 9

References
 [2018年版機械学習ハードウェアのState of the Artを考える ~CPU, GPU, TPUを添えて~ -
Qiita](https://qiita.com/arutema47/items/72621f17b65381657a52)
 [Training Neural Networks with Mixed Precision - NVIDIA](http://on-demand.gputechconf.com/gtc-taiwan/2018/pdf/5-
1_Internal%20Speaker_Michael%20Carilli_PDF%20For%20Sharing.pdf)
 [Chainer で Tensor コア (fp16) を使いこなす](https://www.slideshare.net/NVIDIAJapan/chainer-tensor-fp16)
 [Chainer における深層学習の高速化](https://www.nvidia.com/content/apac/gtc/ja/pdf/2018/2033.pdf)
 [VOLTA AND TURING: ARCHITECTURE AND PERFORMANCE OPTIMIZATION NVIDIA](https://www.nvidia.com/content/apac/gtc/ja/pdf/2018/2051.pdf)
 [Training with Mixed Precision :: Deep Learning SDK Documentation](https://docs.nvidia.com/deeplearning/sdk/mixed-precision-
training/index.html#pytorch)
 [GPU仕様一覧表 - NVIDIA GeForce Wiki*](https://wikiwiki.jp/nvidiavga/GPU%E4%BB%95%E6%A7%98%E4%B8%80%E8%A6%A7%E8%A1%A8)
10

おわり
11
ありがとうございました

補足: nvprof の結果(PyTorch 0.4.1)
12

補足: nvprof の結果(PyTorch 1.0.0)
13

Tensor コアを使った PyTorch の高速化

More Related Content

What's hot (20)

Similar to Tensor コアを使った PyTorch の高速化 (20)

More from Yusuke Fujimoto (6)

Recently uploaded (10)

Tensor コアを使った PyTorch の高速化