SlideShare a Scribd company logo
2013年1月26日 14:00 – 17:00
SC論文読み会 @東工大

Mapping Applications with
Collectives over Sub-communicators
on Torus Networks (SC12)


                    著者:Abhinav Bhatele (LLNL), et al.
                発表者:高前田(山崎) 伸也 (東工大)
この論文を選んだ理由


n  実はうちの研究室でもスパコン向けタスク配置をやって
    いる
 l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ
     ろう?と興味がわいた


n  アプリには興味がないけど,スケジューリングとか配置
    とかで性能を高くするのは好き


n  絵がたくさん載っていて楽しそう


           Shinya Takamaeda-Y. Tokyo Tech   2
概要



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   3
Introduction: タスク配置
n  「どのタスク」を「どのノード」に割り当てるか
        l  配置によってネットワークの使い方が変わる→性能が変わる


n  我々がやっているメニーコアの場合 (RMAP)

      Bitonic Sort       Matrix Multiply   Idle           Off-Chip Memory
                                                                                                               Normal    RMAP
                                                                                                      100000




                                                                            Elapsed cycle [K cycle]
                                                                                                               79775
                                                                                                      80000                     68921
                                                                                                                    76587
                                                                                                      60000                         68703

                                                                                                      40000

                                                                                                      20000

                                                                                                          0
                                                                                                               Bitonic Sort   Matrix Multiply
 (a) Normal Allocation                            (b) RMAP Allocation



                                                   Shinya Takamaeda-Y. Tokyo Tech                                                           4
Introduction: 従来手法について




n  通信するタスク間のホップ数を小さくするように配置
  l  ネットワークリンクの共有や混雑を減らすため



n  どんな時にこれは有効か?
  l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ
  l  Global communicatorでcollective通信を行う場合




                   Shinya Takamaeda-Y. Tokyo Tech   5
Introduction: 問題点


n  スパコンのノード数とネットワークの直径は増加傾向
   l  Global communicatorではなくsub-communicatorを用いて
       collective通信を行うように


n  Sub-communicatorを用いる場合の最適なタスク配置
   l  Sub-communicator単位のグループでノードをまとめれば,
       ホップ数は削減できる
   l  グループ境界のハードウェアリンクが未使用となり,ネット
       ワークバンド幅の利用効率が制限される
   l  例えば,ただまとめるのではなく,ちょっとずらしたりすると
       使えるリンク数が増えてネットワーク性能が上がりそう


                   Shinya Takamaeda-Y. Tokyo Tech    6
Introduction: 本論文の貢献
n  N次元トーラスにおけるSub-communicatorを用いた
    Collective通信,特にall-to-allとbroadcastの性能向上を
    目指す
  l  複数の次元にまたがってトーラスのリンクを包み込むようにコ
      ミュニケータを配置することで,実効バンド幅を増やすことが
      でき,混雑を回避するための経路を提供することが可能になる
  l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ
      よりもとても遅い


n  既存のライブラリはレイテンシを削減するためにホップ
    数を削減することにフォーカスしていたが,我々はより
    多くの次元のリンクを利用することによりバンド幅使用
    率を最大化する新しいツールRubikを提案する


                Shinya Takamaeda-Y. Tokyo Tech   7
リンク使用率とバンド幅の向上 (1)

n  ネットワークの端から端へのパスの数は
    ネットワークの次元が増えるにつれて増加
 l  うまく配置すればリンク共有と混雑は低減できるはず




           Shinya Takamaeda-Y. Tokyo Tech   8
リンク使用率とバンド幅の向上 (2)
n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech    9
リンク使用率とバンド幅の向上 (3)
n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの
    性能
  l  リンク集中が少なくなると所要時間が短縮




                Shinya Takamaeda-Y. Tokyo Tech   10
リンク使用率とバンド幅の向上 (4)




n  戦略
  l  通信するタスクはplane/boxまたはmeshの角に配置し,
      一直線上に配置しない
  l  通信ペア間の距離を離してスペアのリンクの数を増やす
  l  包み込むようなトーラスリンクを追加の経路として使う (?)




              Shinya Takamaeda-Y. Tokyo Tech   11
The Rubik Mapping Tool




               Shinya Takamaeda-Y. Tokyo Tech   12
Partitioning Operations (1)
 n  4つのオペレーションでタスク群を分割
   l  div: 指定した個数に分割
   l  tile: 指定した大きさに分割
   l  mod: 指定した個数に分割し,インターリーブで交互に配置
   l  cut: それぞれの次元に施すオペレーションを指定




                 Shinya Takamaeda-Y. Tokyo Tech   13
Partitioning Operations (2)

 n  アプリケーションだけではなくネットワーク(ノード)
     も同じオペレーションで分割
   l  それぞれのグループのサイズがアプリケーションとネットワーク
       で同じであれば,自動的にマップできる




                 Shinya Takamaeda-Y. Tokyo Tech   14
Permuting Operations (1)

 n  2つのオペレーションがで配置をずらすことができる
   l  tilt: 回転
   l  zigzag: ジグザグにずらす




                  Shinya Takamaeda-Y. Tokyo Tech   15
Permuting Operations (2)




                Shinya Takamaeda-Y. Tokyo Tech   16
Permuting Operations (3)




                Shinya Takamaeda-Y. Tokyo Tech   17
Mapping A Lazer-Plasma Interaction Code (1)
 n  2D-FFTの計算とMPI_Alltoallが多く含まれる


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
      •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                 Shinya Takamaeda-Y. Tokyo Tech   18
Mapping A Lazer-Plasma Interaction Code (2)
 n  ベースライン性能
   l  Weak-scalingで通信と計算の比率を比較
   l  ノード数の増加により通信オーバーヘッドが顕著化




                 Shinya Takamaeda-Y. Tokyo Tech   19
Mapping A Lazer-Plasma Interaction Code (3)


 n  2048コアにマッピング
   l  こんな簡単なコードで!




                 Shinya Takamaeda-Y. Tokyo Tech   20
Mapping A Lazer-Plasma Interaction Code (4)
 n  いくつかの配置におけるネットワーク利用状況




                 Shinya Takamaeda-Y. Tokyo Tech   21
Mapping A Lazer-Plasma Interaction Code (5)
 n  各配置におけるMPIにかかった時間
   l  TXYZがベースライン




                 Shinya Takamaeda-Y. Tokyo Tech   22
Mapping A Lazer-Plasma Interaction Code (6)
 n  各配置における性能
   l  通信レートと1イタレーションの時間




                 Shinya Takamaeda-Y. Tokyo Tech   23
Mapping A Lazer-Plasma Interaction Code (7)




                 Shinya Takamaeda-Y. Tokyo Tech   24
Mapping A First-Principles MD Code (1)
 n  計算インテンシブ,でも通信も多い


 n  ベースラインの性能
   l  デフォルトのタスク配置: TXYZ
     •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置




                Shinya Takamaeda-Y. Tokyo Tech   25
Mapping A First-Principles MD Code (2)

 n  2048コアにマッピング
   l  こんな簡単なコードで!




                Shinya Takamaeda-Y. Tokyo Tech   26
Mapping A First-Principles MD Code (3)

 n  性能の変化
   l  原子数512で40.0% (tiltY) の実行時間短縮
   l  原子数1728で16.2% (mod)の実行時間短縮




                  Shinya Takamaeda-Y. Tokyo Tech   27
まとめ



n  スパコンにおける良いタスク配置を決定するためのツー
    ルに関する論文
 l  いくつかのシンプルなオペレーションでアプリケーションの配
     置を変更できる


n  2つのアプリケーションで評価
 l  pF3D: レーザープラズマ相互作用
 l  Qbox: 第1原理分子動力学




               Shinya Takamaeda-Y. Tokyo Tech   28

More Related Content

PPTX
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
 
PPTX
電気基礎実験Iii c.電子回路(変調・復調回路)
Kentaro Miyazaki
 
PPT
20030203 doctor thesis_presentation_makotoshuto
Makoto Shuto
 
PPTX
卒業審査会
nagamoto
 
PPTX
冗長変換とその画像復元応用
Shogo Muramatsu
 
PDF
More modern gpu
Preferred Networks
 
PDF
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
Takahiro Harada
 
PDF
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Shinya Takamaeda-Y
 
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
 
電気基礎実験Iii c.電子回路(変調・復調回路)
Kentaro Miyazaki
 
20030203 doctor thesis_presentation_makotoshuto
Makoto Shuto
 
卒業審査会
nagamoto
 
冗長変換とその画像復元応用
Shogo Muramatsu
 
More modern gpu
Preferred Networks
 
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
Takahiro Harada
 
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Shinya Takamaeda-Y
 

Viewers also liked (16)

PDF
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
Shinya Takamaeda-Y
 
PDF
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
Shinya Takamaeda-Y
 
PDF
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
 
PDF
A CGRA-based Approach for Accelerating Convolutional Neural Networks
Shinya Takamaeda-Y
 
PDF
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Shinya Takamaeda-Y
 
PDF
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
 
PDF
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
Shinya Takamaeda-Y
 
PDF
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
 
PDF
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Shinya Takamaeda-Y
 
PDF
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
 
PDF
PythonとVeriloggenを用いたRTL設計メタプログラミング
Shinya Takamaeda-Y
 
PDF
Zynq+PyCoRAM(+Debian)入門
Shinya Takamaeda-Y
 
PDF
Pythonを用いた高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
 
PPTX
Zynq + Vivado HLS入門
narusugimoto
 
PDF
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
 
PDF
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Shinya Takamaeda-Y
 
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
Shinya Takamaeda-Y
 
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
Shinya Takamaeda-Y
 
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
 
A CGRA-based Approach for Accelerating Convolutional Neural Networks
Shinya Takamaeda-Y
 
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Shinya Takamaeda-Y
 
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
 
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
Shinya Takamaeda-Y
 
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
 
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Shinya Takamaeda-Y
 
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
 
PythonとVeriloggenを用いたRTL設計メタプログラミング
Shinya Takamaeda-Y
 
Zynq+PyCoRAM(+Debian)入門
Shinya Takamaeda-Y
 
Pythonを用いた高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
 
Zynq + Vivado HLS入門
narusugimoto
 
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
 
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Shinya Takamaeda-Y
 
Ad

Similar to Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) (20)

PDF
IEEE eScience 2012および併設ワークショップ報告
Ryousei Takano
 
PDF
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
 
PDF
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
 
PDF
HistoPyramid Stream Compaction
dasyprocta
 
PDF
5 inoue
guestb900b6b
 
PDF
Tuning, etc.
Hiroshi Watanabe
 
PDF
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
 
PDF
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
Koichi Hamada
 
PDF
SSDとTokyoTyrantやMySQLの性能検証
勲 國府田
 
PDF
How the future prediction affects on the evolution of technologies
坂本 真里
 
PDF
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
Developers Summit
 
PDF
Zabbix勉強会
Hiroshi Morotomi
 
PPTX
マイクロインスタンスがいっぱい
Tom Shimada
 
PDF
ScalableCore system at SWoPP2010 BoF-2
Shinya Takamaeda-Y
 
PDF
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
 
PDF
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
 
PDF
Kanban Vs Scrum日本語版
Hiroki Kondo
 
PDF
PostgreSQL9.0アップデート レプリケーションがやってきた!
Masao Fujii
 
PPTX
LODのOLAP分析を可能にするETLフレームワークの提案
Hiroyuki Inoue
 
PDF
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
IEEE eScience 2012および併設ワークショップ報告
Ryousei Takano
 
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
 
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
 
HistoPyramid Stream Compaction
dasyprocta
 
5 inoue
guestb900b6b
 
Tuning, etc.
Hiroshi Watanabe
 
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
 
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
Koichi Hamada
 
SSDとTokyoTyrantやMySQLの性能検証
勲 國府田
 
How the future prediction affects on the evolution of technologies
坂本 真里
 
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
Developers Summit
 
Zabbix勉強会
Hiroshi Morotomi
 
マイクロインスタンスがいっぱい
Tom Shimada
 
ScalableCore system at SWoPP2010 BoF-2
Shinya Takamaeda-Y
 
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
 
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
 
Kanban Vs Scrum日本語版
Hiroki Kondo
 
PostgreSQL9.0アップデート レプリケーションがやってきた!
Masao Fujii
 
LODのOLAP分析を可能にするETLフレームワークの提案
Hiroyuki Inoue
 
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
 
Ad

More from Shinya Takamaeda-Y (15)

PDF
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
 
PDF
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
 
PDF
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
Shinya Takamaeda-Y
 
PDF
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Shinya Takamaeda-Y
 
PDF
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Shinya Takamaeda-Y
 
PDF
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Shinya Takamaeda-Y
 
PDF
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
 
PDF
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
Shinya Takamaeda-Y
 
PDF
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
Shinya Takamaeda-Y
 
PDF
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
Shinya Takamaeda-Y
 
PDF
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
Shinya Takamaeda-Y
 
PDF
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
Shinya Takamaeda-Y
 
PDF
むかし名言集bot作りました!
Shinya Takamaeda-Y
 
PDF
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
Shinya Takamaeda-Y
 
PDF
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Shinya Takamaeda-Y
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
 
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
Shinya Takamaeda-Y
 
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Shinya Takamaeda-Y
 
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Shinya Takamaeda-Y
 
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Shinya Takamaeda-Y
 
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
 
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
Shinya Takamaeda-Y
 
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
Shinya Takamaeda-Y
 
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
Shinya Takamaeda-Y
 
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
Shinya Takamaeda-Y
 
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
Shinya Takamaeda-Y
 
むかし名言集bot作りました!
Shinya Takamaeda-Y
 
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
Shinya Takamaeda-Y
 
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Shinya Takamaeda-Y
 

Recently uploaded (10)

PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 

Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)

  • 1. 2013年1月26日 14:00 – 17:00 SC論文読み会 @東工大 Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) 著者:Abhinav Bhatele (LLNL), et al. 発表者:高前田(山崎) 伸也 (東工大)
  • 2. この論文を選んだ理由 n  実はうちの研究室でもスパコン向けタスク配置をやって いる l  あのテーマをSCに通すにはどんな感じの論文にすればいいんだ ろう?と興味がわいた n  アプリには興味がないけど,スケジューリングとか配置 とかで性能を高くするのは好き n  絵がたくさん載っていて楽しそう Shinya Takamaeda-Y. Tokyo Tech 2
  • 3. 概要 n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 3
  • 4. Introduction: タスク配置 n  「どのタスク」を「どのノード」に割り当てるか l  配置によってネットワークの使い方が変わる→性能が変わる n  我々がやっているメニーコアの場合 (RMAP) Bitonic Sort Matrix Multiply Idle Off-Chip Memory Normal RMAP 100000 Elapsed cycle [K cycle] 79775 80000 68921 76587 60000 68703 40000 20000 0 Bitonic Sort Matrix Multiply (a) Normal Allocation (b) RMAP Allocation Shinya Takamaeda-Y. Tokyo Tech 4
  • 5. Introduction: 従来手法について n  通信するタスク間のホップ数を小さくするように配置 l  ネットワークリンクの共有や混雑を減らすため n  どんな時にこれは有効か? l  各タスクが少数のノードとPoint-to-Pointで通信する,かつ l  Global communicatorでcollective通信を行う場合 Shinya Takamaeda-Y. Tokyo Tech 5
  • 6. Introduction: 問題点 n  スパコンのノード数とネットワークの直径は増加傾向 l  Global communicatorではなくsub-communicatorを用いて collective通信を行うように n  Sub-communicatorを用いる場合の最適なタスク配置 l  Sub-communicator単位のグループでノードをまとめれば, ホップ数は削減できる l  グループ境界のハードウェアリンクが未使用となり,ネット ワークバンド幅の利用効率が制限される l  例えば,ただまとめるのではなく,ちょっとずらしたりすると 使えるリンク数が増えてネットワーク性能が上がりそう Shinya Takamaeda-Y. Tokyo Tech 6
  • 7. Introduction: 本論文の貢献 n  N次元トーラスにおけるSub-communicatorを用いた Collective通信,特にall-to-allとbroadcastの性能向上を 目指す l  複数の次元にまたがってトーラスのリンクを包み込むようにコ ミュニケータを配置することで,実効バンド幅を増やすことが でき,混雑を回避するための経路を提供することが可能になる l  直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ よりもとても遅い n  既存のライブラリはレイテンシを削減するためにホップ 数を削減することにフォーカスしていたが,我々はより 多くの次元のリンクを利用することによりバンド幅使用 率を最大化する新しいツールRubikを提案する Shinya Takamaeda-Y. Tokyo Tech 7
  • 8. リンク使用率とバンド幅の向上 (1) n  ネットワークの端から端へのパスの数は ネットワークの次元が増えるにつれて増加 l  うまく配置すればリンク共有と混雑は低減できるはず Shinya Takamaeda-Y. Tokyo Tech 8
  • 9. リンク使用率とバンド幅の向上 (2) n  Blue Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 9
  • 10. リンク使用率とバンド幅の向上 (3) n  Blue Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l  リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 10
  • 11. リンク使用率とバンド幅の向上 (4) n  戦略 l  通信するタスクはplane/boxまたはmeshの角に配置し, 一直線上に配置しない l  通信ペア間の距離を離してスペアのリンクの数を増やす l  包み込むようなトーラスリンクを追加の経路として使う (?) Shinya Takamaeda-Y. Tokyo Tech 11
  • 12. The Rubik Mapping Tool Shinya Takamaeda-Y. Tokyo Tech 12
  • 13. Partitioning Operations (1) n  4つのオペレーションでタスク群を分割 l  div: 指定した個数に分割 l  tile: 指定した大きさに分割 l  mod: 指定した個数に分割し,インターリーブで交互に配置 l  cut: それぞれの次元に施すオペレーションを指定 Shinya Takamaeda-Y. Tokyo Tech 13
  • 14. Partitioning Operations (2) n  アプリケーションだけではなくネットワーク(ノード) も同じオペレーションで分割 l  それぞれのグループのサイズがアプリケーションとネットワーク で同じであれば,自動的にマップできる Shinya Takamaeda-Y. Tokyo Tech 14
  • 15. Permuting Operations (1) n  2つのオペレーションがで配置をずらすことができる l  tilt: 回転 l  zigzag: ジグザグにずらす Shinya Takamaeda-Y. Tokyo Tech 15
  • 16. Permuting Operations (2) Shinya Takamaeda-Y. Tokyo Tech 16
  • 17. Permuting Operations (3) Shinya Takamaeda-Y. Tokyo Tech 17
  • 18. Mapping A Lazer-Plasma Interaction Code (1) n  2D-FFTの計算とMPI_Alltoallが多く含まれる n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 18
  • 19. Mapping A Lazer-Plasma Interaction Code (2) n  ベースライン性能 l  Weak-scalingで通信と計算の比率を比較 l  ノード数の増加により通信オーバーヘッドが顕著化 Shinya Takamaeda-Y. Tokyo Tech 19
  • 20. Mapping A Lazer-Plasma Interaction Code (3) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 20
  • 21. Mapping A Lazer-Plasma Interaction Code (4) n  いくつかの配置におけるネットワーク利用状況 Shinya Takamaeda-Y. Tokyo Tech 21
  • 22. Mapping A Lazer-Plasma Interaction Code (5) n  各配置におけるMPIにかかった時間 l  TXYZがベースライン Shinya Takamaeda-Y. Tokyo Tech 22
  • 23. Mapping A Lazer-Plasma Interaction Code (6) n  各配置における性能 l  通信レートと1イタレーションの時間 Shinya Takamaeda-Y. Tokyo Tech 23
  • 24. Mapping A Lazer-Plasma Interaction Code (7) Shinya Takamaeda-Y. Tokyo Tech 24
  • 25. Mapping A First-Principles MD Code (1) n  計算インテンシブ,でも通信も多い n  ベースラインの性能 l  デフォルトのタスク配置: TXYZ •  ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 25
  • 26. Mapping A First-Principles MD Code (2) n  2048コアにマッピング l  こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 26
  • 27. Mapping A First-Principles MD Code (3) n  性能の変化 l  原子数512で40.0% (tiltY) の実行時間短縮 l  原子数1728で16.2% (mod)の実行時間短縮 Shinya Takamaeda-Y. Tokyo Tech 27
  • 28. まとめ n  スパコンにおける良いタスク配置を決定するためのツー ルに関する論文 l  いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n  2つのアプリケーションで評価 l  pF3D: レーザープラズマ相互作用 l  Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 28