Submit Search
Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)
1 like
•
1,619 views
Shinya Takamaeda-Y
SC12論文紹介@東工大
Technology
Read more
1 of 28
Download now
Download to read offline
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
More Related Content
PPTX
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
PPTX
電気基礎実験Iii c.電子回路(変調・復調回路)
Kentaro Miyazaki
PPT
20030203 doctor thesis_presentation_makotoshuto
Makoto Shuto
PPTX
卒業審査会
nagamoto
PPTX
冗長変換とその画像復元応用
Shogo Muramatsu
PDF
More modern gpu
Preferred Networks
PDF
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
Takahiro Harada
PDF
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Shinya Takamaeda-Y
ウェーブレット変換の基礎と応用事例:連続ウェーブレット変換を中心に
Ryosuke Tachibana
電気基礎実験Iii c.電子回路(変調・復調回路)
Kentaro Miyazaki
20030203 doctor thesis_presentation_makotoshuto
Makoto Shuto
卒業審査会
nagamoto
冗長変換とその画像復元応用
Shogo Muramatsu
More modern gpu
Preferred Networks
Introduction to Monte Carlo Ray Tracing (CEDEC 2013)
Takahiro Harada
PyCoRAMを用いたグラフ処理FPGAアクセラレータ
Shinya Takamaeda-Y
Viewers also liked
(16)
PDF
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
Shinya Takamaeda-Y
PDF
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
Shinya Takamaeda-Y
PDF
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
PDF
A CGRA-based Approachfor Accelerating Convolutional Neural Networks
Shinya Takamaeda-Y
PDF
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Shinya Takamaeda-Y
PDF
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
PDF
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
Shinya Takamaeda-Y
PDF
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
PDF
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Shinya Takamaeda-Y
PDF
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
PDF
PythonとVeriloggenを用いたRTL設計メタプログラミング
Shinya Takamaeda-Y
PDF
Zynq+PyCoRAM(+Debian)入門
Shinya Takamaeda-Y
PDF
Pythonを用いた高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
PPTX
Zynq + Vivado HLS入門
narusugimoto
PDF
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
PDF
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Shinya Takamaeda-Y
助教が吼える! 各界の若手研究者大集合「ハードウェアはやわらかい」
Shinya Takamaeda-Y
An FPGA-based Scalable Simulation Accelerator for Tile Architectures @HEART2011
Shinya Takamaeda-Y
PyCoRAM (高位合成友の会@ドワンゴ, 2015年1月16日)
Shinya Takamaeda-Y
A CGRA-based Approachfor Accelerating Convolutional Neural Networks
Shinya Takamaeda-Y
Veriloggen: Pythonによるハードウェアメタプログラミング(第3回 高位合成友の会 @ドワンゴ)
Shinya Takamaeda-Y
マルチパラダイム型高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
PythonとPyCoRAMでお手軽にFPGAシステムを開発してみよう
Shinya Takamaeda-Y
PyCoRAMによるPythonを用いたポータブルなFPGAアクセラレータ開発 (チュートリアル@ESS2014)
Shinya Takamaeda-Y
Pythonによる高位設計フレームワークPyCoRAMでFPGAシステムを開発してみよう
Shinya Takamaeda-Y
コンピュータアーキテクチャ研究の最新動向〜ISCA2015参加報告〜 @FPGAエクストリーム・コンピューティング 第7回 (#fpgax #7)
Shinya Takamaeda-Y
PythonとVeriloggenを用いたRTL設計メタプログラミング
Shinya Takamaeda-Y
Zynq+PyCoRAM(+Debian)入門
Shinya Takamaeda-Y
Pythonを用いた高水準ハードウェア設計環境の検討
Shinya Takamaeda-Y
Zynq + Vivado HLS入門
narusugimoto
FPGA・リコンフィギャラブルシステム研究の最新動向
Shinya Takamaeda-Y
Debian Linux on Zynq (Xilinx ARM-SoC FPGA) Setup Flow (Vivado 2015.4)
Shinya Takamaeda-Y
Ad
Similar to Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)
(20)
PDF
IEEE eScience 2012および併設ワークショップ報告
Ryousei Takano
PDF
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
PDF
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
PDF
HistoPyramid Stream Compaction
dasyprocta
PDF
5 inoue
guestb900b6b
PDF
Tuning, etc.
Hiroshi Watanabe
PDF
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
PDF
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
Koichi Hamada
PDF
SSDとTokyoTyrantやMySQLの性能検証
勲 國府田
PDF
How the future prediction affects on the evolution of technologies
坂本 真里
PDF
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
Developers Summit
PDF
Zabbix勉強会
Hiroshi Morotomi
PPTX
マイクロインスタンスがいっぱい
Tom Shimada
PDF
ScalableCore system at SWoPP2010 BoF-2
Shinya Takamaeda-Y
PDF
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
PDF
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
PDF
Kanban Vs Scrum日本語版
Hiroki Kondo
PDF
PostgreSQL9.0アップデート レプリケーションがやってきた!
Masao Fujii
PPTX
LODのOLAP分析を可能にするETLフレームワークの提案
Hiroyuki Inoue
PDF
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
IEEE eScience 2012および併設ワークショップ報告
Ryousei Takano
ソーシャルデザインパターン -評判と情報収集-
Koichi Hamada
AspectJを用いた大規模分散システムHadoopの監視とプロファイリング
Yusuke Shimizu
HistoPyramid Stream Compaction
dasyprocta
5 inoue
guestb900b6b
Tuning, etc.
Hiroshi Watanabe
短距離古典分子動力学計算の 高速化と大規模並列化
Hiroshi Watanabe
[R勉強会][データマイニング] プロセス・リソース・グラフと数理統計解析
Koichi Hamada
SSDとTokyoTyrantやMySQLの性能検証
勲 國府田
How the future prediction affects on the evolution of technologies
坂本 真里
【18-C-7】GPUコンピューティングが世界を変える~GPGPUで開発をはじめるために知っておくべき10個のこと
Developers Summit
Zabbix勉強会
Hiroshi Morotomi
マイクロインスタンスがいっぱい
Tom Shimada
ScalableCore system at SWoPP2010 BoF-2
Shinya Takamaeda-Y
[データマイニング+WEB勉強会][R勉強会] R言語によるクラスター分析 - 活用編
Koichi Hamada
研究動向から考えるx86/x64最適化手法
Takeshi Yamamuro
Kanban Vs Scrum日本語版
Hiroki Kondo
PostgreSQL9.0アップデート レプリケーションがやってきた!
Masao Fujii
LODのOLAP分析を可能にするETLフレームワークの提案
Hiroyuki Inoue
機械学習とこれを支える並列計算 : 並列計算の現状と産業応用について
ハイシンク創研 / Laboratory of Hi-Think Corporation
Ad
More from Shinya Takamaeda-Y
(15)
PDF
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
PDF
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
PDF
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
Shinya Takamaeda-Y
PDF
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Shinya Takamaeda-Y
PDF
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Shinya Takamaeda-Y
PDF
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Shinya Takamaeda-Y
PDF
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
PDF
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
Shinya Takamaeda-Y
PDF
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
Shinya Takamaeda-Y
PDF
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
Shinya Takamaeda-Y
PDF
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
Shinya Takamaeda-Y
PDF
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
Shinya Takamaeda-Y
PDF
むかし名言集bot作りました!
Shinya Takamaeda-Y
PDF
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
Shinya Takamaeda-Y
PDF
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Shinya Takamaeda-Y
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
ディープニューラルネットワーク向け拡張可能な高位合成コンパイラの開発
Shinya Takamaeda-Y
Veriloggen.Stream: データフローからハードウェアを作る(2018年3月3日 高位合成友の会 第5回 @東京工業大学)
Shinya Takamaeda-Y
Veriloggen.Thread & Stream: 最高性能FPGAコンピューティングを 目指したミックスドパラダイム型高位合成 (FPGAX 201...
Shinya Takamaeda-Y
Pythonによるカスタム可能な高位設計技術 (Design Solution Forum 2016@新横浜)
Shinya Takamaeda-Y
ゆるふわコンピュータ (IPSJ-ONE2017)
Shinya Takamaeda-Y
A Framework for Efficient Rapid Prototyping by Virtually Enlarging FPGA Resou...
Shinya Takamaeda-Y
A High Performance Heterogeneous FPGA-based Accelerator with PyCoRAM (Runner ...
Shinya Takamaeda-Y
PyCoRAM: Python-Verilog高位合成とメモリ抽象化によるFPGAアクセラレータ向けIPコア開発フレームワーク (FPGAX #05)
Shinya Takamaeda-Y
メモリ抽象化フレームワークPyCoRAMを用いたソフトプロセッサ混載FPGAアクセラレータの開発
Shinya Takamaeda-Y
PyCoRAM: Yet Another Implementation of CoRAM Memory Architecture for Modern F...
Shinya Takamaeda-Y
むかし名言集bot作りました!
Shinya Takamaeda-Y
APGAS言語X10を用いたオンチップネットワークシミュレーションの並列化
Shinya Takamaeda-Y
Network Performance of Multifunction On-chip Router Architectures (IEICE-CPSY...
Shinya Takamaeda-Y
Recently uploaded
(10)
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
20250729_Devin-for-Enterprise
Masaki Yamakawa
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12)
1.
2013年1月26日 14:00 –
17:00 SC論文読み会 @東工大 Mapping Applications with Collectives over Sub-communicators on Torus Networks (SC12) 著者:Abhinav Bhatele (LLNL), et al. 発表者:高前田(山崎) 伸也 (東工大)
2.
この論文を選んだ理由 n 実はうちの研究室でもスパコン向けタスク配置をやって
いる l あのテーマをSCに通すにはどんな感じの論文にすればいいんだ ろう?と興味がわいた n アプリには興味がないけど,スケジューリングとか配置 とかで性能を高くするのは好き n 絵がたくさん載っていて楽しそう Shinya Takamaeda-Y. Tokyo Tech 2
3.
概要 n スパコンにおける良いタスク配置を決定するためのツー
ルに関する論文 l いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n 2つのアプリケーションで評価 l pF3D: レーザープラズマ相互作用 l Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 3
4.
Introduction: タスク配置 n 「どのタスク」を「どのノード」に割り当てるか
l 配置によってネットワークの使い方が変わる→性能が変わる n 我々がやっているメニーコアの場合 (RMAP) Bitonic Sort Matrix Multiply Idle Off-Chip Memory Normal RMAP 100000 Elapsed cycle [K cycle] 79775 80000 68921 76587 60000 68703 40000 20000 0 Bitonic Sort Matrix Multiply (a) Normal Allocation (b) RMAP Allocation Shinya Takamaeda-Y. Tokyo Tech 4
5.
Introduction: 従来手法について n 通信するタスク間のホップ数を小さくするように配置
l ネットワークリンクの共有や混雑を減らすため n どんな時にこれは有効か? l 各タスクが少数のノードとPoint-to-Pointで通信する,かつ l Global communicatorでcollective通信を行う場合 Shinya Takamaeda-Y. Tokyo Tech 5
6.
Introduction: 問題点 n スパコンのノード数とネットワークの直径は増加傾向
l Global communicatorではなくsub-communicatorを用いて collective通信を行うように n Sub-communicatorを用いる場合の最適なタスク配置 l Sub-communicator単位のグループでノードをまとめれば, ホップ数は削減できる l グループ境界のハードウェアリンクが未使用となり,ネット ワークバンド幅の利用効率が制限される l 例えば,ただまとめるのではなく,ちょっとずらしたりすると 使えるリンク数が増えてネットワーク性能が上がりそう Shinya Takamaeda-Y. Tokyo Tech 6
7.
Introduction: 本論文の貢献 n N次元トーラスにおけるSub-communicatorを用いた
Collective通信,特にall-to-allとbroadcastの性能向上を 目指す l 複数の次元にまたがってトーラスのリンクを包み込むようにコ ミュニケータを配置することで,実効バンド幅を増やすことが でき,混雑を回避するための経路を提供することが可能になる l 直線上に配置した8ノードでのall-to-allは2x2x2のキューブのそれ よりもとても遅い n 既存のライブラリはレイテンシを削減するためにホップ 数を削減することにフォーカスしていたが,我々はより 多くの次元のリンクを利用することによりバンド幅使用 率を最大化する新しいツールRubikを提案する Shinya Takamaeda-Y. Tokyo Tech 7
8.
リンク使用率とバンド幅の向上 (1) n ネットワークの端から端へのパスの数は
ネットワークの次元が増えるにつれて増加 l うまく配置すればリンク共有と混雑は低減できるはず Shinya Takamaeda-Y. Tokyo Tech 8
9.
リンク使用率とバンド幅の向上 (2) n Blue
Gene/P 16ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 9
10.
リンク使用率とバンド幅の向上 (3) n Blue
Gene/Q 8ノードの配置MPI_AlltoallとMPI_Bcastの 性能 l リンク集中が少なくなると所要時間が短縮 Shinya Takamaeda-Y. Tokyo Tech 10
11.
リンク使用率とバンド幅の向上 (4) n 戦略
l 通信するタスクはplane/boxまたはmeshの角に配置し, 一直線上に配置しない l 通信ペア間の距離を離してスペアのリンクの数を増やす l 包み込むようなトーラスリンクを追加の経路として使う (?) Shinya Takamaeda-Y. Tokyo Tech 11
12.
The Rubik Mapping
Tool Shinya Takamaeda-Y. Tokyo Tech 12
13.
Partitioning Operations (1)
n 4つのオペレーションでタスク群を分割 l div: 指定した個数に分割 l tile: 指定した大きさに分割 l mod: 指定した個数に分割し,インターリーブで交互に配置 l cut: それぞれの次元に施すオペレーションを指定 Shinya Takamaeda-Y. Tokyo Tech 13
14.
Partitioning Operations (2)
n アプリケーションだけではなくネットワーク(ノード) も同じオペレーションで分割 l それぞれのグループのサイズがアプリケーションとネットワーク で同じであれば,自動的にマップできる Shinya Takamaeda-Y. Tokyo Tech 14
15.
Permuting Operations (1)
n 2つのオペレーションがで配置をずらすことができる l tilt: 回転 l zigzag: ジグザグにずらす Shinya Takamaeda-Y. Tokyo Tech 15
16.
Permuting Operations (2)
Shinya Takamaeda-Y. Tokyo Tech 16
17.
Permuting Operations (3)
Shinya Takamaeda-Y. Tokyo Tech 17
18.
Mapping A Lazer-Plasma
Interaction Code (1) n 2D-FFTの計算とMPI_Alltoallが多く含まれる n ベースラインの性能 l デフォルトのタスク配置: TXYZ • ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 18
19.
Mapping A Lazer-Plasma
Interaction Code (2) n ベースライン性能 l Weak-scalingで通信と計算の比率を比較 l ノード数の増加により通信オーバーヘッドが顕著化 Shinya Takamaeda-Y. Tokyo Tech 19
20.
Mapping A Lazer-Plasma
Interaction Code (3) n 2048コアにマッピング l こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 20
21.
Mapping A Lazer-Plasma
Interaction Code (4) n いくつかの配置におけるネットワーク利用状況 Shinya Takamaeda-Y. Tokyo Tech 21
22.
Mapping A Lazer-Plasma
Interaction Code (5) n 各配置におけるMPIにかかった時間 l TXYZがベースライン Shinya Takamaeda-Y. Tokyo Tech 22
23.
Mapping A Lazer-Plasma
Interaction Code (6) n 各配置における性能 l 通信レートと1イタレーションの時間 Shinya Takamaeda-Y. Tokyo Tech 23
24.
Mapping A Lazer-Plasma
Interaction Code (7) Shinya Takamaeda-Y. Tokyo Tech 24
25.
Mapping A First-Principles
MD Code (1) n 計算インテンシブ,でも通信も多い n ベースラインの性能 l デフォルトのタスク配置: TXYZ • ノード内→X軸→Y軸→Z軸の順にMPIランクの順番に配置 Shinya Takamaeda-Y. Tokyo Tech 25
26.
Mapping A First-Principles
MD Code (2) n 2048コアにマッピング l こんな簡単なコードで! Shinya Takamaeda-Y. Tokyo Tech 26
27.
Mapping A First-Principles
MD Code (3) n 性能の変化 l 原子数512で40.0% (tiltY) の実行時間短縮 l 原子数1728で16.2% (mod)の実行時間短縮 Shinya Takamaeda-Y. Tokyo Tech 27
28.
まとめ n スパコンにおける良いタスク配置を決定するためのツー
ルに関する論文 l いくつかのシンプルなオペレーションでアプリケーションの配 置を変更できる n 2つのアプリケーションで評価 l pF3D: レーザープラズマ相互作用 l Qbox: 第1原理分子動力学 Shinya Takamaeda-Y. Tokyo Tech 28
Download