LLVMで遊ぶ（整数圧縮とか、x86向けの自動ベクトル化とか）

LLVMで遊ぶ

整数圧縮とか、x86向け自動ベクトル化とか
2013/3/30

maropu@x86/64最適化勉強会5

1

clang
LLVMで遊ぶ

整数圧縮とか、x86向け自動ベクトル化とか
2013/3/30

maropu@x86/64最適化勉強会5

2

本日の概要
•  なんでお前clang（LLVM）の話してんの？

–  RDBMS関連の話題で最近良く扱われるため勉強中

–  今書いている整数圧縮のコードをより高速化したい

•  整数圧縮ライブラリ:
vpacker

–  hCps://github.com/maropu/vpacker

•  clangのx86向け自動ベクトル化

–  SIMDを使用した命令列への自動変換

3

LLVMとの出会い・・・

4

DB業界におけるLLVMの利活用
•  SQLによる関係代数の処理をLLVM-‐JITで改善

–  既存DBのSQL処理系*1は冗長的で非効率

*1SQLコンパイラとSQL実行エンジンのこと

Thomas Neumann, Efficiently Compiling Efficient Query Plans for
Modern Hardware, Proc. of VLDB’11
5

DB業界におけるLLVMの利活用
•  Cloudera
ImpalaにおけるLLVMの利用

•  SQL対応の分散クエリエンジン

•  aggregaQon/join/scanの一部をJITで効率化

•  hCps://github.com/cloudera/impala

引用: http://www.theregister.co.uk/2012/10/24/cloudera_hadoop_impala_real_time_query/
6

整数圧縮ライブラリ: vpacker

7

vpacker
•  32/64-‐bit整数列を圧縮するライブラリ（C/C++/Java）

–  hCps://github.com/maropu/vpacker

•  前提条件:
正の歪度をもつ整数列を効率的に圧縮

–  大半が小さい値で、稀に大きな値が発生

•  ライブラリの特徴

–  少ないメモリ量で圧縮＆展開

–  ILPを考慮した展開処理
-‐
γ/δ符号と比べて速い

–  動的計画法による圧縮率の最適化

–  ヘッダファイルの読み込みのみで使用可能

8

vpacker
–
使い方

9

近年の整数圧縮手法
~1990’s
~2000’s
~2013

BP/SIMD-BP(2012)

γ/δ/Variable-Byte符号
Varint-G8IU(2011)
Simple9(2005)
Simple16(2009)

Simple8b(2010)

VSEncoding(2010)
PForDelta(2006)
OPTPForDelta(2009)
SIMD-FastPFor/SimplePFor(2012)
10

近年の整数圧縮手法
~1990’s
~2000’s
~2013

BP/SIMD-BP(2012)

γ/δ/Variable-Byte符号
Varint-G8IU(2011)
Simple9(2005)
Simple16(2009)

Simple8b(2010)
-  現在、最速の手法で秒間2000M個整数を展開
-  vpackerは20130330現在の実装で秒間600〜700M程度
VSEncoding(2010)
PForDelta(2006)
OPTPForDelta(2009)
SIMD-FastPFor/SimplePFor(2012)
11

vpacker
–
内部構造

•  圧縮データのバイナリフォーマット

–  前半のディスクリプタ部と圧縮したデータ部で構成

ディスクリプタ部（desc）
圧縮データ部（in）

1-byteのディスクリプタの列圧縮された整数データ
後半の圧縮したデータが
どのように格納されているかを記録

12

vpacker
–
内部構造



1-byteのデータに固定長1-bitで8個の整数が格納

void unpack1_8(const char *in, uint32_t *out) {
*out++ = in[0] & 0x01;
*out++ = (in[0] >> 1) & 0x01;
*out++ = (in[0] >> 2) & 0x01;
...
*out++ = (in[0] >> 7) & 0x01;
}

13

vpacker
–
内部構造




void unpack2_8(const char *in, uint32_t *out) {
*out++ = in[0] & 0x03;
*out++ = (in[0] >> 2) & 0x03;
*out++ = (in[0] >> 4) & 0x03;
...
*out++ = (in[1] >> 6) & 0x03;
}

14

vpacker
–
内部構造
•  復元処理の動作概要




while (1) {
switch (*desc++) {
case 1-bitで8個の整数を展開: unpack1_8(in, out); break;
...
}
-  VMのインタプリタ的な処理の流れ
}
-  descは1-byteのため最大256分岐（分岐数は設計による）

15

vpacker
–
内部構造
•  LLVM-‐JITを用いてwhile-‐switchを軽量化

–  共通する復元処理をまとめることでjmp命令を除去


「前提条件」より大半の復元処理は
一部の関数に集中
while (1) {
switch (*desc++) {
...
}
}

16

vpacker
–
内部構造
•  呼び出しが集中している関数を高速化

–  基本はSIMDを利用したデータ並列性の向上


呼び出しが集中している関数を高速化
while (1) {
switch (*desc++) {
...
}
}

17

gcc（v4.8）の自動ベクトル化
•  この関数*1ってどんな機械語に変換されるの？

–  処理に依存関係が無く，ベクトル化しやすそうな印象

void unpack1(const char *in, uint32_t *out, int n) {
for (int i = 0; i < n; i++) {
*out++ = in[0] & 0x01;
*out++ = (in[0] >> 1) & 0x01;
*out++ = (in[0] >> 2) & 0x01;
...
*out++ = (in[0] >> 7) & 0x01;
}
}

*1 現実に即して，ループ回数（n）を指定できるように変更しました
18

•  この関数ってどんな機械語に変換されるの？


for (int i = 0; i < n; i++) {
*out++ = in[0] & 0x01;
*out++ = (in[0] >> 1) & 0x01;
*out++ = (in[0] >> 2) & 0x01;
...
*out++ = (in[0] >> 7) & 0x01;
}
}
重要）コンパイルする前に自動ベクトル化されやすいように前処理

19



for (int i = 0; i < n; i++) {
for (int j = 0; j < 8; j++)
*out++ = (*in >> j) & 0x01;
in++;
}
}
gccの場合、SLP（Superword-Level Parallelism）による最適化より
Loop Vectorizerに任せたほうが良いらしいです

20



void unpack1(const char * __restrict__ in,
uint32_t * __restrict__ out, int n) {
for (int i = 0; i < n; i++) {
for (int j = 0; j < 8; j++)
*out++ = (*in >> j) & 0x01;
in++;
}
}
__restrict__を付与してin/outを呼び出し側で16Bにアライメント

21

•  一部だけ抜粋
&
並び替え（’gcc
-‐O3’）

movdqu (%r9), %xmm1 // in - %xmm1

pxor %xmm2, %xmm2
pcmpgtb %xmm1, %xmm2
movdqa %xmm1, %xmm3
punpckhbw %xmm2, %xmm1
punpcklbw %xmm2, %xmm3

　　　　　　pxor %xmm2, %xmm2
movdqa %xmm3, %xmm4
pcmpgtw %xmm3, %xmm2
punpcklwd %xmm2, %xmm4

movdqa %xmm4, %xmm5
pand %xmm0, %xmm5 // %xmm1=[0x01, 0x01, 0x01, 0x01]
....

22


-‐O3’）


pxor %xmm2, %xmm2
movdqa %xmm1, %xmm3
punpcklbw %xmm2, %xmm3 バイトからワードに符号拡張

movdqa %xmm3, %xmm4
punpcklwd %xmm2, %xmm4 ワードからダブルワードに符号拡張

movdqa %xmm4, %xmm5
....
0x01でマスクして展開処理完了
23


-‐O3’）


pxor %xmm2, %xmm2
movdqa %xmm1, %xmm3
punpcklbw %xmm2, %xmm3 バイトからワードに符号拡張

movdqa %xmm3, %xmm4
punpcklwd %xmm2, %xmm4 ワードからダブルワードに符号拡張
‘n 15’で分岐させてLoopを全てinline化するアグレッシブな最適化
movdqa %xmm4, %xmm5
→’n = 15’はベクトル化されていないパスに分岐
....
0x01でマスクして展開処理完了
24

clangのx86向け自動ベクトル化

25

clangと自動ベクトル化
•  LLVM上に実装されたC/C++用フロントエンド

–  hCp://clang.llvm.org/index.html

•  Auto-‐VectorizaQon
in
LLVM

–  hCp://llvm.org/docs/Vectorizers.html

•  Linpackを用いた性能評価

–  with
loop
vectorizaQon
at
-‐O3
running
on
a
Sandybridge

自動ベクトル化の有無で
性能差が３倍程度！

26

clangにおける２種類のVectorizer
•  Basic-‐Block(BB)
Vectorizer
–
SLP
in
gcc

–  v3.1で”
-‐mllvm
–vectorize”として導入

–  最適化の対象が「Basic
Block」

–  歴史的に実装されたのはコチラが先

•  Loop
Vectorizer

–  v3.2でようやく”
-‐mllvm
–vectorize-‐loops”として導入

–  「Unroll+BB
Vectorizer」にLoop間依存解析を加えたもの

–  自動ベクトル化の制約（v3.2のReleaseNotesより）

•  Loop枚のカウントは”1”のみ

•  InducQon変数は一番内側のLoopのみ使用可能

27

clangの自動ベクトル化パラメータ
•  clang-‐v3.2を利用（2013/3/30現在最新）

–  デフォルトで自動ベクトル化は全てOFF

–  v3.3からLoop
Vectorizerはデフォルトに

•  -‐mllvm
–vectorize,
-‐mllvm
–vectorize-‐loops

–  -‐O2/-‐O3との併用が必要

–  -‐Osはコード増加が発生しない場合に適用

•  -‐mllvm
–bb-‐vectorize-‐aligned-‐only

–  アラインされたstore/loadのみを最適化に使用

•  -‐mllvm
–force-‐vector-‐width=X

–  最適化で使用するベクトル要素数をXで指定

28

その他の補助パラメータ
•  -‐mllvm
–unroll-‐allow-‐parQal

–  Loop内の部分的なUnrollを可能に

•  -‐mllvm
–unroll-‐runQme

–  実行時にLoopを数えてUnroll可能に

•  -‐funsafe-‐math-‐opQmizaQons,
-‐ﬀast-‐math

–  浮動小数点演算にIEEE/ISO仕様外の最適化を適用

•  他の関連するパラメータは以下の資料が詳しい

–  Auto-‐vectorizaQon
with
LLVM

–  hCp://llvm.org/devmtg/2012-‐04-‐12/Slides/Hal_Finkel.pdf

29

WriQng
Vectorizer-‐Friendly
Code
in
clang

•  example.1#

–  clang
-‐O3
-‐mllvm
-‐vectorize-‐loops

void test1(float * __restrict__ a,
float * __restrict__ b, int n) {
for (int i = 0; i n; i++)
a[i] += b[i];
}

30

WriQng
Code
in
clang

•  example.1#

–  clang
-‐O3
-‐mllvm

%rdiと%rsiは16Bに揃えてあるのに
.LBB0_2: なぜかmovapsに変換されない？
movups 16(%rdi,%rax,4), %xmm1
movups 16(%rsi,%rax,4), %xmm0
addps %xmm1, %xmm0
movups (%rdi,%rax,4), %xmm1
movups (%rsi,%rax,4), %xmm2
movups %xmm0, 16(%rdi,%rax,4)
addps %xmm1, %xmm2
movups %xmm2, (%rdi,%rax,4)
addq $8, %rax
cmpq %rax, %rcx
jne .LBB0_2
31

WriQng
Code
in
clang

•  example.2#

–  clang
-‐O3
-‐mllvm

for (int i = 0; i n; i += 2)
a[i] += b[i];
}

32

WriQng
Code
in
clang

•  example.2#

–  clang
-‐O3
-‐mllvm

.LBB0_2:
movss (%rsi,%rax,4), %xmm0
addss (%rdi,%rax,4), %xmm0
movss %xmm0, (%rdi,%rax,4)
addq $2, %rax
cmpl %edx, %eax
jl .LBB0_2

33

WriQng
Code
in
clang

•  example.3#

–  clang
-‐O3
-‐mllvm

for (int i = 0; i n; i += 1) {
for (int j = 0; j SIZE; j++)
a[i * SIZE + j] += b[i * SIZE + j];
}
}

34

WriQng
Code
in
clang

•  example.3#

–  clang
-‐O3
-‐mllvm

.LBB1_22: # = The Inner Loop
movups (%rbx), %xmm2
movups 16(%rbx), %xmm1
movups (%rax), %xmm0
movups 16(%rax), %xmm3
addps %xmm2, %xmm0
addps %xmm1, %xmm3
movups %xmm3, 16(%rbx)
movups %xmm0, (%rbx)
addq $32, %rbx
addq $32, %rax
addq $-8, %rdi
jne .LBB1_22
35

WriQng
Code
in
clang

•  example.4#

–  clang
-‐O3
-‐mllvm

float test4(float * __restrict__ a, int n) {
float S = 0.0;
for (int i = 0; i n; i += 1)
S += a[i];
return S;
}

36

WriQng
Code
in
clang

•  example.4#

–  clang
-‐O3
-‐mllvm

.LBB0_1:
addss (%rdi), %xmm0
addq $4, %rdi
decl %esi
jne .LBB0_1

浮動小数点演算は結合則が成り立たないため、こういう命令列に
→clangにも’-ffast-math’があるが、出力する命令は同じだった

37

WriQng
Code
in
clang

•  example.4#

–  gcc
-‐O3
-‐ﬀast-‐math

.L33:
addps (%rax), %xmm0
addq $16, %rax
cmpq %rdx, %rax
jne .L33
movaps %xmm0, %xmm1
movhlps %xmm0, %xmm1
addps %xmm0, %xmm1
movaps %xmm1, %xmm0
shufps $85, %xmm1, %xmm0
addps %xmm1, %xmm0
unpcklps %xmm0, %xmm0
38

WriQng
Code
in
clang

•  example.4#

–  gcc
-‐O3
-‐ﬀast-‐math
ベクトル加算して

.L33:
addps (%rax), %xmm0
addq $16, %rax
cmpq %rdx, %rax
jne .L33 水平加算
movaps %xmm0, %xmm1
movhlps %xmm0, %xmm1
addps %xmm0, %xmm1
movaps %xmm1, %xmm0
shufps $85, %xmm1, %xmm0
addps %xmm1, %xmm0
unpcklps %xmm0, %xmm0
39

最後に・・・

40

clangが出力する「unpack1」
•  一部だけ抜粋（’
clang
-‐S
-‐O3
-‐mllvm
-‐vectorize’）

movsbl (%rdi), %eax # *in - %eax
movd %eax, %xmm0
pshufd $0, %xmm0, %xmm4
pshufd $68, %xmm4, %xmm3
pand %xmm8, %xmm4
movl %eax, %ecx
...
shrq $2, %r10
movd %r10, %xmm0
punpcklqdq %xmm7, %xmm0
pand 人類には早すぎる難解なアセンブリが出力された・・・
%xmm1, %xmm0
pshufd →nの値でunrollはしないgccに比べてコンサバな最適化
$-128, %xmm0, %xmm7
movss %xmm6, %xmm7
movlhps %xmm7, %xmm5
shufps $-30, %xmm7, %xmm5
movups %xmm5, (%rsi) # %xmm5 - dst

41

gcc-‐4.8
vs
clang-‐3.2

•  「unapack1」の性能比較

•  Intel
Core
i5-‐3427@1.8GHzを使用

n=15
n=16
n=32
n=64
gcc
0.051us
0.040us
0.073us
0.152us
clang
0.105us
0.110us
0.224us
0.446us
raQo
x2.1
x2.7
x3.1
x3.0

ベクトル化された状態で約3倍の性能差

42

本日のまとめ

43

本日のまとめ
•  clang-‐v3.2の自動ベクトル化の性能調査

–  基本的なものは自動的にベクトル化される

–  処理が複雑になるとgccに対して2～3倍程度の性能差も

•  ‘Vectorizer-‐Friendly’はまだまだ重要

–  完全にコンパイラ任せ，というわけには現在いかない

–  256-‐bit,
512-‐bit,
...とベクトル長が増えると性能差は拡大

　

44

本日のまとめ
•  自動ベクトル化のためのコード規約

1.
ポインタのエイリアスは避ける

　・必要な個所では__restrict__を付ける

2.
ベクトル長の境界に合わせる

・__builQn_assume_aligned(X),
__aCribute__((aligned(X))の活用

3.
Loop内の手作業のinline化は避ける

・Loop
Vectorizerに任せたほうが賢い

　

45

LLVMで遊ぶ（整数圧縮とか、x86向けの自動ベクトル化とか）

More Related Content

What's hot (20)

Similar to LLVMで遊ぶ（整数圧縮とか、x86向けの自動ベクトル化とか） (20)

More from Takeshi Yamamuro (20)

LLVMで遊ぶ（整数圧縮とか、x86向けの自動ベクトル化とか）