SlideShare a Scribd company logo
Deep Learning Acceleration 勉強会
2017/9/3
TensorFlow XLAの可能性
TensorFlow r1.3で導入さ
れたpluginにて、いろいろな
ハードウェアへの対応がで
きるようになる!
@Vengineer
CQ出版社:インターフェース 8月号、9月号に
TensorFlow XLAのAOTについての記事を書きました。
8月号:
衝撃的な性能UPの可能性を秘めた注目テクノロジ速報
AIをサクサク動かすGoogle新機能TensorFlow「XLA」を探る
9月号:
最新テクノロジ・マニアの挑戦 ...AIサクサク用TensorFlow XLA AOTコンパイラ探訪
初めてのGoogleソースコード!AI用コンパイラの可能性を探る
ブログ : Vengineerの戯言
http://blogs.yahoo.co.jp/verification_engineer
Twitter : @Vengineer
自己紹介
Design Solution Forum
2017年10月13日(金)開催@新横浜
今年で4年目、毎年500名を越える来場者
絶賛、申込受付中
http://www.dsforum.jp/
「ディーブラーニングトラック」
「RISC-Vトラック」
それぞれ5講演の予定
TensorFlow XLAとは
https://www.tensorflow.org/performance/xla/
XLA(Accelerated Linear Algebra)は、TensorFlow計算を最適化
する線形代数のドメイン固有のコンパイラです。 結果として、サー
バーおよびモバイルプラットフォームでの速度、メモリ使用率、移植性
が向上します。 当初、ほとんどのユーザーはXLAの大きなメリットは
見られませんが、JIT(Just-In-Time)コンパイルや
AOT(Ahead-Of-Time)コンパイルを使用してXLAを使用することで
実験を開始できます。 新しいハードウェアアクセラレータをターゲット
とする開発者は、XLAを試すことを特にお勧めします。
原文(英語)をそのまま、Google翻訳にお願いしました。
TensorFlow w/XLA: TensorFlow, Compiled! Expressiveness with performance
https://autodiff-workshop.github.io/slides/JeffDean.pdf
XLA対応のデバイス
ブログにも書きました
TensorFlow XLAの衝撃
2017年2月20日
http://blogs.yahoo.co.jp/verification_engineer/71016304.html
TensorFlow User Group ハード部 #2
https://tfug-tokyo.connpass.com/event/54426/
TensorFlow XLAは、
中で何をやっているのか?
2017年4月21日
https://blogs.yahoo.co.jp/verification_engineer/71103781.html
CQ出版社インターフェース 8月号、9月号に
TensorFlow XLAのAOTについての記事を書きまし
た
8月号:
衝撃的な性能UPの可能性を秘めた注目テクノロジ速報
AIをサクサク動かすGoogle新機能TensorFlow「XLA」を探る
9月号:
最新テクノロジ・マニアの挑戦 ...AIサクサク用TensorFlow XLA AOTコンパイラ探訪
初めてのGoogleソースコード!AI用コンパイラの可能性を探る
また、ブログにも書きました
TensorFlow XLAに動きあり
2017年7月3日
https://blogs.yahoo.co.jp/verification_engineer/71198977.html
日経エレクトロニクス、2017年9月号の記事、
ソニーも参戦、深層学習ソフト 組み込み向けの開発環
境で競う
日経エレクトロニクスの
    取材を受けましたよ
2017年8月19日
https://blogs.yahoo.co.jp/verification_engineer/71267571.html
TensorFlow XLAの可能性
これからお話する内容
0)、Pythonの式からTensorFlowグラフが
  どう変形されるかを見ていきます
1)、JIT (Just-In-Time) コンパイル
ただし、単一マシンのみで、GPUは1つ
2)、AOT (Ahead-Of-Time) コンパイル
CPUのみ
x86-64/ARM/AARCH64/PowerPC
CQ出版インターフェースを見てね!
Using JIT Compilation
https://www.tensorflow.org/performance/xla/jit
TensorFlow/XLA JITコンパイラは、XLAを使用してTensorFlowグ
ラフの一部をコンパイルして実行します。
この標準的なTensorFlow実装の利点は、XLAが複数の演算子(カー
ネル融合)を少数のコンパイル済みカーネルに融合できることです。
TensorFlow Executorsが実行するように、演算子を融合させること
で、メモリ帯域幅の要件を減らし、演算子を1つずつ実行するよりもパ
フォーマンスを向上させることができます。
原文(英語)をそのまま、Google翻訳にお願いしました。
サンプルコードで
確認してみよう
デバイスを gpu にすると
def test_gpu(self):
with tf.Session() as sess:
x = tf.placeholder(tf.float32, [2], name="x")
with tf.device("gpu"):
y = x * 2
result = sess.run(y, {x: [1.5, 0.5]})
Session.runの動き
python/client/session.py
SessionInterface => BaseSession => Session
def run( self, fetches, feed_dict=None,
options=None, run_metadata=None );
_run
 _do_run
  tf_session.TF_Run
 ここからC++の世界
c/c_api.ccのTF_Run関数
   c/c_api.ccのTF_Run_Helper関数
      Session::run (core/public/session.h)
 DirectSession::Run
 
C++のDirectSession::Run
DirectSession::Run (core/common_runtime/direct_session.cc)
Executorを生成する
GetOrCreateExecutors(pool, input_tensor_names,
output_names, target_nodes,
&executors_and_keys,
&run_state_args));
Executorは複数あり
各Executorが独立して実行し
各Executor間の通信は非同期に行われる
 
C++のDirectSession::Runの続き
DirectSession::Run (core/common_runtime/direct_session.cc)
実行部分のところ
for (const auto& item : executors_and_keys->items) {
item.executor->RunAsync(args, barrier->Get());
}  Executorが非同期に実行される
すべてExecutorの実行が終了するまで待つ
WaitForNotification(&run_state, &step_cancellation_manager,
run_options.timeout_in_ms() > 0
? run_options.timeout_in_ms()
: operation_timeout_in_ms_);
 
executor->RunAsync
Executor::RunAync (core/common_runtime/executor.h)
ExecuteImple::RunAsync
ExecuteState::RunAsync
ExecuteState::ScheduleReady
ExecuteState::Process (core/common_runtime/executor.cc)
 ・device->Compute 
ここ、後で出てくるので覚えておいてね!
0)、最初
Mul
Const
Feed(x)
Fetch(y)
1)、Feed/Fetchノードの追加
Mul
_Recv
Const
_Send
Feed(x)
Fetch(y)
2)、Placement
Mul
_Recv
Const
_Send
cpu : Feed(x)
cpu : Fetch(y)
gpu
gpu
3)、グラフの分割
_Recv
_Send
_Send _Recv _Send
gpu
Feed(x) Fetch(y)cpu
Mul
Const
_Recv
gpu を XLA_GPU に変更
def testXLA_JIT(self):
with tf.Session() as sess:
x = tf.placeholder(tf.float32, [2], name="x")
with tf.device("device:XLA_GPU:0"):
y = x * 2
result = sess.run(y, {x: [1.5, 0.5]})
0)、最初
Mul
Const
Feed(x)
Fetch(y)
1)、Feed/Fetchノードの追加
Mul
_Recv
Const
_Send
Feed(x)
Fetch(y)
2)、Placement
Mul
_Recv
Const
_Send
cpu : Feed(x)
cpu : Fetch(y)
XLA_GPU
XLA_GPU
3)、グラフの分割
_Recv
_Send
_Send _Recv _Send
XLA_GPU
Feed(x) Fetch(y)cpu
Mul
Const
_Recv
3)、グラフの分割
_XlaLaunch
_Recv
_Recv _Send
_Send _Recv _Send
XLA_GPU
Feed(x) Fetch(y)cpu
複数Opsを_XlaLaunch Opに変換
_XlaLaunch
XLA_GPU
MulConst
gpu
ええええ、
なんで、_XlaLaunch
になっちゃうの?
どうして?
_XlaLaunch Op って?
TensorFlow XLA : JITでは!
同じデバイス内で実行できるSubgraph単位の
ノードをギュギュッと1つにまとめて、
_XlaLaunch Op
内で実行する
_XlaLaunchは、
TensorFlow XLA専用のOpとして実装
Adding a New Op
https://www.tensorflow.org/versions/master/how_tos/adding_an_op/
必要なものは、
 ・Register the new Op in a C++ file
 ・Implement the Op in C++
 ・Optionally, create a Python wrapper
 ・Optionally, write a function to compute gradients for the Op
 ・Test the Op, typically in Python
_XlaLaunch Opで実装は?
・Register the new Op in a C++ file
・Implement the Op in C++
compiler/jit/kernels/xla_local_launch_op.h
compiler/jit/kernels/xla_local_launch_op.cc
_XlaLaunch Op の登録
REGISTER_OP("_XlaLaunch")
.Input("constants: Tconstants")
.Attr("Tconstants: list(type) >= 0")
.Input("args: Targs")
.Attr("Targs: list(type) >= 0")
.Output("results: Tresults")
.Attr("Tresults: list(type) >= 0")
.Attr("function: func")
.Doc("XLA Launch Op. For use by the XLA JIT only.");
_XlaLaunch Op の実装
class XlaDeviceLaunchOp : public OpKernel {
public:
explicit XlaDeviceLaunchOp(OpKernelConstruction* ctx);
~XlaDeviceLaunchOp() override;
void Compute(OpKernelContext* ctx) override;
覚えていましたか? device->Compute ですよ!
private:
....
TF_DISALLOW_COPY_AND_ASSIGN(XlaDevicelLaunchOp);
};
XlaDeviceLaunchOp::Compute
 ・XlaCompilationCacheクラスのインスタンス(compiler)を生成
 ・_XlaLaunch Op内で実行する一連の関数群をコンパイル
cache>Compile( …. );
 ・各種パラメータ&入力リストをXLA用データに変換
 ・キャッシュの生成&実行
cache->client()->Execute(.....);
 
 ・XLA用データを出力リストに変換
TensorFlow w/XLA: TensorFlow, Compiled! Expressiveness with performance
https://autodiff-workshop.github.io/slides/JeffDean.pdf
XlaLocalLaunchOp::Computeの処理
ここに LLVM を使っている
cache->Compile cache->cilent()->Execute
Plugin
Intel Nervana
Graphcore
もXLAをサポートするかも?
Intel® Nervana™ Graph Beta
2017-06-22
TensorFlow/XLA Support
https://www.intelnervana.com/intel-nervana-graph-and-neon-3-0-updates/
Intel® Nervana™ Graph: A Universal Tensor JIT Compiler Webinar
https://software.seek.intel.com/IntelNervanaGraphWebinar_Reg
詳細は、このWebinarの資料を見てね!
Graphcore
https://www.nextplatform.com/2017/05/08/dive-deep-learning-chip-startup-graphcores-software-stack/
TensorFlow XLAのPluginのオリジナルコードは、Graphcore
TensorFlow:Remove copyright on non-poplar files
https://github.com/tensorflow/tensorflow/commit/679152e2c13229db9386fe5c3a267e63d0093889
TensorFlow XLA Google Group
https://groups.google.com/forum/m/#!forum/xla-dev
Graphcore
Intel Nervana
Knuedge
から投稿あり
当然、Googleの中の人も
compiler/plugin/executor
  ・BUILD
・device.cc
・compiler.{cc, h}
・executable.{cc, h}
・executor.{cc, h}
・platform.{cc, h}
・platform_id.h
・transfer_manager.{cc, h}
TensorFlow w/XLA: TensorFlow, Compiled! Expressiveness with performance
https://autodiff-workshop.github.io/slides/JeffDean.pdf
XlaDeviceLaunchOp::Computeの処理
compiler.cc executable.{h,cc}
executor.{h,cc}
XLA_EXECの登録 (device.cc)
const char* const DEVICE_XLA_EXEC = "XLA_EXEC";
const char* const DEVICE_EXEC_XLA_JIT =
"XLA_EXEC_JIT";
constexpr std::array<DataType, 5> kExecAllTypes = {
{DT_INT32, DT_FLOAT, DT_BOOL, DT_DOUBLE, DT_INT64}};
class XlaExaDeviceFactory : public DeviceFactory {
public:
Status CreateDevices(const SessionOptions& options, const
string& name_prefix,
std::vector<Device*>* devices) override;
XLA_EXECの登録 (device.cc)
REGISTER_LOCAL_DEVICE_FACTORY(
  DEVICE_XLA_EXEC, XlaExaDeviceFactory, 40);
constexpr std::array<DataType, 5> kAllXlaCpuTypes = {{
  DT_INT32, DT_INT64, DT_FLOAT,
  DT_DOUBLE, DT_BOOL}};
REGISTER_XLA_LAUNCH_KERNEL(
  DEVICE_XLA_EXEC, XlaDeviceLaunchOp, kExecAllTypes);
REGISTER_XLA_DEVICE_KERNELS(
  DEVICE_XLA_EXEC, kExecAllTypes);
デバイスの登録
core/common_runtime/device_factory.{h,c}
// The default priority values for built-in devices is:
// GPU: 210
// SYCL: 200
// GPUCompatibleCPU: 70
// ThreadPoolDevice: 60
// Default: 50
REGISTER_LOCAL_DEVICE_FACTORYマクロで設定する
XLA_EXECの登録 (device.cc)
REGISTER_XLA_BACKEND(
DEVICE_EXEC_XLA_JIT, kExecAllTypes, OpFilter);
tf2xla/xla_op_registry.h に r1.2で追加された
// REGISTER_XLA_BACKEND() registers an XLA backend. Example usage:
// REGISTER_XLA_BACKEND(DEVICE_GPU_XLA_JIT, kGpuAllTypes, GpuOpFilter);
#define REGISTER_XLA_BACKEND(NAME, ...) 
REGISTER_XLA_BACKEND_UNIQ_HELPER(__COUNTER__, NAME, __VA_ARGS__)
Compile
plugin/executor/compiler.{h,c}
RunHloOptimization : HLOの最適化
// Typically you would visit the HLO graph, building up a compiled equivalent
// In this case we are using an Hlo evaluator at execution time, so we don't
// need to compile anything
// ここでPluginに対応したコード生成を行う
ExecutorExecutableの生成
引用
:https://raw.githubusercontent.com/aws/aws-fpga/master/hdk/docs/images/AWS_FPGA_Software_
Overview.jpg
AWS EC2 F1 でもできるかな?
https://www.nextplatform.com/2017/08/23/first-depth-view-wave-computings-dpu-architecture-systems/
Wave Computing
http://tvmlang.org/2017/08/17/tvm-release-announcement.html
MXnet-NVVM-TVM
LLVMはCPU、CUDAは別
https://www.nextplatform.com/2017/08/24/drilling-microsofts-brainwave-soft-deep-leaning-chip/
Microsoft BrainWave
推論で、バッチサイズは、1
TensorFlow XLAの可能性
以上、説明してきたように、
TensorFlow r1.3で導入されたpluginにて、
他のフレームワークではできない
いろいろなハードウェアへの対応が
できるようになる!
そこに注目しました!
SlideShareで公開しています
https://www.slideshare.net/ssuser479fa3
TensroFlow XLA : JIT編 (r1.3版)
https://www.slideshare.net/ssuser479fa3/tensroflow-xla-jit
Intel Nervana Graph とは?
https://www.slideshare.net/ssuser479fa3/intel-nervana-graph-compiler
DSPでディープラーニング
https://www.slideshare.net/ssuser479fa3/dsp-75659146
ありがとうございました
ブログ : Vengineerの戯言
http://blogs.yahoo.co.jp/verification_engineer
Twitter : @Vengineer
FPGAエクストリーム・コンピューティング
第9回
        2017年9月24日

More Related Content

PDF
TensorFlow XLAは、 中で何をやっているのか?
Mr. Vengineer
 
PPTX
モデル高速化百選
Yusuke Uchida
 
PDF
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
 
PDF
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
PDF
いまさら聞けないarmを使ったNEONの基礎と活用事例
Fixstars Corporation
 
PPTX
TVMの次期グラフIR Relayの紹介
Takeo Imai
 
PDF
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Norito Agetsuma
 
PDF
3種類のTEE比較(Intel SGX, ARM TrustZone, RISC-V Keystone)
Kuniyasu Suzaki
 
TensorFlow XLAは、 中で何をやっているのか?
Mr. Vengineer
 
モデル高速化百選
Yusuke Uchida
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
Hiroki Nakahara
 
2値ディープニューラルネットワークと組込み機器への応用: 開発中のツール紹介
Hiroki Nakahara
 
いまさら聞けないarmを使ったNEONの基礎と活用事例
Fixstars Corporation
 
TVMの次期グラフIR Relayの紹介
Takeo Imai
 
Javaトラブルに備えよう #jjug_ccc #ccc_h2
Norito Agetsuma
 
3種類のTEE比較(Intel SGX, ARM TrustZone, RISC-V Keystone)
Kuniyasu Suzaki
 

What's hot (20)

PDF
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
 
PPTX
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
 
PDF
VirtualBox と Rocky Linux 8 で始める Pacemaker ~ VirtualBox でも STONITH 機能が試せる! Vi...
ksk_ha
 
PDF
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
 
PDF
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
NTT DATA Technology & Innovation
 
PDF
TensroFlow XLA : JIT編 (r1.3版)
Mr. Vengineer
 
PDF
TensorFlow XLA 「XLAとは、から、最近の利用事例について」
Mr. Vengineer
 
PDF
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
Fixstars Corporation
 
PDF
C++ マルチスレッド 入門
京大 マイコンクラブ
 
PPTX
OpenVRやOpenXRの基本的なことを調べてみた
Takahiro Miyaura
 
PPTX
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
PDF
Ultra96ボードでYOLOを高速化
Hiroyuki Okuhata
 
PDF
TensorFlow Lite Delegateとは?
Mr. Vengineer
 
PDF
Go入門
Takuya Ueda
 
PPTX
DockerコンテナでGitを使う
Kazuhiro Suga
 
PDF
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
PDF
IIBMP2019 講演資料「オープンソースで始める深層学習」
Preferred Networks
 
PPTX
x86x64 SSE4.2 POPCNT
takesako
 
PPTX
katagaitai CTF勉強会 #3 crypto
trmr
 
PDF
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
 
オープンソースコンパイラNNgenでつくるエッジ・ディープラーニングシステム
Shinya Takamaeda-Y
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Preferred Networks
 
VirtualBox と Rocky Linux 8 で始める Pacemaker ~ VirtualBox でも STONITH 機能が試せる! Vi...
ksk_ha
 
ARM CPUにおけるSIMDを用いた高速計算入門
Fixstars Corporation
 
より速く より運用しやすく 進化し続けるJVM(Java Developers Summit Online 2023 発表資料)
NTT DATA Technology & Innovation
 
TensroFlow XLA : JIT編 (r1.3版)
Mr. Vengineer
 
TensorFlow XLA 「XLAとは、から、最近の利用事例について」
Mr. Vengineer
 
CPU / GPU高速化セミナー!性能モデルの理論と実践:実践編
Fixstars Corporation
 
C++ マルチスレッド 入門
京大 マイコンクラブ
 
OpenVRやOpenXRの基本的なことを調べてみた
Takahiro Miyaura
 
PostgreSQLの統計情報について(第26回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
 
Ultra96ボードでYOLOを高速化
Hiroyuki Okuhata
 
TensorFlow Lite Delegateとは?
Mr. Vengineer
 
Go入門
Takuya Ueda
 
DockerコンテナでGitを使う
Kazuhiro Suga
 
[DL輪読会]Convolutional Conditional Neural Processesと Neural Processes Familyの紹介
Deep Learning JP
 
IIBMP2019 講演資料「オープンソースで始める深層学習」
Preferred Networks
 
x86x64 SSE4.2 POPCNT
takesako
 
katagaitai CTF勉強会 #3 crypto
trmr
 
DNNのモデル特化ハードウェアを生成するオープンソースコンパイラNNgenのデモ
Shinya Takamaeda-Y
 
Ad

Viewers also liked (20)

PDF
Using Raspberry Pi GPU for DNN
notogawa
 
PDF
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
PDF
強くなるためのプログラミング -プログラミングに関する様々なコンテストとそのはじめ方-#pyconjp
cocodrips
 
PDF
CTFはとんでもないものを 盗んでいきました。私の時間です…
Hiromu Yakura
 
PDF
パッケージングの今
Atsushi Odagiri
 
PDF
Pythonではじめる競技プログラミング
cocodrips
 
PDF
[DL輪読会]YOLO9000: Better, Faster, Stronger
Deep Learning JP
 
PDF
20170721 future of reactive architectures
Jamie Allen
 
PDF
Deep Learning with GPUs in Production - AI By the Bay
Adam Gibson
 
PDF
DeNAの機械学習・深層学習活用した 体験提供の挑戦
Koichi Hamada
 
PDF
バイナリニューラルネットとハードウェアの関係
Kento Tajiri
 
PDF
Scala の関数型プログラミングを支える技術
Naoki Aoyama
 
PPTX
iOSエンジニアのためのScala入門
Masaya Dake
 
PPTX
元インフラエンジニアが
Scalaを触ってつまづいたところ。
takako onoue
 
PDF
HPC DAY 2017 | NVIDIA Volta Architecture. Performance. Efficiency. Availability
HPC DAY
 
PDF
LT@Chainer Meetup
Shunta Saito
 
PDF
Chainer meetup20151014
Jiro Nishitoba
 
PDF
Towards Chainer v1.5
Seiya Tokui
 
PDF
A Chainer MeetUp Talk
Yusuke Oda
 
PPTX
Chainer meetup
kikusu
 
Using Raspberry Pi GPU for DNN
notogawa
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
Yusuke Uchida
 
強くなるためのプログラミング -プログラミングに関する様々なコンテストとそのはじめ方-#pyconjp
cocodrips
 
CTFはとんでもないものを 盗んでいきました。私の時間です…
Hiromu Yakura
 
パッケージングの今
Atsushi Odagiri
 
Pythonではじめる競技プログラミング
cocodrips
 
[DL輪読会]YOLO9000: Better, Faster, Stronger
Deep Learning JP
 
20170721 future of reactive architectures
Jamie Allen
 
Deep Learning with GPUs in Production - AI By the Bay
Adam Gibson
 
DeNAの機械学習・深層学習活用した 体験提供の挑戦
Koichi Hamada
 
バイナリニューラルネットとハードウェアの関係
Kento Tajiri
 
Scala の関数型プログラミングを支える技術
Naoki Aoyama
 
iOSエンジニアのためのScala入門
Masaya Dake
 
元インフラエンジニアが
Scalaを触ってつまづいたところ。
takako onoue
 
HPC DAY 2017 | NVIDIA Volta Architecture. Performance. Efficiency. Availability
HPC DAY
 
LT@Chainer Meetup
Shunta Saito
 
Chainer meetup20151014
Jiro Nishitoba
 
Towards Chainer v1.5
Seiya Tokui
 
A Chainer MeetUp Talk
Yusuke Oda
 
Chainer meetup
kikusu
 
Ad

Similar to TensorFlow XLAの可能性 (20)

PDF
Tensorflow dynamically loadable XLA plugin ソースコード解析
Mr. Vengineer
 
PDF
TensorFlow XLA とハードウェア
Mr. Vengineer
 
PDF
TensorFlow XLA : AOT編 チラ見版
Mr. Vengineer
 
PDF
TensorFlow計算グラフ最適化処理
Atsushi Nukariya
 
PPTX
【2017年】ディープラーニングのフレームワーク比較
Ryota Suzuki
 
PDF
「ディープラーニングでは、エコシステムが大切よ!」
Mr. Vengineer
 
PDF
TensorFlowで遊んでみよう!
Kei Hirata
 
PPTX
TensorFlowの導入
yuf yufkky
 
PPTX
TensorFlowの導入
yuf yufkky
 
PDF
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
 
PPTX
Google TensorFlowで遊んでみた①
Tetsuya Hasegawa
 
PPTX
tfug-kagoshima
tak9029
 
PDF
10年ぶりの ニューラルネットワーク
Takatsugu Nokubi
 
PDF
TVM の紹介
Masahiro Masuda
 
PDF
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる Intel編
Deep Learning Lab(ディープラーニング・ラボ)
 
PDF
Basic deep learning_framework
KazuhiroSato8
 
PDF
TensorFlow 3分紹介 with 速攻 windows 環境構築
Michiko Arai
 
PDF
Playgroundでディープラーニングを勉強しよう
Hiroyuki Yoshida
 
PDF
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
NTT DATA Technology & Innovation
 
PPTX
TensorFlowをもう少し詳しく入門
tak9029
 
Tensorflow dynamically loadable XLA plugin ソースコード解析
Mr. Vengineer
 
TensorFlow XLA とハードウェア
Mr. Vengineer
 
TensorFlow XLA : AOT編 チラ見版
Mr. Vengineer
 
TensorFlow計算グラフ最適化処理
Atsushi Nukariya
 
【2017年】ディープラーニングのフレームワーク比較
Ryota Suzuki
 
「ディープラーニングでは、エコシステムが大切よ!」
Mr. Vengineer
 
TensorFlowで遊んでみよう!
Kei Hirata
 
TensorFlowの導入
yuf yufkky
 
TensorFlowの導入
yuf yufkky
 
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui
 
Google TensorFlowで遊んでみた①
Tetsuya Hasegawa
 
tfug-kagoshima
tak9029
 
10年ぶりの ニューラルネットワーク
Takatsugu Nokubi
 
TVM の紹介
Masahiro Masuda
 
インテルFPGAのDeep Learning Acceleration SuiteとマイクロソフトのBrainwaveをHW視点から比較してみる Intel編
Deep Learning Lab(ディープラーニング・ラボ)
 
Basic deep learning_framework
KazuhiroSato8
 
TensorFlow 3分紹介 with 速攻 windows 環境構築
Michiko Arai
 
Playgroundでディープラーニングを勉強しよう
Hiroyuki Yoshida
 
Project Hydrogen and Spark Graph - 分散処理 × AIをより身近にする、Apache Sparkの新機能 - (NTTデ...
NTT DATA Technology & Innovation
 
TensorFlowをもう少し詳しく入門
tak9029
 

More from Mr. Vengineer (20)

PDF
XilinxのxsimでSoftware Driven Verification.pdf
Mr. Vengineer
 
PDF
VerilatorとSystemCでSoftware Driven Verification
Mr. Vengineer
 
PDF
VerilatorとSystemC
Mr. Vengineer
 
PDF
TVM VTA (TSIM)
Mr. Vengineer
 
PDF
Cloud TPU Driver API ソースコード解析
Mr. Vengineer
 
PDF
Cloud Deep Learning Chips Training & Inference
Mr. Vengineer
 
PDF
Pixel Visual Core device driver source code analysis
Mr. Vengineer
 
PDF
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Mr. Vengineer
 
PDF
Facebook Glow Compiler のソースコードをグダグダ語る会
Mr. Vengineer
 
PDF
Ultra96(UltraZed)実践勉強会
Mr. Vengineer
 
PDF
Bridge TensorFlow to run on Intel nGraph backends (v0.4)
Mr. Vengineer
 
PDF
Bridge TensorFlow to run on Intel nGraph backends (v0.5)
Mr. Vengineer
 
PDF
TensorFlow XLA RPC
Mr. Vengineer
 
PDF
TensorFlow local Python XLA client
Mr. Vengineer
 
PDF
Tiramisu をちょっと、味見してみました。
Mr. Vengineer
 
PDF
LeFlowを調べてみました
Mr. Vengineer
 
PDF
Tiramisu概要
Mr. Vengineer
 
PDF
Tensor comprehensions
Mr. Vengineer
 
PDF
TensorFlow Lite (r1.5) & Android 8.1 Neural Network API
Mr. Vengineer
 
PDF
2017年のFPGA Community活動について
Mr. Vengineer
 
XilinxのxsimでSoftware Driven Verification.pdf
Mr. Vengineer
 
VerilatorとSystemCでSoftware Driven Verification
Mr. Vengineer
 
VerilatorとSystemC
Mr. Vengineer
 
TVM VTA (TSIM)
Mr. Vengineer
 
Cloud TPU Driver API ソースコード解析
Mr. Vengineer
 
Cloud Deep Learning Chips Training & Inference
Mr. Vengineer
 
Pixel Visual Core device driver source code analysis
Mr. Vengineer
 
Google Edge TPUで TensorFlow Liteを使った時に 何をやっているのかを妄想してみる 2 「エッジAIモダン計測制御の世界」オ...
Mr. Vengineer
 
Facebook Glow Compiler のソースコードをグダグダ語る会
Mr. Vengineer
 
Ultra96(UltraZed)実践勉強会
Mr. Vengineer
 
Bridge TensorFlow to run on Intel nGraph backends (v0.4)
Mr. Vengineer
 
Bridge TensorFlow to run on Intel nGraph backends (v0.5)
Mr. Vengineer
 
TensorFlow XLA RPC
Mr. Vengineer
 
TensorFlow local Python XLA client
Mr. Vengineer
 
Tiramisu をちょっと、味見してみました。
Mr. Vengineer
 
LeFlowを調べてみました
Mr. Vengineer
 
Tiramisu概要
Mr. Vengineer
 
Tensor comprehensions
Mr. Vengineer
 
TensorFlow Lite (r1.5) & Android 8.1 Neural Network API
Mr. Vengineer
 
2017年のFPGA Community活動について
Mr. Vengineer
 

TensorFlow XLAの可能性