SlideShare a Scribd company logo
The Design for Serverless ETL
Pipeline
データ分析基盤のレガシーなデータロードを
サーバレスでフルリプレースするまでの道のり
株式会社リクルートライフスタイル
山田 雄・秋本 大樹・白鳥 昇治
2018/09/30
■山田 雄(ヤマダ ユウ)
  @nii_yan
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメント2G
SIerにて主に組込み系の開発に従事したのち、フリーランスとし
て独立。フリーランスの間に、シミュレーションシステムの開発
や、大手ECサイトのメールマーケティング用分析基盤の構築を
経験。2015年リクルートライフスタイルへ転職。リクルートライフ
スタイルの共通分析基盤を構築する傍ら、chatbotの開発や、
メールマーケティングにも関わる。
ビッグデータ周りの技術が好物。あと焼きそばも好物。
会社紹介
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
Title text
一生のうち、数回つかうサービス
LIFE EVENT
日常的に、つかうサービス
LIFE STYLE
Title text
一生のうち、数回つかうサービス
LIFE EVENT
日常的に、つかうサービス
LIFE STYLE
The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり
リクルートライフスタイルの
データ分析基盤の歩み
分析基盤の変遷
2013
2014
2015
2016
2017
2018
✔TreasureData を一部 BQ へ移行
✔RedshiftSpectrum 導入
✔Redshift を一部 BQ へ移行
✔BigQuery 導入
✔NetezzaEOSL
✔DataLake 構成導入
✔Exadata 導入
✔Hadoop 除却
✔TreasureData 導入
✔Redshift のノード拡張
✔リクルート分社化に伴い、独自の
分析基盤 Hadoop 提供スタート
✔Netezza, Redshift 導入
✔オンプレ- AWS 間に専用線導入
✔Redshift のノード拡張
✔Netezza のスケール検討
✔Netezza のスケールアウト完了
✔Redshift のノード拡張
✔Redshift の multi クラスタ導入
分析基盤の概要
Spectrum
Oracle
Exadata
SPSS
Treasure
Data
aginity
CHEETAH
DIGITAL
Adobe
Analytics
CSV
外部データ
アクセスログ
アプリログ
HPB
JLN
HPG
事業データ
BigQuery
IBM Watson
Campaign
Automation
S3
Redshift
■秋本 大樹(アキモト ダイキ)
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメント2G
2011年新卒としてSIerに入社。
2014年にゲーム会社に転職。ゲームデータを集積する分析基
盤の構築、および社内KPI算出の自動化を行う。
2017年12月よりリクルートライフスタイルに転職。現在は次期
ETL基盤の構築とクラウドAIサービスの社内導入に奮闘中。
最近のいち推しサービスはGoogleColaboratory
趣味は将棋を見ること。
■白鳥 昇治( シロトリ ショウジ)
  @irotoris
株式会社 リクルートライフスタイル
ネットビジネス本部データマネジメント2G
インフラエンジニアとしてオンプレミスKubernetes環境の開発・
運用に従事後、2017年にリクルートライフスタイルに入社。
データエンジニアとしてデータ分析基盤やサーバーレスな機械
学習基盤の開発・運用などに携わる。
Docker ❤ Kubernetes ❤ CD/CI ❤ Serverless ❤ BigData
夢は山でペンション経営。
レガシーな構成のつらみ
技術のツギハギ
● 自前サーバで動くシェルで書かれたレガシーなコード
○ 800行を超えるシェルスクリプトファイル
● 複数システムをツギハギするスケジュール実行
○ 終了するタイミングを見計らって後続の処理を実行
● データ量に関連した処理の長時間化Shell
Script
自前サーバ
AWS
GCP
データ間の依存関係
● 後続のマート作成で用いるテーブルは優先度を高めてロードする
必要がある。
● データマート間にも依存関係がある。
● 現在はJP1での「イベント受信」機能を用いて優先度を実現してい
る。
優先度高
ロード
優先度低
ロード
マートA
作成
マートB
作成
マートC
作成
JP1
スケジュール実行での運用が
つらい
● 障害発生時のリカバリが大変。
● 1つの実行単位に複数のテーブルを含めており、テーブル単位で
のロードができていない。
● 前の処理の時間をずらすと、後続の処理も合わせて時間をずらす
必要がある。
JP1
自前サーバでの開発がつらい
● テスト環境がないので気軽にテストできない。
● 本番に影響が出るので古いバージョンでの開発を強いられてい
る。
● 800行を超えるシェルスクリプトのメンテが辛すぎる。
古いパッケージ シェルスクリプト
本番に影響が出る
つらみを解消したい
そう、それがMigaloo Project
The Design for Serverless ETL
Pipeline
と、その前に
前回のServerlessconf Tokyo !!
● サーバーレスにしてサーバー管理を極力少なく
● イベントドリブンでオーケストレートする構成
● 自動リトライとアラートを作り込んで
● 運用0を目指しました
前回のServerlessconf Tokyo !!
前回のServerlessconf Tokyo !!
Q.「いま運用どうですか?」
データ量:増えてる
機械学習バッチのリソース使用量:増えてる
前回のServerlessconf Tokyo !!
Q.「いま運用どうですか?」
データ量:増えてる
機械学習バッチのリソース使用量:増えてる
A.「全然、運用ないです」
前回のServerlessconf Tokyo !!
A.「全然、運用ないです」
● Slackのアラート確認はしてるけど、だいたい自動リトライ済み
● データ量も処理量も増えてるけどデータ量に応じてスケールする
● システムモニタリング用途のAmazon Elasticsearch Serviceのリソース見直しの運
用を実施
うまくいったので今回もLet's
Serverless!!
前回のServerlessconf Tokyo !!
The Design for Serverless ETL
Pipeline
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
Pipeline(Load to DataLake)
Serverless ETL Pipeline
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Runtime
Redshift /
Spectrum
BigQuery
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Data Lake (S3)
Pipeline(Load to DataLake)
Serverless ETL Pipeline
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Runtime
Redshift /
Spectrum
BigQuery
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Data Lake (S3)
Data Source
Data Lake
Data
Warehouse
Serverless ETL Pipeline
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
EventStatus
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Pipeline(Load to DataLake)
Runtime
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
Serverless ETL Pipeline
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
EventStatus
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Pipeline(Load to DataLake)
Runtime
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
ETL Pipeline
+ Runtime
ETL Pipeline
+ Runtime
ETL Pipeline
+ Runtime
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
サーバーレスなパイプラインと実行環境
● パイプラインはStep Functionsなどのワークフローエンジンと
AWS Lambdaをベースに処理を定義
● 実行環境はスケーラブルなAWS Batch、Glue、GKE
● 要件により一部はオンプレサーバーを利用。これもワークフ
ローからイベントドリブンで実行可能な状態で設計
● ※オンプレのケース:大量データの圧縮処理してからデータ転送
Runtime
Pipeline(Load to DataLake)
Event
スケール
スケール
OK
スケール
サーバーレスなパイプラインと実行環境
● パイプラインはStep Functionsなどのワークフローエンジンと
AWS Lambdaをベースに処理を定義
● 実行環境はスケーラブルなAWS Batch、Glue、GKE
● 要件により一部はオンプレサーバーを利用。これもワークフ
ローからイベントドリブンで実行可能な状態で設計
● ※オンプレのケース:大量データの圧縮処理してからデータ転送
Runtime
Pipeline(Load to DataLake)
Event
スケール
スケール
OK
スケール
パイプラインはフルサーバレスで定義
コンテナベースでオンデマンドに起動する実行環境
要件によりサーバーをサーバーレスっぽく使う
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Pipeline(Load to DataLake)
Serverless ETL Pipeline
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Runtime
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Event
Data
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
Data Lake (S3)
Pipeline(Load to DataLake)
Serverless ETL Pipeline
EventStatus
Runtime
Event
Data
File/Log (CSV/JSON)
Pipeline(Load to DataLake)
EventStatus
Runtime
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
+Runtime
+Runtime
Serverless ETL Pipeline
Data Lake (S3)
Event
Data
Data Lake (S3)
Redshift /
SpectrumPipeline(Load to BigQuery)
File/Log (CSV/JSON)
Pipeline(Load to DataLake)
EventStatus
Runtime
HPB
JLN
HPG
Database
BigQuery+Runtime
Serverless ETL Pipeline
Data
Pipeline(Load to Redshift)
+Runtime
Event
Data Lake (S3)
Pipeline(Load to BigQuery)
File/Log (CSV/JSON)
Pipeline(Load to DataLake)
EventStatus
Runtime
HPB
JLN
HPG
Database
BigQuery+Runtime
Serverless ETL Pipeline
Pipeline(Load to Redshift)
+Runtime
Redshift /
Spectrum
Data
Event
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL PipelineEvent
Event
Event
1イベント=1データがどこかに到達したとき
イベントドリブン=データが到達したときに
次の処理が実行される
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
Event
Message
Event
Message
Event
Message
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
Event
Message
Event
Message
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
リトライ上限を超えて
失敗したイベントは
DLQへ
別のパイプラインの失敗
は影響しない
後から来るイベントに
は影響しない
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
ここだけ修正してデプ
ロイ
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
ここだけ修正してデプ
ロイ
各パイプラインの起動にSQSを挟むことで
パイプライン同士を疎結合に保ち
1. 障害発生時の影響を小さくする
2. 小さく素早い変更を可能にする
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
パイプラインとスケーラビリティ
● マネージドなパイプラインにより無限のスケーラビリティを確
保
Runtime
Pipeline(Load to DataLake)
Eve
nt
Eve
ntEvent
スケールします
×1,000
スケールします
×1,000
×1,000
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
パイプラインとスケーラビリティ
Runtime
Pipeline(Load to DataLake)
Eve
nt
Eve
ntEvent
×1,000
しんどい
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
● SQSの処理中のメッセージ数をポーリングし、処理中の同時
実行数を確認、指定された同時実行数の場合は処理しない
制御を実現
パイプラインとスケーラビリティ
Pipeline(Load to DataLake)
Eve
nt
Eve
ntEvent
×1,000
セーフ
いま処理が最大並列数に達してる
ので、このメッセージはまた後で実
行しよ。
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● しかしデータロード先がRedshiftなど処理がスケールしない
場合、イベントの同時処理の制御が必要
● SQSの処理中のメッセージ数をポーリングし、処理中の同時
実行数を確認、指定された同時実行数の場合は処理しない
制御を実現
パイプラインとスケーラビリティ
Pipeline(Load to DataLake)
Eve
nt
Eve
ntEvent
×1,000
セーフ
いま処理が最大並列数に達してる
ので、このメッセージはまた後で実
行しよ。
DWH、RDBMSなどの処理がスケールしない環境の場合
SQS + Lambda + CloudWatch Eventで
パイプラインの並列度をコントロール
● マネージドなパイプラインにより無限のスケーラビリティを確
保
● もちろんロード処理の宛先がスケールする場合は並列度を
気にせず実行できる
パイプラインとスケーラビリティ
Pipeline(Load to DataLake)
Eve
nt
Eve
ntEvent
×1,000
余裕一気に1,000イベント
いくぞッ!
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
イベントとデータのステータス管理
● 各パイプラインで、現在のイベントと処理ステータスを
一元的にDynamoDBで管理
○ システム:Lambdaの2重発火による重複起動を制御
○ システム:データロード後のマート作成実行を制御
○ ユーザー:データロード完了時間(=データ鮮度)を確認
Pipeline(Load to DataLake)
Event
EventStatus
このデータは
処理中だよ
このデータは
処理完了だよ
UpdateStatus
イベントとデータのステータス管理
● イベントとステータスの変更履歴をRDSで管理・分析
● DynamoDB Streamsでアイテムの変更をRDSへストリーミン
グインサート
● メンバのスキル的にSQLによる分析が可能→RDSに決定
Pipeline(Load to DataLake)
Event
EventLogEventStatus
Update
イベントとデータのステータス管理
● イベントとステータスの変更履歴をRDSで管理・分析
● DynamoDB Streamsでアイテムの変更をRDSへストリーミン
グインサート
● メンバのスキル的にSQLによる分析が可能→RDSに決定
Pipeline(Load to DataLake)
Event
EventLogEventStatus
Update
システム間連携、ユーザビリティのためステータスを管理
ステータスログはデバッグ用に正規化して保全しておく
● サーバー管理が極力少ないパイプラインと実行環境
● イベントドリブン & 疎結合なアーキテクチャ
● スケーラビリティと処理の並列数の管理
● イベント(データ)のステータス管理と活用
● 運用が楽になるロギング・モニタリング
アーキテクチャ設計思想
アプリケーションログとシステムモニタリング
● ログはDatadogに集約。重要な通知はSlackへ。
● Lambda、AWS Batch、On-Premiseの様々な実行環境のプ
ログラムログを一元的に検索可能。
Logging Alert
アプリケーションログとシステムモニタリング
● マネージドサービスのメトリクスのアラートもDatadogに集
約。重要な通知はSlackへ。
Metrics Alert
アプリケーションログとシステムモニタリング
● マネージドサービスのメトリクスのアラートもDatadogに集
約。重要な通知はSlackへ。
Metrics Alert
Datadogでログとメトリクスを
一元的に管理・検索・モニタリング
File/Log (CSV/JSON)
HPB
JLN
HPG
Database
Redshift /
Spectrum
BigQuery
Data Lake (S3)
Runtime
Pipeline(Load to DataLake)
Pipeline(Load to Redshift)
Pipeline(Load to BigQuery)
EventStatus
+Runtime
+Runtime
Serverless ETL Pipeline
●サーバー管理が極力少ないパイプラインと実行環境
●イベントドリブン & 疎結合なアーキテクチャ
●スケーラビリティと処理の並列数の管理
●イベント(データ)のステータス管理と活用
●運用が楽になるロギング・モニタリング
リプレースの際の教訓
既存の運用に
設計が引きずられる
● 運用をなるべく変えないようにすると、既存のインターフェースに引
きずられてサーバ依存の設計になりがち。
● 運用も含めて、リプレースの対象だという共通認識を作る。ただし
これには運用者の同意も必要なので事前の調整が必須。
慣れた運用からの脱却
ログの保存先の変更
新しいツールの学習
スコープの肥大化
● システムのリプレースにおいては、今までのつらみを解消しようとし
てスコープが肥大化しがち。
● 要望を明文化して残しておき「やるやらない」の判断をしてからプロ
ジェクトを進めるようにする。
新しいシステムが全てを叶えてくれるわけではない。
スコープ スコープ
あれもやりたい
これもやりたい
一度リストに集約
そのままだと
膨れ上がる
スコープの範囲を
明確化する
       エンジニア募集中!!

More Related Content

PDF
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
PDF
データから価値を生み続けるには
Recruit Lifestyle Co., Ltd.
 
PDF
ビックデータ分析基盤の成⻑の軌跡
Recruit Lifestyle Co., Ltd.
 
PDF
Jupyter だけで機械学習を実サービス展開できる基盤
Recruit Lifestyle Co., Ltd.
 
PPTX
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
Recruit Lifestyle Co., Ltd.
 
PDF
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
Recruit Lifestyle Co., Ltd.
 
PPTX
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
 
PPTX
Power BI をシステムやアプリ開発と一緒に使うなら…~リアルタイムストリーミングの使い方~
Yugo Shimizu
 
リクルートライフスタイルにおける深層学習の活用とGCPでの実現方法
Recruit Lifestyle Co., Ltd.
 
データから価値を生み続けるには
Recruit Lifestyle Co., Ltd.
 
ビックデータ分析基盤の成⻑の軌跡
Recruit Lifestyle Co., Ltd.
 
Jupyter だけで機械学習を実サービス展開できる基盤
Recruit Lifestyle Co., Ltd.
 
リクルートライフスタイル全サービス横断のリアルタイムログ収集・可視化・分析基盤
Recruit Lifestyle Co., Ltd.
 
既存Redshift/ETLからSpectrum/Glueへの移行を徹底解明!
Recruit Lifestyle Co., Ltd.
 
データサイエンティストが力を発揮できるアジャイルデータ活用基盤
Recruit Lifestyle Co., Ltd.
 
Power BI をシステムやアプリ開発と一緒に使うなら…~リアルタイムストリーミングの使い方~
Yugo Shimizu
 

What's hot (20)

PPTX
なぜ、CData Softwareが Power BI 専用 コネクターを 開発したのか?
CData Software Japan
 
PDF
For Power BI Beginners
Tomoyuki Oota
 
PDF
Power BI 概要と最近のこと 2018/12
Takeshi Kagata
 
PDF
Power BI 概要と最近のこと / Power BI と AI
Takeshi Kagata
 
PPTX
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
Yugo Shimizu
 
PDF
Power BI とは - 2020
Takeshi Kagata
 
PDF
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Google Cloud Platform - Japan
 
PPTX
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
 
PDF
Cm re growth-devio-mtup11-sapporo-004
Satoru Ishikawa
 
PDF
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Naoto Tamiya
 
PPTX
え!? Power BI の画面からデータ更新なんてできるの!?
Yugo Shimizu
 
PDF
PRD03 最近 Power BI が On-Premises と仲良くなってきておりまして
Yugo Shimizu
 
PDF
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
 
PPTX
Flow を使って効率的にデータを集めたその後は Power BI に繋げよう
Yugo Shimizu
 
PPTX
あなたが作るレポートに不要なデータは含まれていませんか?~レポートリテラシー:ビジュアルから考える逆算
Yugo Shimizu
 
PDF
「進化し続けるインフラ」のためのマルチアカウント管理
Recruit Lifestyle Co., Ltd.
 
PPTX
技術者として抑えておきたい Power BI アーキテクチャ
Yugo Shimizu
 
PPTX
東北大学AIE - 機械学習中級編とAzure紹介
Daiyu Hatakeyama
 
PDF
Amazon Redshiftを使ったデータ分析
Tomohiro Yamaguchi
 
PPTX
え?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよ
Yugo Shimizu
 
なぜ、CData Softwareが Power BI 専用 コネクターを 開発したのか?
CData Software Japan
 
For Power BI Beginners
Tomoyuki Oota
 
Power BI 概要と最近のこと 2018/12
Takeshi Kagata
 
Power BI 概要と最近のこと / Power BI と AI
Takeshi Kagata
 
開発者におくる Power BI を使う時に考えるべきアーキテクチャ ~ データを溜めるのは誰だ? ~
Yugo Shimizu
 
Power BI とは - 2020
Takeshi Kagata
 
Social GAME における AI 活用事例 [第 4 回 Google Cloud INSIDE Games & Apps]
Google Cloud Platform - Japan
 
グラフ構造のデータモデルをPower BIで可視化してみた
CData Software Japan
 
Cm re growth-devio-mtup11-sapporo-004
Satoru Ishikawa
 
Machine Learning Casual Talks #4 ビッグデータチームを発足するにあたって気をつけておきたいn個のこと
Naoto Tamiya
 
え!? Power BI の画面からデータ更新なんてできるの!?
Yugo Shimizu
 
PRD03 最近 Power BI が On-Premises と仲良くなってきておりまして
Yugo Shimizu
 
Tableauが魅せる Data Visualization の世界
Takahiro Inoue
 
Flow を使って効率的にデータを集めたその後は Power BI に繋げよう
Yugo Shimizu
 
あなたが作るレポートに不要なデータは含まれていませんか?~レポートリテラシー:ビジュアルから考える逆算
Yugo Shimizu
 
「進化し続けるインフラ」のためのマルチアカウント管理
Recruit Lifestyle Co., Ltd.
 
技術者として抑えておきたい Power BI アーキテクチャ
Yugo Shimizu
 
東北大学AIE - 機械学習中級編とAzure紹介
Daiyu Hatakeyama
 
Amazon Redshiftを使ったデータ分析
Tomohiro Yamaguchi
 
え?まだフルスクラッチで開発してるの!? Power Platformをフル活用すると普通にシステムができるんですよ
Yugo Shimizu
 
Ad

Similar to The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり (20)

PDF
The Design for Serverless ETL Pipeline (48:9)
Shoji Shirotori
 
PDF
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
 
PPTX
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
 
PDF
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
Insight Technology, Inc.
 
PDF
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
オラクルエンジニア通信
 
PDF
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
 
PDF
AWSの様々なアーキテクチャ
Kameda Harunobu
 
PDF
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
 
PDF
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
 
PDF
広告ログの解析システム
Katsuhiro Takata
 
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
 
PDF
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
Amazon Web Services Japan
 
PDF
Serverless services on_aws_dmm_meetup_20170801
Amazon Web Services Japan
 
PDF
デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」
BeeX.inc
 
PDF
Smart Tennis Lesson Serverless Design
Ryuji TAKEHARA
 
PDF
ビッグデータサービス群のおさらい & AWS Data Pipeline
Amazon Web Services Japan
 
PPTX
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
 
PDF
Realize tokyo2019 yrglm
Katsuya Uehara
 
PDF
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
Kazuhiro Miyajima
 
PDF
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
Kentaro Yoshida
 
The Design for Serverless ETL Pipeline (48:9)
Shoji Shirotori
 
スマートニュースの世界展開を支えるログ解析基盤
Takumi Sakamoto
 
Game Architecture Trends in Tokyo Kansai Social Game Study#5
Yasuhiro Matsuo
 
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
Insight Technology, Inc.
 
Developers Summit 2018: ストリームとバッチを融合したBigData Analytics ~事例とデモから見えてくる、これからのデー...
オラクルエンジニア通信
 
AWS初心者向けWebinar AWSでBig Data活用
Amazon Web Services Japan
 
AWSの様々なアーキテクチャ
Kameda Harunobu
 
AWS Black Belt Techシリーズ AWS Data Pipeline
Amazon Web Services Japan
 
Amazon Game Tech Night #22 AWSで実現するデータレイクとアナリティクス
Amazon Web Services Japan
 
広告ログの解析システム
Katsuhiro Takata
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
 
[よくわかるクラウドデータベース] リクルートにおけるRedshift導入・活用事例
Amazon Web Services Japan
 
Serverless services on_aws_dmm_meetup_20170801
Amazon Web Services Japan
 
デジタル化への第一歩 「エンタープライズデータレイク構築事例のご紹介」
BeeX.inc
 
Smart Tennis Lesson Serverless Design
Ryuji TAKEHARA
 
ビッグデータサービス群のおさらい & AWS Data Pipeline
Amazon Web Services Japan
 
リクルートを支える横断データ基盤と機械学習の適用事例
Tetsutaro Watanabe
 
Realize tokyo2019 yrglm
Katsuya Uehara
 
1000人規模で使う分析基盤構築 〜redshiftを活用したeuc
Kazuhiro Miyajima
 
TREASUREDATAのエコシステムで作るロバストなETLデータ処理基盤の作り方
Kentaro Yoshida
 
Ad

More from Recruit Lifestyle Co., Ltd. (20)

PDF
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
Recruit Lifestyle Co., Ltd.
 
PPTX
分散トレーシングAWS:X-Rayとの上手い付き合い方
Recruit Lifestyle Co., Ltd.
 
PDF
OOUIを実践してわかった、9つの大切なこと
Recruit Lifestyle Co., Ltd.
 
PDF
Flutter移行の苦労と、乗り越えた先に得られたもの
Recruit Lifestyle Co., Ltd.
 
PDF
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
Recruit Lifestyle Co., Ltd.
 
PDF
Air事業のデザイン組織とデザイナー
Recruit Lifestyle Co., Ltd.
 
PDF
リクルートライフスタイル AirシリーズでのUXリサーチ
Recruit Lifestyle Co., Ltd.
 
PDF
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
Recruit Lifestyle Co., Ltd.
 
PDF
Real-time personalized recommendation using embedding
Recruit Lifestyle Co., Ltd.
 
PDF
データプロダクト開発を成功に導くには
Recruit Lifestyle Co., Ltd.
 
PDF
SQLを書くだけでAPIが作れる基盤
Recruit Lifestyle Co., Ltd.
 
PDF
BtoBサービスならではの顧客目線の取り入れ方
Recruit Lifestyle Co., Ltd.
 
PDF
Refactoring point of Kotlin application
Recruit Lifestyle Co., Ltd.
 
PDF
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
Recruit Lifestyle Co., Ltd.
 
PDF
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
 
PDF
マルチクラウドで実演するカスタマーセントリックな分析基盤
Recruit Lifestyle Co., Ltd.
 
PDF
Air事業 フロントエンドFW戦争を乗り越え、デザインシステムを導入した話
Recruit Lifestyle Co., Ltd.
 
PDF
地に足をつけたフロントエンドの改善
Recruit Lifestyle Co., Ltd.
 
PDF
Nuxt.jsとExpressでSPA×SSR×API Aggregationを実現した話
Recruit Lifestyle Co., Ltd.
 
PDF
レガシーと向き合い技術スタックを代謝する(ElasticBeanstalk / Vue.js)
Recruit Lifestyle Co., Ltd.
 
業務と消費者の体験を同時にデザインするリクルートの価値検証のリアル ー 「Airレジ ハンディ」セルフオーダーのブレない「価値」の確かめ方 ー
Recruit Lifestyle Co., Ltd.
 
分散トレーシングAWS:X-Rayとの上手い付き合い方
Recruit Lifestyle Co., Ltd.
 
OOUIを実践してわかった、9つの大切なこと
Recruit Lifestyle Co., Ltd.
 
Flutter移行の苦労と、乗り越えた先に得られたもの
Recruit Lifestyle Co., Ltd.
 
CTIサービスを支える裏側 〜物理デバイスとの戦い〜 | iOSDC Japan 2020
Recruit Lifestyle Co., Ltd.
 
Air事業のデザイン組織とデザイナー
Recruit Lifestyle Co., Ltd.
 
リクルートライフスタイル AirシリーズでのUXリサーチ
Recruit Lifestyle Co., Ltd.
 
ホットペッパービューティーにおけるモバイルアプリ向けAPIのBFF/Backend分割
Recruit Lifestyle Co., Ltd.
 
Real-time personalized recommendation using embedding
Recruit Lifestyle Co., Ltd.
 
データプロダクト開発を成功に導くには
Recruit Lifestyle Co., Ltd.
 
SQLを書くだけでAPIが作れる基盤
Recruit Lifestyle Co., Ltd.
 
BtoBサービスならではの顧客目線の取り入れ方
Recruit Lifestyle Co., Ltd.
 
Refactoring point of Kotlin application
Recruit Lifestyle Co., Ltd.
 
データサイエンティストとエンジニア 両者が幸せになれる機械学習基盤を求めて
Recruit Lifestyle Co., Ltd.
 
データ分析基盤運⽤チームの 運⽤業務を改善してみた話
Recruit Lifestyle Co., Ltd.
 
マルチクラウドで実演するカスタマーセントリックな分析基盤
Recruit Lifestyle Co., Ltd.
 
Air事業 フロントエンドFW戦争を乗り越え、デザインシステムを導入した話
Recruit Lifestyle Co., Ltd.
 
地に足をつけたフロントエンドの改善
Recruit Lifestyle Co., Ltd.
 
Nuxt.jsとExpressでSPA×SSR×API Aggregationを実現した話
Recruit Lifestyle Co., Ltd.
 
レガシーと向き合い技術スタックを代謝する(ElasticBeanstalk / Vue.js)
Recruit Lifestyle Co., Ltd.
 

The Design for Serverless ETL Pipeline データ分析基盤のレガシーなデータロードをサーバレスでフルリプレースするまで道のり