SlideShare a Scribd company logo
Hadoop/Spark セルフサービス系の事例
まとめ @ Hadoop Summit SJC 2016
Yuta Imai
Solutions Engineer, Hortonworks
©	Hortonworks	Inc.	2011	–	2015.	All	Rights	Reserved
2	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
自己紹介
Ã  今井 雄太
Ã  Solutions Engineer(セールスエンジニアのようなもの)
Ã  広告配信サーバーのレポート作成のためにMapReduce(perl +
streaming!)を使ったのがHadoopとの出会い。
Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3
などのビッグデータなプロダクトを主に担当。そんなつながりで
Hortonworksに⼊社してHadoopをやっています。
Ã  @imai_factory
3	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
今⽇のテーマ:セルフサービス
4	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
テーマ:セルフサービス
Ã  Day3 Keynote
–  Cloud Storage、Hortonworks Cloud、LLAPの話
Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on
Hive
–  Yahoo! Inc.のデータマートの話
Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari
–  Symantecのデータマート(など)の話
Ã  Extreme Analytics @ eBay
–  eBayのデータマートの話
Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm
–  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話
5	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote
6	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: Cloud Storage as a Data Lake
Ã  S3などのクラウドストレージは耐久性や運⽤
の容易さ、拡張性、マルチテナンシーなどの
⾯で優れている。
Ã  コンピュートとストレージを分離し、それぞ
れ別々にスケールをさせることができるよう
になる。
Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ
ローカリティとは相反する⾯がある。
Ã  Hadoopコミュニティとして、ここにeffortを
あてていく必要があるという話。
7	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Day 3 Keynote: LLAP for cache layer
Ã  LLAP: Live Long And Process
Ã  Hiveのクエリフラグメントを実⾏するための
常駐デーモン
Ã  IOが専⽤スレッドに切り離されておりここに
キャッシュを持っている。
Ã  キャッシュはORCに最適化されている。
Ã  ストレージから取り出したデータを
「Column x Row Group」単位でキャッシュ。
Ã  これを利⽤すればある程度、遠いストレージ
によるディスアドバンテージをカバーできる。
Ã  いまのところ単純なFIFO。複数デーモン間で
の協調機構などはない。
Node
LLAP Process
Cache
Query Fragment
HDFS/Cloud Storage
Query Fragment
8	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive
9	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive	
Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。
Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと
思われる。
Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、
Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・
Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー
ト」という話が語られた。
Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして
提供する。
10	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
データマート
Hour
ETL
Event
Data
Daily
Rollup
Aggregate
ETL
Data
Aggregate
Druid HDFS
User
Interface
1x 24x ?x
Generalized ETL
Faster, Faster, Faster:
The True Story of a Mobile Analytics Data Mart on Hive	
Data as a Service
11	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari
12	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化
の取り組みの話
Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル
フサービス化をやっている
Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい
ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の
共通機能でカバーするのは難しい。
Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。
Ã  ということでセルフサービス化へ。
13	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  最初は社内のOpenStackと、AmbariのBlueprint
を使って実装。
Ã  ユーザーはSSAにログインして、ほしいクラスタ
の規模や機能を決めてデプロイボタンを押す。
Ã  そうするとOpenStack上にクラスタが⽴ち上がっ
て、Blueprintによって、必要なコンポーネントが
インストールされたHDPクラスタが構築される。
Ã  ユーザーが使いたい様々なアプリケーションを管
理するためのAmbariのカスタムサービスを利⽤
Ã  現在、CloudBreakを使ってAWS上への移植の努
⼒中。
14	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
On-Demand HDP Clusters Using Cloudbreak and Ambari	
Ã  出来上がったクラスタに対してのData Feedもサービス化されている。
15	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
16	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  eBayのプラットフォームチームによるセフルサービス化の話。
Ã  Governed Self Service Analytics
Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
17	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMart
–  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる
–  そのために・・・
Ã  Data Assert Certification
–  信頼の置けるViewなのか?誰が保証しているのか?いつ作られたものなのか?
Ã  Business Glossary
–  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント
Ã  Well Managed
–  これは使ってもOKなものなのか?データの更新頻度や品質。
18	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Extreme Analytics @ eBay
Ã  Virtual DataMartとData Quality Firewall
Customer Product Transaction Behavior
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
Virtual
DataMart
DataQualityFirewall
1. 欲しいデータを探す
2. なければつくる
3. Virtual DataMartをつくるために提供されているData as a Service
4. 必要な情報を登録
19	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Cost & Resource Tracking for Hadoop and Storm
20	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している
という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015
年から始まった。
Ã  Web UIでUsageが確認できるようになっている
Ã  Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour
21	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money!
Ã  クラスタの原価(TCO)に含まれるもの
–  Cluster & Network Hardware
–  R&D HC
–  Power, Space, Labor support and facility management
–  Acquisition/Install
–  Operations engineering
–  Network bandwidth
Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品
⽬に分けてユーザーの利⽤量に応じて賦課
Ã  例えばRAMなら Resource Usage = amount allocated x time allocated
–  One 2GB mapper running for 5 hours = 10 GB-Hour
–  Five 2GB mappers running for 1 hour = 10 GB-Hour
22	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
Show me the Money! – Results!
Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒
Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒
Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒
Ã  ゾンビプロジェクトの発⾒
Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた
23	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
24	 ©	Hortonworks	Inc.	2011	–	2016.	All	Rights	Reserved	
まとめ
Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース
ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる
–  アプリケーションの種類やバージョン
–  負荷特性
–  必要とされるキャパシティ
–  セキュリティ要件
–  その他もろもろ
Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー
チが取られ始めている
–  データとコンピュートを分離
–  データと、コンピュートのプロビジョニングをサービスとして提供
–  ユーザーはこれらをセルフサービスで利⽤する

More Related Content

What's hot (20)

PDF
Yifeng spark-final-public
Yifeng Jiang
 
PDF
Yifeng hadoop-present-public
Yifeng Jiang
 
PDF
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
 
PDF
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
 
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
PDF
Data Science on Hadoop
Yifeng Jiang
 
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
PDF
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
 
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
PPTX
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
 
PPTX
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
PDF
The real world use of Big Data to change business
DataWorks Summit/Hadoop Summit
 
PDF
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
PDF
HDP Security Overview
Yifeng Jiang
 
PPTX
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
 
PDF
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
PDF
Hadoopとは
Hirokazu Yatsunami
 
PDF
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
 
PPTX
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
PDF
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
 
Yifeng spark-final-public
Yifeng Jiang
 
Yifeng hadoop-present-public
Yifeng Jiang
 
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
 
最新事例から学ぶビッグデータの活用法 #ocif16 #hortonworks
Kimihiko Kitase
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
Data Science on Hadoop
Yifeng Jiang
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
Comparison of Transactional Libraries for HBase
DataWorks Summit/Hadoop Summit
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
Case Study: OLAP usability on Spark and Hadoop
DataWorks Summit/Hadoop Summit
 
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
The real world use of Big Data to change business
DataWorks Summit/Hadoop Summit
 
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
HDP Security Overview
Yifeng Jiang
 
Use case and Live demo : Agile data integration from Legacy system to Hadoop ...
DataWorks Summit/Hadoop Summit
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
Hadoopとは
Hirokazu Yatsunami
 
20130313 OSCA Hadoopセミナー
Ichiro Fukuda
 
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
 

Similar to Hadoop/Spark セルフサービス系の事例まとめ (20)

PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
PPTX
あなたの知っているSAPは古いかもしれません
Mana Matsudate
 
PDF
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
PPTX
20140711 evf2014 hadoop_recommendmachinelearning
Takumi Yoshida
 
PDF
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
Kimihiko Kitase
 
PDF
Azure <3 Openness
Keiji Kamebuchi
 
PDF
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
PDF
Hadoop Summit 2016 San Jose レポート
Kimihiko Kitase
 
PDF
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
 
PPTX
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
PPT
マーケティングテクノロジー勉強会
伊藤 孝
 
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
PDF
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
Insight Technology, Inc.
 
PDF
リクルート式Hadoopの使い方
Recruit Technologies
 
PPTX
Hwx勉強会0730
Joutaro Ooura
 
PDF
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
PDF
BIG DATA サービス と ツール
Ngoc Dao
 
PDF
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
PPTX
HDP ハンズオンセミナー
Toshihiro Suzuki
 
PDF
Datadog monitoring with HashiCorp
Masatomo Ito
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
あなたの知っているSAPは古いかもしれません
Mana Matsudate
 
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
20140711 evf2014 hadoop_recommendmachinelearning
Takumi Yoshida
 
ライトプランで利用可能な分析基盤「IBM Analytics Engine (IAE)」とは
Kimihiko Kitase
 
Azure <3 Openness
Keiji Kamebuchi
 
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
Hadoop Summit 2016 San Jose レポート
Kimihiko Kitase
 
Strata + Hadoop World 2014 レポート #cwt2014
Cloudera Japan
 
Attunity社のソリューションの日本国内外適用事例及びロードマップ紹介[ATTUNITY & インサイトテクノロジー IoT / Big Data フ...
Insight Technology, Inc.
 
マーケティングテクノロジー勉強会
伊藤 孝
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
[db tech showcase Tokyo 2017] C25: 世界最速のAnalytic DBがHadoopとタッグを組んだ! ~スケールアウト検...
Insight Technology, Inc.
 
リクルート式Hadoopの使い方
Recruit Technologies
 
Hwx勉強会0730
Joutaro Ooura
 
SIerとオープンソースの美味しい関係 ~コミュニティの力を活かして世界を目指そう~
NTT DATA OSS Professional Services
 
BIG DATA サービス と ツール
Ngoc Dao
 
db tech showcase2019 オープニングセッション @ 石川 雅也
Insight Technology, Inc.
 
HDP ハンズオンセミナー
Toshihiro Suzuki
 
Datadog monitoring with HashiCorp
Masatomo Ito
 
Ad

More from Yuta Imai (14)

PPTX
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Yuta Imai
 
PDF
HDP2.5 Updates
Yuta Imai
 
PDF
Hadoop in adtech
Yuta Imai
 
PDF
Dynamic Resource Allocation in Apache Spark
Yuta Imai
 
PDF
Benchmark and Metrics
Yuta Imai
 
PDF
Hadoop and Kerberos
Yuta Imai
 
PDF
Spark Streaming + Amazon Kinesis
Yuta Imai
 
PDF
オンラインゲームの仕組みと工夫
Yuta Imai
 
PDF
Amazon Machine Learning
Yuta Imai
 
PDF
Global Gaming On AWS
Yuta Imai
 
PDF
Digital marketing on AWS
Yuta Imai
 
PDF
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
 
PPTX
クラウドネイティブなアーキテクチャでサクサク解析
Yuta Imai
 
PPTX
CloudFront経由でのCORS利用
Yuta Imai
 
Node-RED on device to Apache NiFi on cloud, via SORACOM Canal, with no Internet
Yuta Imai
 
HDP2.5 Updates
Yuta Imai
 
Hadoop in adtech
Yuta Imai
 
Dynamic Resource Allocation in Apache Spark
Yuta Imai
 
Benchmark and Metrics
Yuta Imai
 
Hadoop and Kerberos
Yuta Imai
 
Spark Streaming + Amazon Kinesis
Yuta Imai
 
オンラインゲームの仕組みと工夫
Yuta Imai
 
Amazon Machine Learning
Yuta Imai
 
Global Gaming On AWS
Yuta Imai
 
Digital marketing on AWS
Yuta Imai
 
EC2のストレージどう使う? -Instance Storageを理解して高速IOを上手に活用!-
Yuta Imai
 
クラウドネイティブなアーキテクチャでサクサク解析
Yuta Imai
 
CloudFront経由でのCORS利用
Yuta Imai
 
Ad

Recently uploaded (9)

PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 

Hadoop/Spark セルフサービス系の事例まとめ

  • 1. Hadoop/Spark セルフサービス系の事例 まとめ @ Hadoop Summit SJC 2016 Yuta Imai Solutions Engineer, Hortonworks © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 2. 2 © Hortonworks Inc. 2011 – 2016. All Rights Reserved 自己紹介 Ã  今井 雄太 Ã  Solutions Engineer(セールスエンジニアのようなもの) Ã  広告配信サーバーのレポート作成のためにMapReduce(perl + streaming!)を使ったのがHadoopとの出会い。 Ã  その後、AWSにてアドテクやゲームのお客様を担当しつつ、EMRやS3 などのビッグデータなプロダクトを主に担当。そんなつながりで Hortonworksに⼊社してHadoopをやっています。 Ã  @imai_factory
  • 4. 4 © Hortonworks Inc. 2011 – 2016. All Rights Reserved テーマ:セルフサービス Ã  Day3 Keynote –  Cloud Storage、Hortonworks Cloud、LLAPの話 Ã  Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive –  Yahoo! Inc.のデータマートの話 Ã  On-Demand HDP Clusters Using Cloudbreak and Ambari –  Symantecのデータマート(など)の話 Ã  Extreme Analytics @ eBay –  eBayのデータマートの話 Ã  Show me the Money! Cost & Resource Tracking for Hadoop and Storm –  Yahoo! Inc.のHadoopプラットフォームの料⾦配賦の話
  • 6. 6 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: Cloud Storage as a Data Lake Ã  S3などのクラウドストレージは耐久性や運⽤ の容易さ、拡張性、マルチテナンシーなどの ⾯で優れている。 Ã  コンピュートとストレージを分離し、それぞ れ別々にスケールをさせることができるよう になる。 Ã  ⼀⽅、Hadoopの特徴のひとつであるデータ ローカリティとは相反する⾯がある。 Ã  Hadoopコミュニティとして、ここにeffortを あてていく必要があるという話。
  • 7. 7 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Day 3 Keynote: LLAP for cache layer Ã  LLAP: Live Long And Process Ã  Hiveのクエリフラグメントを実⾏するための 常駐デーモン Ã  IOが専⽤スレッドに切り離されておりここに キャッシュを持っている。 Ã  キャッシュはORCに最適化されている。 Ã  ストレージから取り出したデータを 「Column x Row Group」単位でキャッシュ。 Ã  これを利⽤すればある程度、遠いストレージ によるディスアドバンテージをカバーできる。 Ã  いまのところ単純なFIFO。複数デーモン間で の協調機構などはない。 Node LLAP Process Cache Query Fragment HDFS/Cloud Storage Query Fragment
  • 8. 8 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive
  • 9. 9 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Ã  ⽶ヤフーのHiveの⾼速化やチューニングに関しての努⼒が語られた。 Ã  しゃべっていたのはHadoopをプラットフォームとして提供するチームのひとと 思われる。 Ã  パーティションの切り⽅とかReduce side Vectorizationの話、Joinの最適化、 Sketchの利⽤、hcatalogの⾼速化の努⼒などなど・・・ Ã  その中で、ユーザーへの提供インターフェイスとして「カスタムデータマー ト」という話が語られた。 Ã  プラットフォームチームはデータと、データマートをそれぞれサービスとして 提供する。
  • 10. 10 © Hortonworks Inc. 2011 – 2016. All Rights Reserved データマート Hour ETL Event Data Daily Rollup Aggregate ETL Data Aggregate Druid HDFS User Interface 1x 24x ?x Generalized ETL Faster, Faster, Faster: The True Story of a Mobile Analytics Data Mart on Hive Data as a Service
  • 12. 12 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  SymantecのHadoopプラットフォームチームによるHadoopセルフサービス化 の取り組みの話 Ã  SSA(Self Service Analytics)というプロジェクト名でHadoopクラスタのセル フサービス化をやっている Ã  Symantec社内にはたくさんのデータ分析チーム、もしくはデータ分析をしたい ひとたちがいる。しかしそれぞれがやりたいことは全然異なっており、特定の 共通機能でカバーするのは難しい。 Ã  それぞれの要望をすべてプラットフォームチームで個別対応するのも⾮現実的。 Ã  ということでセルフサービス化へ。
  • 13. 13 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  最初は社内のOpenStackと、AmbariのBlueprint を使って実装。 Ã  ユーザーはSSAにログインして、ほしいクラスタ の規模や機能を決めてデプロイボタンを押す。 Ã  そうするとOpenStack上にクラスタが⽴ち上がっ て、Blueprintによって、必要なコンポーネントが インストールされたHDPクラスタが構築される。 Ã  ユーザーが使いたい様々なアプリケーションを管 理するためのAmbariのカスタムサービスを利⽤ Ã  現在、CloudBreakを使ってAWS上への移植の努 ⼒中。
  • 14. 14 © Hortonworks Inc. 2011 – 2016. All Rights Reserved On-Demand HDP Clusters Using Cloudbreak and Ambari Ã  出来上がったクラスタに対してのData Feedもサービス化されている。
  • 16. 16 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  eBayのプラットフォームチームによるセフルサービス化の話。 Ã  Governed Self Service Analytics Ã  300⼈以上のデータ分析者、5000⼈以上のユーザー Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart
  • 17. 17 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMart –  前の2者と違い、誰かがつくったDataMartは他のひとも利⽤できる –  そのために・・・ Ã  Data Assert Certification –  信頼の置けるViewなのか?誰が保証しているのか?いつ作られたものなのか? Ã  Business Glossary –  Viewの作られ⽅やロジック、その他属性などについての管理されたドキュメント Ã  Well Managed –  これは使ってもOKなものなのか?データの更新頻度や品質。
  • 18. 18 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Extreme Analytics @ eBay Ã  Virtual DataMartとData Quality Firewall Customer Product Transaction Behavior Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart Virtual DataMart DataQualityFirewall 1. 欲しいデータを探す 2. なければつくる 3. Virtual DataMartをつくるために提供されているData as a Service 4. 必要な情報を登録
  • 19. 19 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Cost & Resource Tracking for Hadoop and Storm
  • 20. 20 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  ⽶ヤフーでは社内Hadoopユーザーのリソース利⽤を通貨の形で可視化している という話。実際にお⾦のやり取りをしているかどうかは不明。この取組は2015 年から始まった。 Ã  Web UIでUsageが確認できるようになっている Ã  Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  • 21. 21 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! Ã  クラスタの原価(TCO)に含まれるもの –  Cluster & Network Hardware –  R&D HC –  Power, Space, Labor support and facility management –  Acquisition/Install –  Operations engineering –  Network bandwidth Ã  これらをコア数、RAM、ストレージ、Namespace(?)、ネットワークなどの品 ⽬に分けてユーザーの利⽤量に応じて賦課 Ã  例えばRAMなら Resource Usage = amount allocated x time allocated –  One 2GB mapper running for 5 hours = 10 GB-Hour –  Five 2GB mappers running for 1 hour = 10 GB-Hour
  • 22. 22 © Hortonworks Inc. 2011 – 2016. All Rights Reserved Show me the Money! – Results! Ã  当初の想定よりもリソースを使いまくっているプロジェクトの発⾒ Ã  実際に必要なリソースよりも⼤きく上回る量を要求するプロジェクトの発⾒ Ã  プロジェクトメンバーも気づいていなかったリソース利⽤の発⾒ Ã  ゾンビプロジェクトの発⾒ Ã  結果としてリソース利⽤を効率化するという概念がみんなの頭に叩きこまれた
  • 24. 24 © Hortonworks Inc. 2011 – 2016. All Rights Reserved まとめ Ã  いろんなユースケースをひとつのHadoopクラスタに載せようとすると、ユース ケースごとに異なる下記の条件を管理するのがとてもむずかしくなる –  アプリケーションの種類やバージョン –  負荷特性 –  必要とされるキャパシティ –  セキュリティ要件 –  その他もろもろ Ã  これらの問題を解決するためのひとつのアプローチとして以下の様なアプロー チが取られ始めている –  データとコンピュートを分離 –  データと、コンピュートのプロビジョニングをサービスとして提供 –  ユーザーはこれらをセルフサービスで利⽤する