SlideShare a Scribd company logo
マルチテナント Hadoop クラスタのための
モニタリング Best Practice
Mar 14, 2019
Tomomichi Hirano
Hadoop Platform Team
Cloud Platform Department
Rakuten, Inc.
2
Who am I ?
• 平野 智巌 (tomomichi.Hirano@rakuten.com)
• 2013年 楽天 入社、Server Provisioning Team に Join
• 2014年 Hadoop Administrator Team に Join
• 2019年 Hadoop Admin として5年目
• My Career
• Hadoop Admin
• DBMS、Server/OS/HW、HPC、etc.
3
楽天 Hadoop
Analysis
Output
Input
店舗情報
購入情報商品情報
アクセスログ/行動ログ
メンバーシップ情報
(楽天会員情報)
Index for 商品検索 / Suggest
店舗様向けレポート
Recommend
広告
マーケティング
ターゲティング
プラニング
サイト・デザイン
KPI マネージメント
データマート
DWH
DBMS
4
楽天 Hadoop の Spec
• クラスタサイズ
• # of slaves : 約 420 台
• HDFS capacity : 約 30 PB
• # of jobs per day : 70,000 - 80,000
• # of hadoop active user accounts : around 80
• Types of jobs : MR, Hive, Tez, Spark, Spark ML, Pig, sqoop, HBase, Slider, etc.
• Hadoop クラスタ数
• # of Production cluster (worldwide) : 4
• Some clusters for Staging and development
5
楽天 Hadoop の 特徴
• Large クラスタ / マルチテナント
• 600+ Hadoop アカウント、7万+ ジョブ...
• 細かなチェックやコントロールをしていない(できない)状態。
• Speed & Self-Service
• ユーザの開発スピードを落としたくないので、Self-Service を目指している。
• 基本は、Free ride、Free use。
6
楽天 Hadoop Admin Team の 特徴
• Role and Responsibility
• Hadoop ジョブ開発以外のすべて
• クラスタ運用(ノード追加/削除、ユーザ追加、ディスク交換など)
• クラスタのモニタリング、チューニング
• 新機能の検証、導入
• クラスタのトラブル・シューティング、原因調査
• ユーザ・サポート(QA対応、ジョブのトラブル・シューティングのサポート)
• Small Hadoop Admin Team
• 専任 2名、兼任 1名、マネージャ
• No Partner、No Support
7
なぜ モニタリング が クリティカル であるのか? (Before モニタリング)
• Large クラスタ / マルチテナント
• 問題であるのか、問題でないのかが判別できない...
• クラスタの問題であるのか、ジョブの問題であるのかがわからない...
• Speed & Self-Service
• ユーザは、Hadoop Admin Team に聞かないと、クラスタの状況がわからない...
• Small Hadoop Admin Team
• いろいろな UI や Ganglia グラフなどいろいろ確認しないと状況がわからない...
• ユーザへ説明するために情報を整理するために時間がかかった...
8
なぜ モニタリング がクリティカルであるのか? (After モニタリング)
• Large クラスタ / マルチテナント
• 問題か、問題でないかがわかる(ことがある)!!!
• クラスタの問題であるか、ユーザの問題であるかがわかる(ことがある)!!!
• Speed & Self-Service
• ユーザは、Hadoop Admin への問い合わせなしで、即座に状況を確認できる!!!
• Small Hadoop Admin Team
• 重要なグラフを集めたダッシュボードをみることで短時間で問題を把握できる!!!
• ユーザは自分でクラスタの状況を確認できるので、問い合わせ自体が減る!!!
• グラフを共有するだけで、ユーザに状況を説明できる!!!
9
今日のアジェンダ
“マルチテナント Hadoop クラスタのためのモニタリング Best Practice”
1. グラフの作り方
2. 最重要ダッシュボートにあるグラフを事例とともに紹介
• Tips: Slave ノードでの SSD 活用
3. マルチテナント特有のその他ダッシュボードを紹介
• Tips: HDFS small file 問題への対応
• この資料は公開します!
10
1. How to create graphs
11
グラフの作り方
• Hadoop 系は、基本、NameNode、ResourceManager を REST API 経由で取得。
• OS 系は、Infra Team 構成の Collectd plug-in で取得。
• ダッシュ・ボードは、Hadoop 系、OS 系のグラフを組み合わせて作成。
Graphite
for hadoop
carbon-cache
GrafanaCollectd
graphite-plugin
exec-plugin
scripts with jq
NameNode
ResourceManager
via REST API Graphite
for infra
Hadoop Cluster
Command/Job
12
[Reference] REST API of NameNode and ResourceManager
Contents Queries
HDFS cluster curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=FSNamesystemState"
NameNode JVM info curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=JvmMetrics"
NameNode and DataNode curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeInfo"
NameNode state curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeStatus"
NameNode RPC curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8020“
curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8040“
NameNode CMS curl -s "${NN}:50070/jmx?qry=java.lang:type=GarbageCollector,name=ConcurrentMarkSweep"
NameNode Heap curl -s "${NN}:50070/jmx?qry=java.lang:type=Memory"
jobs finished in last 10 min curl -s "${RM}:8088/ws/v1/cluster/apps?finishedTimeBegin=`date -d '10 minutes ago' +%s%3N`"
running jobs curl -s "${RM}:8088/ws/v1/cluster/apps?state=RUNNING"
accepted jobs curl -s "${RM}:8088/ws/v1/cluster/apps?state=ACCEPTED"
ResourceManager status curl -s "${RM}:8088/ws/v1/cluster/info”
YARN cluster curl -s "${RM}:8088/ws/v1/cluster/metrics" | jq "."
NodeManager curl -s "${RM}:8088/ws/v1/cluster/nodes" | jq "."
NNTop curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=FSNamesystemState"
13
2. Graphs on Main Dashboard
[ Multi-Tenant ] Useful for Multi-Tenant Hadoop Cluster
[ Rank S ] Must
[ Rank A ] Very useful
[ Rank B ] Useful
[ Rank C ] Nice to have
14
[YARN][Rank S][Multi-Tenant] Yarn Memory Usage per User/Queue
• とあるユーザからの問い合わせ:「クラスタが遅いんだけど…」
• まったく原因がわからない。そもそも問題かどうかもわからなかった。
Yarn memory usage per User Yarn memory usage per Queue
• クラスタが遅いわけではなく、そのユーザが複数のキューで多くのリソースを使っているこ
とが原因であることわかる。
• 4年前に作成したグラフで、メイン・ダッシュボードの一番上にあり、すべての起点。
15
[YARN][Rank A][Multi-Tenant] Graphs to monitor Yarn Busyness
• とあるユーザからの問い合わせ:「全然ジョブが始まらないんだけど…」
• クラスタの忙しさは、基本、これらのグラフを組み合わせてモニタリング。
• Pending jobs で検知、Queue 毎の数と、Pending 時間をモニタリング。
Pending jobs per Queue
Longest Peinding job per QueueRunning, Pending, Killed, Failed Jobs
16
[YARN][Rank B][Multi-Tenant] Number of preemptions per Yarn Queue
• とあるユーザからの問い合わせ:「ジョブが終わんないんだけど…」
Yarn memory usage
Yarn memory usage per Queue
• さらに、Queue 毎の Preemption 数をモニタリング。
• 上記は、昔の “Never Ending jobs” 問題発生時のグラフ。Preemption や
“mapreduce.job.reduce.slowstart.completedmaps”のチューニングで解消済み。
• 不当に⾧く走り続けるジョブの検知もできる。
17
[HDFS][Rank S] Last contact values of DataNodes
• とある日、Datanodes の Last Contact の値が時々大きいことに気づく
Last contact
• スナップショット情報 => ヒストリカル情報
• HDFSクラスタの問題は、DataNode の LastContact のモニタリングで検知はできる。
Last Contact values of all DNs
18
[HDFS][Rank B] CPU I/O wait of all DNs (OS)
• 問題:原因を特定できない High Data I/O Load
• HDFS の I/O 性能が極端に落ちる。もしくは、HDFS write が失敗。
• DN Last Contant グラフと DN の CPU I/O
wait の組み合わせで、何らかの HDDs の
I/O 負荷によって問題が発生していること
が判明。
• しかし、誰が、どのようなI/O負荷を発生さ
せているかはわからない…
Last Contact values of all DNs
CPU I/O wait of all DNs
19
[YARN] SSD for Hadoop jobs
• Hadoop ジョブの高速化のため、新規の Slaves にSSDを追加
• 以下の OS ディレクトリに SSDを使用
• yarn.nodemanager.local-dirs:Where to store localized files in.
• yarn.nodemanager.log-dirs:Where to store container logs.
20
[YARN][RANK S][Multi-Tenant] SSD usage (OS)
• 容量が十分であるかを確認するために SSD の使用率のモニタリングを始める。
• 大きなジョブでも、通常は 200 GB ~ 300 GB 程度。
Usage of SSD for NMs
21
[HDFS][Combination] For Unknown high Disk I/O load of Slaves
• 原因不明の High Load は、Container の OS file write であることが判明。
Usage of SSD for NMs Last Contact of DNs
CPU I/O wait Stale DataNodes (Yellow)
• OSディレクトリにapplication id も含まれるので、du コマンドでジョブの特定も可能となった。
22
[Best Practice] Slave ノードの構成
• この問題のまとめと、Slave 構成に関する Best Practice
• SSD を利用し、DataNode と NodeManager の Disk I/O を分離!
• Hadoop ジョブの高速化 + 問題ジョブの特定のため。
• すべての Slaves に SSD を追加することにより、根本対応が可能(と見込まれる)。
LastContact of all DNs
Usage of SSD for NMs
LastContact of slaves
without SSD
LastContact of slaves
with SSD
200
8
23
[NodeManager][Rank B] Load average and CPU idle of Slaves (OS)
• Load average (short) + CPU idle
• CPU の Utilization や Slave ノードのバランスをみるために重要。
Load average of Slaves
CPU idle of Slaves
24
[NameNode][Rank A] Response time of “hdfs dfs –ls /”
• Response time of “hdfs dfs -ls /”
• NameNode の負荷状況を利用側からモニタリング。
Usage of SSD for NMs
25
[NameNode][HDFS][Rank C] NNTop, UnderReplicatedBlocks
• NNTop
• NameNode オペレー
ション回数と、HDFSク
ラスタの負荷がリンクし
ないことが多いが、役立
つときもある。
• UnderReplicatedBlocks
• HDFS write に関する異
常を検知。
Number of NN operations per user
UnderReplicatedBlocks
26
[Hadoop][Rank S] Pending and elapsed time of MR pi job
• 最近追加したおすすめグラフ
• ジョブのペンディング, メモリ・アローケーション、hdfs write を含めた完了時間。
• クラスタを総合的に利用側からモニタリング。
Pending and longest running job of
a yarn queue with MR pi sample job
27
[Hive][Rank B] Response time of “show databases;”
• ユーザの Bad クエリによる負荷をモニタリング。
• Cron 監視し、レスポンスが 10分を超えた場合にリスタート。
Hive Response time of “show databases;”
28
[ResourceManager][Rank C] To monitor RM problem
• ResourceManager プロセスに問題はないが、スケジューリングに問題がある
ケースへの対応。
• AMRegisterDelayNumOps, AMLaunchDelayNumOps, RegisterApplicationMasterNumOps
• モニタリングでなく、Yarn クラスタの Health チェックとしては [Rank S]
Monitor for RM problem
29
[Slaves][Rank B] Status of DataNodes and NodeManagers
• DataNode 、NodeMamager のステータス
• DataNode: Dead/Decom/Decommissioning/DecomLive/Stale
• NodeManagers: unhealthy/lost/decommissioned
Status of DataNodes and NodeManagers
30
[Best Practice] ダッシュボードの配置 for マルチテナント Hadoop クラスタ ①
[S] Yarn memory usage
per User
[A]
Running/Pending/Killed/
Failed jobs
[S] Yarn memory usage
per Queue
[A] Response time of
“hdfs dfs -ls /”
[S] Usage of SSDs for
NMs
[S] Pending and
Running time of MR pi
job
[S] Counter of
LastContact
[B] Hive response time
of “show databases;”
[B] Monitor for RM
problem
[C]
UnderReplicatedBlocks
31
[Best Practice] ダッシュボードの配置 for マルチテナント Hadoop クラスタ ②
[B] CPU I/O wait
[B] CPU idle
[B] DataNodes and
NodeManagers
[A] Pending jobs per
Queue
[B] Load average short [A] Longest Pending
jobs per Queue
[C] Number of NN
operations per user
[B] Total number of
Preempted containers of
RUNNING jobs per
Queue (Non-AM)
32
3. Other Dashboards
for Multi-Tenant Hadoop Cluster
33
[YARN][Rank B][Multi-Tenant] Longest Running Jobs per User/Queue
• ユーザやキューごとのジョブの最大実行時間。
• 今日の状況が、過去と比べてどうか?他のユーザと比べてどうか?が見える。
Longest Running jobs of a Queue
Longest Running jobs per Queue
34
[HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation
• 現在、HDFS small file 問題に対応中。
• ユーザ毎のファイル数、データサイズ、平均サイズ を確認できる。
Number of files per User Total data size per User Average data size per User
HDFS usage Number of HDFS files Heap usage
35
[HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation
Active
NameNode
Standby NameNode
Batch Server
hdfs -oiv
Hadoop
FSImage file Readable file
Create Hive table_raw
Hdfs -put
scp
FSImage file
Create (insert)
Hive table_date
|Path|Replication|ModificationTime|AccessTime|PreferredBlockSize|BlocksCount|FileSize|
NSQUOTA|DSQUOTA|Permission|UserName|GroupName|
FSImage のフォーマット
36
[HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation
• For small file proble 対応のための分析可能
• NameNode の直接的な負荷なしで実行できる。
• ex1) UserA の 1MB 以下のファイル数
• ex2) 1年以上だれもReadしていないファイルのリスト
• Cost Allocation
• CPU:Memory:# of HDFS files:HDFS data size
• すべて Grafana から取得し、ユーザごとのUsageを計算し、コスト配布。
select count(*) from table_date where username=‘userA' and PATH like '/user/userA/%' and
permission not like 'd%' and FileSize!='0' and FileSize <'1048576';
insert overwrite directory '/output/older_than_1year' row format delimited fields terminated by '|' stored
as textfile select * from table_date where username=‘userA' and permission not like 'd%' and
accesstime<'2018-03-14 00:00:00.0' order by path;
37
まとめ
38
[Best Practice] 例えば、グラフを単体でみると…
• Yarn メモリは 常に 100%、100以上の Pending ジョブも発生している。
• ただ単に、リソースが足りないだけなのか、何か悪いジョブが走っているのかがわからない。
39
[Best Practice] 組み合わせると…
• NameNode の レスポンス (hdfs dfs -ls /) には問題がない。
• Test MapReduce ジョブ(sample pi program)のレスポンスにも問題がない。
• 問題は問題だが、他のユーザには ”遅い” 以外の影響は出ていないと判断できる。
40
[Best Practice] マルチテナント Hadoop クラスタのモニタリング
• 組み合わせてみること
• 1つのグラフを見ていても、あまりわかるこはあまりない。
• 複数のグラフを組み合わせることで、発見/判断できることがある。
• メイン・ダッシュボードは、常に表示させて、常にみられるようにしておくこと。
• 常にみていると、時々、思いついたり、何かが見えてくることがあります。
• また、過去に起こったことがあるか、ないかにより、問題の重要度も見えることがある。
• “Always Improve, Always advance”
• 必要に応じて、新しいグラフを作ること。
• グラフの並べ方を、常に工夫すること。
• これらの取り組みで、皆さんにとっての Best なダッシュボードが出来上がると思います!
41
最重要事項
42
[最重要] Hadoop Administrator 募集!
• Hadoop Admin Export 及び、Hadoop DevOpe エンジニアを募集しています。
• Hadoop Admin Export
• 新機能、新コンポーネントの検証 / POC / Architect / Design
• ユーザのHadoopを利用した新しいサービス導入に対するコンサルティング
• Patch 作成、Hadoop オープン・コミュニティへの貢献
• Hadoop DevOps
• 運用やオンボーディング・プロセスの自動化・サービス化
• Hadoopクラスタのための CI
E-mail : tomomichi.hirano@rakuten.com
http://global.rakuten.com/corp/careers/
[Hadoop Admin] https://talent.rakuten.careers/jobs/administrator-of-hadoop-clusters-and-other-platforms-for-bigdata-1955
[DevOps] https://talent.rakuten.careers/jobs/full-stack-infrastructure-devops-engineer-cloud-platform-department-8210
マルチテナント Hadoop クラスタのためのモニタリング Best Practice

More Related Content

PDF
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
 
PPTX
HDFS Supportaiblity Improvements
Cloudera Japan
 
PDF
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
 
PDF
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
 
PDF
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
PDF
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
 
PDF
HDFS HA セミナー #hadoop
Cloudera Japan
 
PDF
Sparkストリーミング検証
BrainPad Inc.
 
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
 
HDFS Supportaiblity Improvements
Cloudera Japan
 
CDHの歴史とCDH5新機能概要 #at_tokuben
Cloudera Japan
 
Apache Kuduは何がそんなに「速い」DBなのか? #dbts2017
Cloudera Japan
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
Kuduを調べてみた #dogenzakalt
Toshihiro Suzuki
 
HDFS HA セミナー #hadoop
Cloudera Japan
 
Sparkストリーミング検証
BrainPad Inc.
 

What's hot (20)

PDF
最新版Hadoopクラスタを運用して得られたもの
cyberagent
 
PDF
Sparkパフォーマンス検証
BrainPad Inc.
 
PDF
Hadoopのシステム設計・運用のポイント
Cloudera Japan
 
PPTX
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
 
PPTX
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
 
PDF
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
 
PDF
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
Cloudera Japan
 
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
 
PDF
(LT)Spark and Cassandra
datastaxjp
 
PDF
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR Technologies Japan
 
PDF
CDH4.1オーバービュー
Cloudera Japan
 
PDF
Hadoop概要説明
Satoshi Noto
 
PDF
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
 
PDF
HiveとImpalaのおいしいとこ取り
Yukinori Suda
 
PPTX
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
 
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
 
PDF
Evolution of Impala #hcj2014
Cloudera Japan
 
PDF
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
 
PDF
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
 
PDF
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
 
最新版Hadoopクラスタを運用して得られたもの
cyberagent
 
Sparkパフォーマンス検証
BrainPad Inc.
 
Hadoopのシステム設計・運用のポイント
Cloudera Japan
 
機械学習の定番プラットフォームSparkの紹介
Cloudera Japan
 
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
 
Apache Hadoop YARNとマルチテナントにおけるリソース管理
Cloudera Japan
 
マルチテナント化に向けたHadoopの最新セキュリティ事情 #hcj2014
Cloudera Japan
 
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
 
(LT)Spark and Cassandra
datastaxjp
 
MapR アーキテクチャ概要 - MapR CTO Meetup 2013/11/12
MapR Technologies Japan
 
CDH4.1オーバービュー
Cloudera Japan
 
Hadoop概要説明
Satoshi Noto
 
Sparkによる GISデータを題材とした時系列データ処理 (Hadoop / Spark Conference Japan 2016 講演資料)
Hadoop / Spark Conference Japan
 
HiveとImpalaのおいしいとこ取り
Yukinori Suda
 
Hadoopトレーニング番外編 〜間違えられやすいHadoopの7つの仕様〜
Cloudera Japan
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
 
Evolution of Impala #hcj2014
Cloudera Japan
 
MapReduce/Spark/Tezのフェアな性能比較に向けて (Cloudera World Tokyo 2014 LT講演)
Hadoop / Spark Conference Japan
 
「新製品 Kudu 及び RecordServiceの概要」 #cwt2015
Cloudera Japan
 
Cloudera Manager 5 (hadoop運用) #cwt2013
Cloudera Japan
 
Ad

Similar to マルチテナント Hadoop クラスタのためのモニタリング Best Practice (20)

PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
 
PDF
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Japan
 
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Yahoo!デベロッパーネットワーク
 
PPTX
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
 
PDF
Hadoop operation chaper 4
Yukinori Suda
 
PPTX
Cloudera大阪セミナー 20130219
Cloudera Japan
 
PDF
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
 
PPT
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
PDF
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo!デベロッパーネットワーク
 
PDF
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
Yahoo!デベロッパーネットワーク
 
PPTX
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
 
PPTX
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
VirtualTech Japan Inc.
 
PDF
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
 
PDF
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
 
PDF
Hadoop on LXC
俊夫 森
 
PDF
Running Apache Spark on AWS
Noritaka Sekiyama
 
PDF
ヤフーにおけるHadoop Operations #tdtech
Yahoo!デベロッパーネットワーク
 
PDF
OpenStack ComputingはHyper-Convergedの夢を見るのか?
Naoto Gohko
 
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
 
Cloudera Manager4.0とNameNode-HAセミナー資料
Cloudera Japan
 
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
Yahoo!デベロッパーネットワーク
 
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
 
Hadoop operation chaper 4
Yukinori Suda
 
Cloudera大阪セミナー 20130219
Cloudera Japan
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
 
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
Yahoo! JAPAN MeetUp #8 (インフラ技術カンファレンス)セッション②
Yahoo!デベロッパーネットワーク
 
HDFSのスケーラビリティの限界を突破するためのさまざまな取り組み | Hadoop / Spark Conference Japan 2019 #hc...
Yahoo!デベロッパーネットワーク
 
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
 
DeNA private cloud のその後 - OpenStack最新情報セミナー(2017年3月)
VirtualTech Japan Inc.
 
Distributed data stores in Hadoop ecosystem
NTT DATA OSS Professional Services
 
Hadoop on LXC
俊夫 森
 
Running Apache Spark on AWS
Noritaka Sekiyama
 
ヤフーにおけるHadoop Operations #tdtech
Yahoo!デベロッパーネットワーク
 
OpenStack ComputingはHyper-Convergedの夢を見るのか?
Naoto Gohko
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
Ad

More from Hadoop / Spark Conference Japan (13)

PPTX
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
Hadoop / Spark Conference Japan
 
PDF
What makes Apache Spark?
Hadoop / Spark Conference Japan
 
PDF
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan
 
PDF
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Hadoop / Spark Conference Japan
 
PDF
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
Hadoop / Spark Conference Japan
 
PDF
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Hadoop / Spark Conference Japan
 
PDF
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
 
PDF
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
Hadoop / Spark Conference Japan
 
PDF
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
 
PDF
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Hadoop / Spark Conference Japan
 
PDF
The Future of Apache Spark
Hadoop / Spark Conference Japan
 
PDF
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
 
機械学習、グラフ分析、SQLによるサイバー攻撃対策事例(金融業界)
Hadoop / Spark Conference Japan
 
What makes Apache Spark?
Hadoop / Spark Conference Japan
 
Hadoop / Spark Conference Japan 2019 ご挨拶・開催にあたって
Hadoop / Spark Conference Japan
 
Apache Kudu Fast Analytics on Fast Data (Hadoop / Spark Conference Japan 2016...
Hadoop / Spark Conference Japan
 
The Evolution and Future of Hadoop Storage (Hadoop Conference Japan 2016キーノート...
Hadoop / Spark Conference Japan
 
Project Tungsten Bringing Spark Closer to Bare Meta (Hadoop / Spark Conferenc...
Hadoop / Spark Conference Japan
 
Spark 2.0 What's Next (Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Hadoop / Spark Conference Japan
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
 
初めてのHadoopパッチ投稿 / How to Contribute to Hadoop (Cloudera World Tokyo 2014 LT講演資料)
Hadoop / Spark Conference Japan
 
A Deeper Understanding of Spark Internals (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
 
Mahoutによるアルツハイマー診断支援へ向けた取り組み (Hadoop Confernce Japan 2014)
Hadoop / Spark Conference Japan
 
The Future of Apache Spark
Hadoop / Spark Conference Japan
 
HadoopとRDBMSをシームレスに連携させるSmart SQL Processing (Hadoop Conference Japan 2014)
Hadoop / Spark Conference Japan
 

Recently uploaded (10)

PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 

マルチテナント Hadoop クラスタのためのモニタリング Best Practice

  • 1. マルチテナント Hadoop クラスタのための モニタリング Best Practice Mar 14, 2019 Tomomichi Hirano Hadoop Platform Team Cloud Platform Department Rakuten, Inc.
  • 2. 2 Who am I ? • 平野 智巌 ([email protected]) • 2013年 楽天 入社、Server Provisioning Team に Join • 2014年 Hadoop Administrator Team に Join • 2019年 Hadoop Admin として5年目 • My Career • Hadoop Admin • DBMS、Server/OS/HW、HPC、etc.
  • 3. 3 楽天 Hadoop Analysis Output Input 店舗情報 購入情報商品情報 アクセスログ/行動ログ メンバーシップ情報 (楽天会員情報) Index for 商品検索 / Suggest 店舗様向けレポート Recommend 広告 マーケティング ターゲティング プラニング サイト・デザイン KPI マネージメント データマート DWH DBMS
  • 4. 4 楽天 Hadoop の Spec • クラスタサイズ • # of slaves : 約 420 台 • HDFS capacity : 約 30 PB • # of jobs per day : 70,000 - 80,000 • # of hadoop active user accounts : around 80 • Types of jobs : MR, Hive, Tez, Spark, Spark ML, Pig, sqoop, HBase, Slider, etc. • Hadoop クラスタ数 • # of Production cluster (worldwide) : 4 • Some clusters for Staging and development
  • 5. 5 楽天 Hadoop の 特徴 • Large クラスタ / マルチテナント • 600+ Hadoop アカウント、7万+ ジョブ... • 細かなチェックやコントロールをしていない(できない)状態。 • Speed & Self-Service • ユーザの開発スピードを落としたくないので、Self-Service を目指している。 • 基本は、Free ride、Free use。
  • 6. 6 楽天 Hadoop Admin Team の 特徴 • Role and Responsibility • Hadoop ジョブ開発以外のすべて • クラスタ運用(ノード追加/削除、ユーザ追加、ディスク交換など) • クラスタのモニタリング、チューニング • 新機能の検証、導入 • クラスタのトラブル・シューティング、原因調査 • ユーザ・サポート(QA対応、ジョブのトラブル・シューティングのサポート) • Small Hadoop Admin Team • 専任 2名、兼任 1名、マネージャ • No Partner、No Support
  • 7. 7 なぜ モニタリング が クリティカル であるのか? (Before モニタリング) • Large クラスタ / マルチテナント • 問題であるのか、問題でないのかが判別できない... • クラスタの問題であるのか、ジョブの問題であるのかがわからない... • Speed & Self-Service • ユーザは、Hadoop Admin Team に聞かないと、クラスタの状況がわからない... • Small Hadoop Admin Team • いろいろな UI や Ganglia グラフなどいろいろ確認しないと状況がわからない... • ユーザへ説明するために情報を整理するために時間がかかった...
  • 8. 8 なぜ モニタリング がクリティカルであるのか? (After モニタリング) • Large クラスタ / マルチテナント • 問題か、問題でないかがわかる(ことがある)!!! • クラスタの問題であるか、ユーザの問題であるかがわかる(ことがある)!!! • Speed & Self-Service • ユーザは、Hadoop Admin への問い合わせなしで、即座に状況を確認できる!!! • Small Hadoop Admin Team • 重要なグラフを集めたダッシュボードをみることで短時間で問題を把握できる!!! • ユーザは自分でクラスタの状況を確認できるので、問い合わせ自体が減る!!! • グラフを共有するだけで、ユーザに状況を説明できる!!!
  • 9. 9 今日のアジェンダ “マルチテナント Hadoop クラスタのためのモニタリング Best Practice” 1. グラフの作り方 2. 最重要ダッシュボートにあるグラフを事例とともに紹介 • Tips: Slave ノードでの SSD 活用 3. マルチテナント特有のその他ダッシュボードを紹介 • Tips: HDFS small file 問題への対応 • この資料は公開します!
  • 10. 10 1. How to create graphs
  • 11. 11 グラフの作り方 • Hadoop 系は、基本、NameNode、ResourceManager を REST API 経由で取得。 • OS 系は、Infra Team 構成の Collectd plug-in で取得。 • ダッシュ・ボードは、Hadoop 系、OS 系のグラフを組み合わせて作成。 Graphite for hadoop carbon-cache GrafanaCollectd graphite-plugin exec-plugin scripts with jq NameNode ResourceManager via REST API Graphite for infra Hadoop Cluster Command/Job
  • 12. 12 [Reference] REST API of NameNode and ResourceManager Contents Queries HDFS cluster curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=FSNamesystemState" NameNode JVM info curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=JvmMetrics" NameNode and DataNode curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeInfo" NameNode state curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=NameNodeStatus" NameNode RPC curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8020“ curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=RpcActivityForPort8040“ NameNode CMS curl -s "${NN}:50070/jmx?qry=java.lang:type=GarbageCollector,name=ConcurrentMarkSweep" NameNode Heap curl -s "${NN}:50070/jmx?qry=java.lang:type=Memory" jobs finished in last 10 min curl -s "${RM}:8088/ws/v1/cluster/apps?finishedTimeBegin=`date -d '10 minutes ago' +%s%3N`" running jobs curl -s "${RM}:8088/ws/v1/cluster/apps?state=RUNNING" accepted jobs curl -s "${RM}:8088/ws/v1/cluster/apps?state=ACCEPTED" ResourceManager status curl -s "${RM}:8088/ws/v1/cluster/info” YARN cluster curl -s "${RM}:8088/ws/v1/cluster/metrics" | jq "." NodeManager curl -s "${RM}:8088/ws/v1/cluster/nodes" | jq "." NNTop curl -s "${NN}:50070/jmx?qry=Hadoop:service=NameNode,name=FSNamesystemState"
  • 13. 13 2. Graphs on Main Dashboard [ Multi-Tenant ] Useful for Multi-Tenant Hadoop Cluster [ Rank S ] Must [ Rank A ] Very useful [ Rank B ] Useful [ Rank C ] Nice to have
  • 14. 14 [YARN][Rank S][Multi-Tenant] Yarn Memory Usage per User/Queue • とあるユーザからの問い合わせ:「クラスタが遅いんだけど…」 • まったく原因がわからない。そもそも問題かどうかもわからなかった。 Yarn memory usage per User Yarn memory usage per Queue • クラスタが遅いわけではなく、そのユーザが複数のキューで多くのリソースを使っているこ とが原因であることわかる。 • 4年前に作成したグラフで、メイン・ダッシュボードの一番上にあり、すべての起点。
  • 15. 15 [YARN][Rank A][Multi-Tenant] Graphs to monitor Yarn Busyness • とあるユーザからの問い合わせ:「全然ジョブが始まらないんだけど…」 • クラスタの忙しさは、基本、これらのグラフを組み合わせてモニタリング。 • Pending jobs で検知、Queue 毎の数と、Pending 時間をモニタリング。 Pending jobs per Queue Longest Peinding job per QueueRunning, Pending, Killed, Failed Jobs
  • 16. 16 [YARN][Rank B][Multi-Tenant] Number of preemptions per Yarn Queue • とあるユーザからの問い合わせ:「ジョブが終わんないんだけど…」 Yarn memory usage Yarn memory usage per Queue • さらに、Queue 毎の Preemption 数をモニタリング。 • 上記は、昔の “Never Ending jobs” 問題発生時のグラフ。Preemption や “mapreduce.job.reduce.slowstart.completedmaps”のチューニングで解消済み。 • 不当に⾧く走り続けるジョブの検知もできる。
  • 17. 17 [HDFS][Rank S] Last contact values of DataNodes • とある日、Datanodes の Last Contact の値が時々大きいことに気づく Last contact • スナップショット情報 => ヒストリカル情報 • HDFSクラスタの問題は、DataNode の LastContact のモニタリングで検知はできる。 Last Contact values of all DNs
  • 18. 18 [HDFS][Rank B] CPU I/O wait of all DNs (OS) • 問題:原因を特定できない High Data I/O Load • HDFS の I/O 性能が極端に落ちる。もしくは、HDFS write が失敗。 • DN Last Contant グラフと DN の CPU I/O wait の組み合わせで、何らかの HDDs の I/O 負荷によって問題が発生していること が判明。 • しかし、誰が、どのようなI/O負荷を発生さ せているかはわからない… Last Contact values of all DNs CPU I/O wait of all DNs
  • 19. 19 [YARN] SSD for Hadoop jobs • Hadoop ジョブの高速化のため、新規の Slaves にSSDを追加 • 以下の OS ディレクトリに SSDを使用 • yarn.nodemanager.local-dirs:Where to store localized files in. • yarn.nodemanager.log-dirs:Where to store container logs.
  • 20. 20 [YARN][RANK S][Multi-Tenant] SSD usage (OS) • 容量が十分であるかを確認するために SSD の使用率のモニタリングを始める。 • 大きなジョブでも、通常は 200 GB ~ 300 GB 程度。 Usage of SSD for NMs
  • 21. 21 [HDFS][Combination] For Unknown high Disk I/O load of Slaves • 原因不明の High Load は、Container の OS file write であることが判明。 Usage of SSD for NMs Last Contact of DNs CPU I/O wait Stale DataNodes (Yellow) • OSディレクトリにapplication id も含まれるので、du コマンドでジョブの特定も可能となった。
  • 22. 22 [Best Practice] Slave ノードの構成 • この問題のまとめと、Slave 構成に関する Best Practice • SSD を利用し、DataNode と NodeManager の Disk I/O を分離! • Hadoop ジョブの高速化 + 問題ジョブの特定のため。 • すべての Slaves に SSD を追加することにより、根本対応が可能(と見込まれる)。 LastContact of all DNs Usage of SSD for NMs LastContact of slaves without SSD LastContact of slaves with SSD 200 8
  • 23. 23 [NodeManager][Rank B] Load average and CPU idle of Slaves (OS) • Load average (short) + CPU idle • CPU の Utilization や Slave ノードのバランスをみるために重要。 Load average of Slaves CPU idle of Slaves
  • 24. 24 [NameNode][Rank A] Response time of “hdfs dfs –ls /” • Response time of “hdfs dfs -ls /” • NameNode の負荷状況を利用側からモニタリング。 Usage of SSD for NMs
  • 25. 25 [NameNode][HDFS][Rank C] NNTop, UnderReplicatedBlocks • NNTop • NameNode オペレー ション回数と、HDFSク ラスタの負荷がリンクし ないことが多いが、役立 つときもある。 • UnderReplicatedBlocks • HDFS write に関する異 常を検知。 Number of NN operations per user UnderReplicatedBlocks
  • 26. 26 [Hadoop][Rank S] Pending and elapsed time of MR pi job • 最近追加したおすすめグラフ • ジョブのペンディング, メモリ・アローケーション、hdfs write を含めた完了時間。 • クラスタを総合的に利用側からモニタリング。 Pending and longest running job of a yarn queue with MR pi sample job
  • 27. 27 [Hive][Rank B] Response time of “show databases;” • ユーザの Bad クエリによる負荷をモニタリング。 • Cron 監視し、レスポンスが 10分を超えた場合にリスタート。 Hive Response time of “show databases;”
  • 28. 28 [ResourceManager][Rank C] To monitor RM problem • ResourceManager プロセスに問題はないが、スケジューリングに問題がある ケースへの対応。 • AMRegisterDelayNumOps, AMLaunchDelayNumOps, RegisterApplicationMasterNumOps • モニタリングでなく、Yarn クラスタの Health チェックとしては [Rank S] Monitor for RM problem
  • 29. 29 [Slaves][Rank B] Status of DataNodes and NodeManagers • DataNode 、NodeMamager のステータス • DataNode: Dead/Decom/Decommissioning/DecomLive/Stale • NodeManagers: unhealthy/lost/decommissioned Status of DataNodes and NodeManagers
  • 30. 30 [Best Practice] ダッシュボードの配置 for マルチテナント Hadoop クラスタ ① [S] Yarn memory usage per User [A] Running/Pending/Killed/ Failed jobs [S] Yarn memory usage per Queue [A] Response time of “hdfs dfs -ls /” [S] Usage of SSDs for NMs [S] Pending and Running time of MR pi job [S] Counter of LastContact [B] Hive response time of “show databases;” [B] Monitor for RM problem [C] UnderReplicatedBlocks
  • 31. 31 [Best Practice] ダッシュボードの配置 for マルチテナント Hadoop クラスタ ② [B] CPU I/O wait [B] CPU idle [B] DataNodes and NodeManagers [A] Pending jobs per Queue [B] Load average short [A] Longest Pending jobs per Queue [C] Number of NN operations per user [B] Total number of Preempted containers of RUNNING jobs per Queue (Non-AM)
  • 32. 32 3. Other Dashboards for Multi-Tenant Hadoop Cluster
  • 33. 33 [YARN][Rank B][Multi-Tenant] Longest Running Jobs per User/Queue • ユーザやキューごとのジョブの最大実行時間。 • 今日の状況が、過去と比べてどうか?他のユーザと比べてどうか?が見える。 Longest Running jobs of a Queue Longest Running jobs per Queue
  • 34. 34 [HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation • 現在、HDFS small file 問題に対応中。 • ユーザ毎のファイル数、データサイズ、平均サイズ を確認できる。 Number of files per User Total data size per User Average data size per User HDFS usage Number of HDFS files Heap usage
  • 35. 35 [HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation Active NameNode Standby NameNode Batch Server hdfs -oiv Hadoop FSImage file Readable file Create Hive table_raw Hdfs -put scp FSImage file Create (insert) Hive table_date |Path|Replication|ModificationTime|AccessTime|PreferredBlockSize|BlocksCount|FileSize| NSQUOTA|DSQUOTA|Permission|UserName|GroupName| FSImage のフォーマット
  • 36. 36 [HDFS][Multi-Tenant] HDFS small file problem and for Cost allocation • For small file proble 対応のための分析可能 • NameNode の直接的な負荷なしで実行できる。 • ex1) UserA の 1MB 以下のファイル数 • ex2) 1年以上だれもReadしていないファイルのリスト • Cost Allocation • CPU:Memory:# of HDFS files:HDFS data size • すべて Grafana から取得し、ユーザごとのUsageを計算し、コスト配布。 select count(*) from table_date where username=‘userA' and PATH like '/user/userA/%' and permission not like 'd%' and FileSize!='0' and FileSize <'1048576'; insert overwrite directory '/output/older_than_1year' row format delimited fields terminated by '|' stored as textfile select * from table_date where username=‘userA' and permission not like 'd%' and accesstime<'2018-03-14 00:00:00.0' order by path;
  • 38. 38 [Best Practice] 例えば、グラフを単体でみると… • Yarn メモリは 常に 100%、100以上の Pending ジョブも発生している。 • ただ単に、リソースが足りないだけなのか、何か悪いジョブが走っているのかがわからない。
  • 39. 39 [Best Practice] 組み合わせると… • NameNode の レスポンス (hdfs dfs -ls /) には問題がない。 • Test MapReduce ジョブ(sample pi program)のレスポンスにも問題がない。 • 問題は問題だが、他のユーザには ”遅い” 以外の影響は出ていないと判断できる。
  • 40. 40 [Best Practice] マルチテナント Hadoop クラスタのモニタリング • 組み合わせてみること • 1つのグラフを見ていても、あまりわかるこはあまりない。 • 複数のグラフを組み合わせることで、発見/判断できることがある。 • メイン・ダッシュボードは、常に表示させて、常にみられるようにしておくこと。 • 常にみていると、時々、思いついたり、何かが見えてくることがあります。 • また、過去に起こったことがあるか、ないかにより、問題の重要度も見えることがある。 • “Always Improve, Always advance” • 必要に応じて、新しいグラフを作ること。 • グラフの並べ方を、常に工夫すること。 • これらの取り組みで、皆さんにとっての Best なダッシュボードが出来上がると思います!
  • 42. 42 [最重要] Hadoop Administrator 募集! • Hadoop Admin Export 及び、Hadoop DevOpe エンジニアを募集しています。 • Hadoop Admin Export • 新機能、新コンポーネントの検証 / POC / Architect / Design • ユーザのHadoopを利用した新しいサービス導入に対するコンサルティング • Patch 作成、Hadoop オープン・コミュニティへの貢献 • Hadoop DevOps • 運用やオンボーディング・プロセスの自動化・サービス化 • Hadoopクラスタのための CI E-mail : [email protected] http://global.rakuten.com/corp/careers/ [Hadoop Admin] https://talent.rakuten.careers/jobs/administrator-of-hadoop-clusters-and-other-platforms-for-bigdata-1955 [DevOps] https://talent.rakuten.careers/jobs/full-stack-infrastructure-devops-engineer-cloud-platform-department-8210