SlideShare a Scribd company logo
Hadoopことはじめ
〜Hadoopを取り巻く環境とその最新動向〜
2016.03.22 @ これからはじめるHadoop/Spark
Presented By: Katsunori Kanda(@potix2)
CyberAgent Inc.
自己紹介
神田勝規(かんだかつのり)
株式会社サイバーエージェント
アドテクスタジオ 基盤開発グループ
サーバーサイドエンジニア(OS/分散システムが専門)
potix2@twitter/github
※ 毎月LispMeetup(shibuya.lisp)を開催してます
今日話したいこと
• Hadoopを使う動機
• Hadoopの全体像
• 最近のトレンド
• デモ
Hadoopを使う動機
• 大量データを苦労せず高速に処理したい
• 一度溜まったデータを動かすにはコストがかかる
• 溜まっているデータをみんなで使いたい
Q.大量データを高速に
処理するには?
A. ディスクをたくさんならべて分散処理する
ディスクの台数分だけスループットが向上する
ログ 10TBディスク
CPU
メモリ
1台の場合 20台に分散させた場合
500GB 500GB…500GB
読み込みに
1GB/s
で約2.8時間
読み込みに
1GB/s
で8.3分
Hadoopは分散処理に関わる
面倒ごとを引き受けてくれる
Hadoopのシステムスタック
HDFS(Hadoop Distributed File System)
YARN(Cluster Resource Manager)
Hive/Tez SparkMapReduce
Streaming
(Storm/Flink…)
Others…
UserApplications
HDFS
• Hadoop Distributed File Systemの略
• 複数のサーバーにあるディスクを一つの巨大なディ
スクのように見せてくれる
• 自動でレプリケーションも作ってくれるので対障害
性が高い
YARNの役割
HDFS
AM AM
リソース割り当て
(CPU/Mem/IO)
App1(MapReduce) App2(Spark)
Resource
Manager
単一クラスターで複数の分散アプリケーションが稼働できる
単一クラスターのメリット
• リソースが効率的に使用され稼働率が上がる
• 一つのクラスターだけを運用すればいいので運用コ
ストが低減される
• システム間のデータ移動コストがかからなくなる(
c.f. 複数クラスターではコピーが発生する)
Hadoop上で動く分散アプリ
ケーション
• SQL on Hadoop
• Spark SQL, Hive/Tez, Presto, …
• ストリーミング
• Spark Streaming, Storm, Flink, …
• 機械学習
• Spark ML, SystemML, TensorFlow, …
SQL on Hadoop
• 最近は、MapReduce処理を一から書くことはあま
りない
• SQL(っぽい)言語でデータの抽出や集計処理を書く
ことができる
• Jupyter, Apache Zeppelin, re:dashなどノートブッ
ク環境と合わせて使うと便利
ストリーミング
• 開発が活発に行なわれている。Apacheプロジェク
ト内でもいくつあるのか・・・。
• Storm, Spark, Flink, Apex…
• 比較記事:
https://yahooeng.tumblr.com/post/135321837876/b
enchmarking-streaming-computation-engines-at
これからHadoopを使ってみるなら
• クラウド環境から使いはじめてみるのがよい
• S3やGCSをHDFSを通して使える
• AWSなら、EMR
• GCPなら、Cloud Data Proc
デモ
まとめ
• Hadoopは大量データを処理するためのシステム
• HDFS + YARN + 分散アプリケーション
• 用途の異なるアプリが単一クラスターで動く
• 最近はSQLでデータ処理を書けるようになってきた
• これからはじめるならクラウド環境を活用するのが
よい

More Related Content

PDF
Spark Summit 2015 参加報告
Katsunori Kanda
 
PDF
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
PPTX
2014年4月17日 dstnHub発表スライド「dataspiderインターナル:アーキテクチャ編」
dstn
 
PPTX
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
 
PDF
世界一簡単なHadoopの話
Koichi Shimazaki
 
PDF
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
 
PPTX
2015年2月26日 dsthHUB 『オンプレミスとクラウドをシームレスに"つなぐ" 新製品「Thunderbus」の全貌』
dstn
 
PDF
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
 
Spark Summit 2015 参加報告
Katsunori Kanda
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
2014年4月17日 dstnHub発表スライド「dataspiderインターナル:アーキテクチャ編」
dstn
 
リクルートライフスタイルの考える ストリームデータの活かし方(Hadoop Spark Conference2016)
Atsushi Kurumada
 
世界一簡単なHadoopの話
Koichi Shimazaki
 
QConTokyo2015「Sparkを用いたビッグデータ解析 〜後編〜」
Kazuki Taniguchi
 
2015年2月26日 dsthHUB 『オンプレミスとクラウドをシームレスに"つなぐ" 新製品「Thunderbus」の全貌』
dstn
 
Hadoop / Spark Conference Japan 2016 ご挨拶・Hadoopを取り巻く環境
Hadoop / Spark Conference Japan
 

What's hot (20)

PDF
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Keigo Suda
 
PDF
Hadoop Conference Japan 2013 Winter オープニングスライド
hamaken
 
PDF
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
 
PDF
Hadoopの標準GUI HUEの最新情報
Cloudera Japan
 
PDF
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
 
PPTX
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
 
PDF
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
 
PDF
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
 
PDF
Apache Sparkの紹介
Ryuji Tamagawa
 
PPTX
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
 
PPTX
リクルートライフスタイルのデータを支える技術
Yu Yamada
 
PPTX
Pysparkで始めるデータ分析
Tanaka Yuichi
 
PPTX
2015年2月26日 dsthHUB 『DataSpiderインターナル プラガブルアーキテクチャで広がる可能性』
dstn
 
PPTX
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo!デベロッパーネットワーク
 
PPTX
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
 
PPTX
Apache Sparkを使った感情極性分析
Tanaka Yuichi
 
PPTX
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
 
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Tanaka Yuichi
 
PDF
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Naoki (Neo) SATO
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
Keigo Suda
 
Hadoop Conference Japan 2013 Winter オープニングスライド
hamaken
 
Spark MLlibではじめるスケーラブルな機械学習
NTT DATA OSS Professional Services
 
Hadoopの標準GUI HUEの最新情報
Cloudera Japan
 
データ分析に必要なスキルをつけるためのツール~Jupyter notebook、r連携、機械学習からsparkまで~
The Japan DataScientist Society
 
Pythonで入門するApache Spark at PyCon2016
Tatsuya Atsumi
 
ビッグデータ活用を加速する!分散SQLエンジン Spark SQL のご紹介 20161105 OSC Tokyo Fall
YusukeKuramata
 
15.05.21_ビッグデータ分析基盤Sparkの最新動向とその活用-Spark SUMMIT EAST 2015-
LINE Corp.
 
Apache Sparkの紹介
Ryuji Tamagawa
 
大規模分散システムの現在 -- GFS, MapReduce, BigTableはどう変化したか?
maruyama097
 
リクルートライフスタイルのデータを支える技術
Yu Yamada
 
Pysparkで始めるデータ分析
Tanaka Yuichi
 
2015年2月26日 dsthHUB 『DataSpiderインターナル プラガブルアーキテクチャで広がる可能性』
dstn
 
WebDB Forum 2012 基調講演資料
Recruit Technologies
 
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
Yahoo!デベロッパーネットワーク
 
Apache cassandraと apache sparkで作るデータ解析プラットフォーム
Kazutaka Tomita
 
Apache Sparkを使った感情極性分析
Tanaka Yuichi
 
データ分析基盤を支えるエンジニアリング
Recruit Lifestyle Co., Ltd.
 
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
Tanaka Yuichi
 
[Azure Deep Dive] Spark と Azure HDInsight によるビッグ データ分析入門 (2017/03/27)
Naoki (Neo) SATO
 
Ad

Viewers also liked (20)

PDF
Asakusaではじめるhadoop sparkプログラミング
Tadatoshi Sekiguchi
 
PDF
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
 
PDF
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
 
PDF
ビッグじゃなくても使えるSpark Streaming
chibochibo
 
PDF
情報共有から始めるチーム開発とキャリア戦略
Takuya Oikawa
 
PDF
Apache Sparkについて
BrainPad Inc.
 
PDF
Akira shibata at developer summit 2016
Akira Shibata
 
PDF
Spark徹底入門 #cwt2015
Cloudera Japan
 
PDF
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
 
PPTX
Apache Spark チュートリアル
K Yamaguchi
 
PDF
MapReduce入門
Satoshi Noto
 
PDF
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
 
PDF
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Nagato Kasaki
 
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
PDF
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
 
PDF
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
PDF
Spark at Scale
Yuta Imai
 
PPTX
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
 
PDF
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
 
Asakusaではじめるhadoop sparkプログラミング
Tadatoshi Sekiguchi
 
20160127三木会 RDB経験者のためのspark
Ryuji Tamagawa
 
MapReduceを置き換えるSpark 〜HadoopとSparkの統合〜 #cwt2015
Cloudera Japan
 
ビッグじゃなくても使えるSpark Streaming
chibochibo
 
情報共有から始めるチーム開発とキャリア戦略
Takuya Oikawa
 
Apache Sparkについて
BrainPad Inc.
 
Akira shibata at developer summit 2016
Akira Shibata
 
Spark徹底入門 #cwt2015
Cloudera Japan
 
Hadoop最新情報 - YARN, Omni, Drill, Impala, Shark, Vertica - MapR CTO Meetup 2014...
MapR Technologies Japan
 
Apache Spark チュートリアル
K Yamaguchi
 
MapReduce入門
Satoshi Noto
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Future Of Data Japan
 
Sparkを活用したレコメンドエンジンのパフォーマンスチューニング&自動化
Nagato Kasaki
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
Apache Spark の紹介(前半:Sparkのキホン)
NTT DATA OSS Professional Services
 
Apache Spark超入門 (Hadoop / Spark Conference Japan 2016 講演資料)
NTT DATA OSS Professional Services
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
Spark at Scale
Yuta Imai
 
初めてのSpark streaming 〜kafka+sparkstreamingの紹介〜
Tanaka Yuichi
 
Apache Sparkに手を出してヤケドしないための基本 ~「Apache Spark入門より」~ (デブサミ 2016 講演資料)
NTT DATA OSS Professional Services
 
Ad

Similar to Hadoopことはじめ (20)

PDF
Hadoopの概念と基本的知識
Ken SASAKI
 
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
 
PDF
Yifeng hadoop-present-public
Yifeng Jiang
 
PDF
Hadoopとは
Hirokazu Yatsunami
 
PPT
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
 
PDF
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
PDF
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
 
PDF
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Akira Shimosako
 
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
PDF
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
NTT DATA OSS Professional Services
 
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
 
PDF
Apache Hadoopの現在と未来
Yahoo!デベロッパーネットワーク
 
PPT
Hadoop~Yahoo!Japanの活用について
kaminashi
 
PDF
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
 
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
 
PPT
Hadoopの紹介
bigt23
 
PDF
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
 
PPTX
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
 
Hadoopの概念と基本的知識
Ken SASAKI
 
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
Takeshi Mikami
 
Yifeng hadoop-present-public
Yifeng Jiang
 
Hadoopとは
Hirokazu Yatsunami
 
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
 
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
Hadoop Conference Japan_2016 セッション「顧客事例から学んだ、 エンタープライズでの "マジな"Hadoop導入の勘所」
オラクルエンジニア通信
 
IBM版Hadoop - BigInsights/Big SQL (2013/07/26 CLUB DB2発表資料)
Akira Shimosako
 
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
 
並列分散処理基盤Hadoopの紹介と、開発者が語るHadoopの使いどころ (Silicon Valley x 日本 / Tech x Business ...
NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
 
Apache Hadoopの現在と未来
Yahoo!デベロッパーネットワーク
 
Hadoop~Yahoo!Japanの活用について
kaminashi
 
Hadoop ecosystem NTTDATA osc15tk
NTT DATA OSS Professional Services
 
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
NTT DATA OSS Professional Services
 
Hadoopの紹介
bigt23
 
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
 
Hadoop / Elastic MapReduceつまみ食い
Ryuji Tamagawa
 

More from Katsunori Kanda (13)

PDF
Airflow 2.0 migration ガイド
Katsunori Kanda
 
PDF
Web Privacy Survival Guide
Katsunori Kanda
 
PDF
Airflowを広告データのワークフローエンジンとして運用してみた話
Katsunori Kanda
 
PPTX
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
Katsunori Kanda
 
PDF
GCSでstatic web hosting
Katsunori Kanda
 
PDF
Dockerだけではないコンテナのはなし
Katsunori Kanda
 
PDF
RealSenseを使ってCrazyflieを自律飛行させてみた
Katsunori Kanda
 
PDF
KINECT WITH ROS
Katsunori Kanda
 
PDF
Docker超入門
Katsunori Kanda
 
PDF
データファースト開発
Katsunori Kanda
 
PDF
20150207 何故scalaを選んだのか
Katsunori Kanda
 
PDF
Discretized Streams: Fault-Tolerant Streaming Computation at Scaleの解説
Katsunori Kanda
 
KEY
自動テストのすすめ
Katsunori Kanda
 
Airflow 2.0 migration ガイド
Katsunori Kanda
 
Web Privacy Survival Guide
Katsunori Kanda
 
Airflowを広告データのワークフローエンジンとして運用してみた話
Katsunori Kanda
 
BazelでビルドしたアプリをGCPにデプロイしようとしてハマった話
Katsunori Kanda
 
GCSでstatic web hosting
Katsunori Kanda
 
Dockerだけではないコンテナのはなし
Katsunori Kanda
 
RealSenseを使ってCrazyflieを自律飛行させてみた
Katsunori Kanda
 
KINECT WITH ROS
Katsunori Kanda
 
Docker超入門
Katsunori Kanda
 
データファースト開発
Katsunori Kanda
 
20150207 何故scalaを選んだのか
Katsunori Kanda
 
Discretized Streams: Fault-Tolerant Streaming Computation at Scaleの解説
Katsunori Kanda
 
自動テストのすすめ
Katsunori Kanda
 

Recently uploaded (11)

PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
PDF
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
 
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
 
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
 
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
 
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
 
20250729_Devin-for-Enterprise
Masaki Yamakawa
 
LoRaWAN ウェザーステーションキット v3 -WSC3-L 日本語ユーザーマニュアル
CRI Japan, Inc.
 
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
 
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
 
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
 
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
 

Hadoopことはじめ