SlideShare a Scribd company logo
Hadoopの今とこれから
Yifeng Jiang
Solutions Engineer, Hortonworks
2015/10/15
© Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
自己紹介
蒋 逸峰 (Yifeng Jiang)
•  Solutions Engineer, Hortonworks
•  Apache HBase本の作者
•  ⽇本に来て10年経ちました…
•  趣味は⼭登り
•  Twitter: @uprush
Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Hadoopコミュニティのアクティビティ
コード⾏数の増加
http://ajisakaa.blogspot.jp
Hortoworksのオープンリーダーシップ
組織毎のコード貢献(2014年)
Hortonworks
Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HortonworksのApache
コミュニティに対する影響力
コミッターの多くがHortonworks社員
-- Apache® Hadoop™プロジェクトの
全コミッターの1/3、および他の重要プロジェクト
のコミッターの大多数を占める
Hortonworksコミッターの役割
Open Enterprise Hadoopの革新と拡張
Hadoopロードマップに対する影響力
リーダーを通じて、重要な要件をコミュニティに
伝達
A PA C H E H A D O O P の コ ミ ッ タ ー
About Hortonworks
顧客
•  556 のお客様 (2015年8月5日時点)
•  2015年2期に119 新規お客様追加
•  NASDAQに上場(HDP)
Hortonworks Data Platform
•  完全にオープンなマルチテナント プラット
フォーム。あらゆるデータ、あらゆるアプリ。
•  一貫したエンタプライズ サービス:セキュリ
ティ、オペレーション、ガバナンス
お客様のためのパートナー
•  オープンソース コミュニティのリーダー、エ
ンタプライズ要件を満たすための革新に注力
•  比類のないHadoopのサポートサブスクリプ
ション
Founded in 2011
Original 24 architects, developers,
operators of Hadoop from Yahoo!
740+
E M P L O Y E E S
1350+
E C O S Y S T E M
PA R T N E R S
Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や
コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま
れている。
Social
Mapping
Payment
Tracking
Factory
Yields
Defect
Detection
Call
Analysis
Machine
Data
Product
Design
M & A
Due
Diligence
Next
Product
Recs
Store
Design
Risk
Modeling
Ad
Placement
Proactive
Repair
Disaster
Mitigation
Investment
Planning
Inventory
Predictions
Customer
Support
Sentiment
Analysis
Supply
Chain
Ad
Placement
Basket
Analysis
Segments
Cross-
Sell
Customer
Retention
Vendor
Scorecards
Optimize
Inventories
OPEX
Reduction
Mainframe
Offloads
Historical
Records
Data
as a
Service
Public
Data
Capture
Fraud
Prevention
Device
Data
Ingest
Rapid
Reporting
Digital
Protection
Hortonworks Data Platform (HDP)
Open Enterprise Hadoop
Open
Enterprise
Hadoop
オープン
相互運用性
一元化
万全の対応
Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Open
Enterprise
Hadoop
Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
一元化	
万全の対応
オープン
Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
完全にオープンな
Hortonworks Data Platform
リスクの解消
完全なオープンソースであるApache技術を提
供することで、ベンダー固定化のリスクを解消
コミュニティイノベーションの最大化
数百社の企業の数百人の開発者により、
コミュニティイノベーションを最大化
シームレスな統合
共同エンジニアリングの取り組みを通して、
他の先進技術を統合	
コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 	
イ ノ ベ ー シ ョ ン の
優 位 性
独自の HADOOP
時間 イノベーション
オープンコミュニティ
Open
Enterprise
Hadoop
Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
相互運用性
万全な対応
オープン
一元化
YA R N
データオペレーティングシステム
オペレーション セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
プラットフォーム一元化
オペレーション、ガバナンス、セキュリティ
多様なアプリケーション
単一クラスタで同時実行
データ取り込みの最大化
ローフォーマットかどうかに関係なく、新旧の
ソースに対応
ビッグデータ資産の共有
すべての事業部門、機能部門、ユーザー間で
の共有
YARN ベースのアーキテクチャによるプラットフォーム一元化
Open
Enterprise
Hadoop
万全な対応
オープン
相互運用性
一元化	
© Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
最大限の柔軟性を提供
あ ら ゆ る デ ー タ
新旧のデータセット
あ ら ゆ る ア プ リ ケ ー シ ョ ン
複数のデータ分析エンジン
あ ら ゆ る 場 所
あらゆる環境に対応
バッチ
インタラクティブ
検索
ストリーミング
機械学習	
クリック
ストリーム
センサー
ソーシャル モバイル
ジオ
ロケーション
サーバ
ログ Linux Windows
クラウドオンプレミス
業界標準との同期
エコシステム相互運用性の向上
Hortonworksが立ち上げたOpen Data
Platform(ODP)イニシアティブの一環
選択肢の開放
HDPと統合された複数のベンダーのコンポーネ
ントを選択可能
無駄な当て推量の解消
システムバージョンの調整を行う必要がある
アーキテクトに対するメリット
HDP
Apache Hadoop対応
オープン
プラットフォーム
Pivotal HD
IIPApache
Hadoop
Apache
Ambari
O D P コ ア
エコシステムとの統合
パートナー
Open
Enterprise
Hadoop
Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
オープン
一元化	
相互運用性
万全な対応
信頼できるガバナンス
データ管理
データライフサイクル全般における管理
メタデータによるモデリング
ハイブリッドアプローチにより総合的なデータリ
ネージが実現
相互運用ソリューション
共通のメタデータストアにより、Hadoopエコシス
テム全体で相互運用が可能
オペレーション セキュリティ
GOVERNANCEガバナンス	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
Apache Atlas – データガバナンスのための基盤
Rest API
Atlasサービス、 HDPコンポーネント、外部ツールへ
の柔軟なアクセスが可能
SQLのようなドメイン特化型言語を使った検索
キーワード、ファセット、フルテキストによる検索
データリネージとスキーマ
HiveServer2上のすべてのSQLランタイムアクティビ
ティを取得
エクスチェンジ
既存のメタデータのインポートと、ダウンストリームシ
ステムへのメタデータのエクスポート
Apache Atlas
ナレッジストア
監査ストア
モデル型システム
ポリシールール分類
タグベースのポリシー
データライフサイクル
管理
リアルタイムのタグベースアクセス制御
REST API
サービス
検索 リネージ エクスチェンジ
ヘルスケア
HIPAA
HL7
l金融
SOX
Dodd-Frank
エネルギー
PPDM
小売業
PCI
PII
その他
CWM
YA R N
データオペレーティングシステム
OPERATIONS セキュリティ
ガバナンス
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用
一元化
Hadoopクラスタの管理・監視
自動プロビジョニング
Cloudbreak APIにより、オンプレミスかクラウド
のいずれかの環境に数分でクラスタをプロビ
ジョニング
マネージドサービス
ダッシュボードとアラート機能により、高可用性
と一貫したライフサイクル管理を提供
オペレーション
包括的なセキュリティ
包括的なセキュリティ
プラットフォームアプローチによるセキュリティ
暗号化
保存データと移動中のデータの暗号化
管理の一元化
セキュリティポリシーとユーザー認証の管理
きめ細かな承認
データアクセスを管理
オペレーション	 SECURITY
ガバナンス	
セキュリティ	
YA R N
データオペレーティングシステム
ストレージ
ストレージ
機械学習バッチ
ストリーミン
グ
インタラクティ
ブ
検索
安定した運用と包括的なセキュリティ
安定した運用
容易なセットアップと設定
リアルタイムのカスタマイズが可能なダッシュ
ボード
包括的なセキュリティ
すべてのコンポーネントの承認と監査
HDFSの透過的なデータ暗号化
Apache Ambari Apache Ranger
© Hortonworks Inc. 2015. All Rights Reserved
ビッグデータの技術革新
~ Hadoop Core ~
Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSとYARN – イノベーションの基盤
Hadoop / YARNを用いたデータオペレーティングシステム
あらゆるアプリケーション、データセット、環境に対応する、
100%オープンソースのマルチテナント型データプラットフォーム
共有エンタープライズサービスの集中型アーキテクチャをベース
に構築
拡張可能な階層型ストレージ
リソース/ワークロード管理
信頼性に優れたデータガバナンスとメタデータ管理
安定した運用
包括的なセキュリティ
開発者向けAPIとツール
YARN
ガバナンス セキュリティ	
オペレーション
リソース管理
ストレージ
コモディティ アプライアンス クラウド
データアクセス:バッチ、インタラクティブ、リアルタイム
Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム
拡張性
データの増加にあわせて水平方向に拡張し、1つ以上の
ノードを1度に追加
信頼性
高可用性(HA)とフォルトトレラント性により、データの
損失と破損を防止
コスト効率
階層型ストレージで汎用ハードウェアを採用
クロスワークロードアクセス
安全性
強力なアクセス制御と認証メカニズムの統合
すべてのユーザー/グループのデータセットへのアクセス
を細かく制御
移動中のデータ/保存データを保護
HDFS
YARN:データオペレーティングシステム
C A B C B B A C
B A B A C A
標準ベースの
データインターフェイス
NFS
発信元/
発信先
REST
RPC
発信元/
発信先
発信元/
発信先
あらゆるフォーマットのあらゆるデータを取り込み、保管
柔軟なリードアクセスにより多様なワークロードに対応
Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFSのエンタプライズ機能
エンタプライズ機能
•  Namenode HA(冗⻑化)
•  単⼀障害点がない
•  ファイル システム スナップショット
•  HDFS NFS Gateway
•  HDFSをNFSマウント、データを簡単にHadoopに
•  データ暗号化 (HDFS TDE)
•  データを置くだけで⾃動暗号化
Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDFS -- 大規模向け更に効率アップ
⼤規模向け
•  ティア・ストレージ
•  HDD, SSD, アーカイブ, RAM Disk
•  アーカイブ・ティア:コストが最⼤1/6までダウン
•  Erasure Code
•  ⽇本のエンジニアからの貢献が⼤きい
•  3レプリケーションと⽐べ、ストレージ効率が2倍
Cluster Storage and Compute Capacity
Cluster Storage Utilization
Compute Utilization
Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARNにおけるマルチテナント/ワークロード
Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
HDP 2.3内のApache Spark 1.4.1
完璧な組み合わせ
セキュリティ、
プラットフォーム統合、
Zepplinによる可視化など
リソース管理 – Spark on YARN	
マルチテナントワークロードと予測可能なSLA
SparkR*
RデータサイエンティストはSpark機械学習を活用
可能
アプリケーション	
ガバナンスと統合	
セキュリティ	
オペレーション	
YARN
HDFS
	
Scala
Java
Python
API
Sparkコアエンジン	Sparkコアエンジン	
Spark
SQL
Spark
Streaming
MLlib GraphX
Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Apache Zeppelinについて	 インタラクティブな分析を可能にする
Webベースのノートブック
特徴
アドホックな実験
Spark + Hadoopとの緊密な統合
複数の⾔語バックエンドをサポート
Apacheでのインキュベート
ユースケース
データの探索と発⾒
データの視覚化
インタラクティブなスニペット⼀括処
理
「モダンデータサイエンススタジオ」
Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
YARN - エコシステムの拡大
		
YARN:データオペレーティングシステム	
データアクセス
1	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	 °	 °	 °	 °	 °	 °	 °	 °	 °	
°	
N	
HDFS Hadoop Distributed File System
データ管理
環境の選択肢	
Linux Windows オンプレミス クラウド
バッチ
MapReduce
スクリプト
Pig
検索
Solr
SQL
Hive
NoSQL
HBase
Accumulo
Phoenix
ストリーム
Storm
インメモリ
Spark
その他
ISVエンジン
Tez Tez Slider Slider
SAS統合
SASで、Hadoopからのデータの取り出し、
Hadoopを利用したインメモリ処理、 Hadoop
クラスタ内での直接動作が可能に
Slider
Hbase、Accumolo、StormなどのSlider経由で
YARN上のDocker化アプリケーションを実行
Solr
HDP 2.3を利用して Solr検索エンジンをYARN
上で実行できるように
YARNとDocker
セキュアなクラスタおよびアンセキュアなクラス
タでコンテナを実行するための透過的な方法
Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Data Operating System
Enable all data and applications
TO BE
accessible and shared
BY
any end-user
Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
Page 37 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
サンドボックスをダウンロードし、試し
てみてください:
hortonworks.com/sandbox
Page 38 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
Thank You

More Related Content

PDF
Yifeng spark-final-public
Yifeng Jiang
 
PDF
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
 
PDF
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
 
PDF
HDP Security Overview
Yifeng Jiang
 
PDF
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
DataWorks Summit
 
PDF
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
 
PDF
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
 
PDF
Data Science on Hadoop
Yifeng Jiang
 
Yifeng spark-final-public
Yifeng Jiang
 
Hive-sub-second-sql-on-hadoop-public
Yifeng Jiang
 
Apache Ambari Overview -- Hadoop for Everyone
Yifeng Jiang
 
HDP Security Overview
Yifeng Jiang
 
Start of a New era: Apache YARN 3.1 and Apache HBase 2.0
DataWorks Summit
 
Hiveを高速化するLLAP
Yahoo!デベロッパーネットワーク
 
Hadoop最新事情とHortonworks Data Platform
Yuta Imai
 
Data Science on Hadoop
Yifeng Jiang
 

What's hot (20)

PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
PDF
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
PDF
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
 
PDF
Deep Learning On Apache Spark
Yuta Imai
 
PDF
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
PDF
IoTアプリケーションで利用するApache NiFi
Yuta Imai
 
PDF
Apache ambari
Yuta Imai
 
PDF
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
PDF
Apache Hiveの今とこれから - 2016
Yuta Imai
 
PPTX
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
PPTX
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
 
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
 
PDF
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
 
PPTX
A Benchmark Test on Presto, Spark Sql and Hive on Tez
Gw Liu
 
PDF
HiveとImpalaのおいしいとこ取り
Yukinori Suda
 
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
 
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
 
PDF
CDH5最新情報 #cwt2013
Cloudera Japan
 
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
 
sparksql-hive-bench-by-nec-hwx-at-hcj16
Yifeng Jiang
 
Introduction to Hadoop and Spark (before joining the other talk) and An Overv...
DataWorks Summit/Hadoop Summit
 
Hadoop/Spark セルフサービス系の事例まとめ
Yuta Imai
 
Deep Learning On Apache Spark
Yuta Imai
 
Apache NiFiで、楽して、つながる、広がる IoTプロジェクト
Koji Kawamura
 
IoTアプリケーションで利用するApache NiFi
Yuta Imai
 
Apache ambari
Yuta Imai
 
HDInsight & CosmosDB - Global IoT · Big data processing infrastructure
DataWorks Summit
 
Apache Hiveの今とこれから - 2016
Yuta Imai
 
The truth about SQL and Data Warehousing on Hadoop
DataWorks Summit/Hadoop Summit
 
Struggle against crossdomain data complexity in Recruit Group
DataWorks Summit/Hadoop Summit
 
Deep Dive into Spark SQL with Advanced Performance Tuning
Takuya UESHIN
 
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
Koji Shinkubo
 
Impala概要 道玄坂LT祭り 20150312 #dogenzakalt
Cloudera Japan
 
A Benchmark Test on Presto, Spark Sql and Hive on Tez
Gw Liu
 
HiveとImpalaのおいしいとこ取り
Yukinori Suda
 
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
Treasure Data, Inc.
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
 
CDH5最新情報 #cwt2013
Cloudera Japan
 
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
Sho Shimauchi
 
Ad

Similar to Yifeng hadoop-present-public (20)

PDF
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
PDF
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
PDF
Spark at Scale
Yuta Imai
 
PDF
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
PDF
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
PDF
Apache Hadoopの現在と未来
Yahoo!デベロッパーネットワーク
 
PDF
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
PDF
リクルート式Hadoopの使い方
Recruit Technologies
 
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
 
PPT
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
PDF
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
PDF
OLAP options on Hadoop
Yuta Imai
 
PPTX
Hwx勉強会0730
Joutaro Ooura
 
PPTX
20140711 evf2014 hadoop_recommendmachinelearning
Takumi Yoshida
 
PPTX
Cloudera大阪セミナー 20130219
Cloudera Japan
 
PPT
Hadoop~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
PDF
Hortonworksが提供する データ活用方法の紹介
Kimihiko Kitase
 
PDF
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
 
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 
PDF
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
 
Hadoop Trends & Hadoop on EC2
Yifeng Jiang
 
クラウドにおけるビッグデータ分析環境
Kimihiko Kitase
 
Spark at Scale
Yuta Imai
 
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
 
Apache Hadoopの現在と未来
Yahoo!デベロッパーネットワーク
 
Apache Big Data Miami 2017 - Hadoop Source Code Reading #23 #hadoopreading
Yahoo!デベロッパーネットワーク
 
リクルート式Hadoopの使い方
Recruit Technologies
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
 
Hadoop ~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
OLAP options on Hadoop
Yuta Imai
 
Hwx勉強会0730
Joutaro Ooura
 
20140711 evf2014 hadoop_recommendmachinelearning
Takumi Yoshida
 
Cloudera大阪セミナー 20130219
Cloudera Japan
 
Hadoop~Yahoo! JAPANの活用について~
Yahoo!デベロッパーネットワーク
 
Hortonworksが提供する データ活用方法の紹介
Kimihiko Kitase
 
Apache Hadoop and YARN, current development status
NTT DATA OSS Professional Services
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
Developers Summit
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
 
Ad

More from Yifeng Jiang (16)

PDF
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
 
PDF
introduction-to-apache-kafka
Yifeng Jiang
 
PDF
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
 
PDF
Introduction to Streaming Analytics Manager
Yifeng Jiang
 
PDF
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
 
PDF
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
 
PDF
Spark Security
Yifeng Jiang
 
PDF
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
 
PDF
Real-time Analytics in Financial
Yifeng Jiang
 
PDF
Nifi workshop
Yifeng Jiang
 
PDF
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
 
PDF
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
 
PPTX
Hive present-and-feature-shanghai
Yifeng Jiang
 
PDF
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
 
PDF
Apache Hiveの今とこれから
Yifeng Jiang
 
PDF
HDFS Deep Dive
Yifeng Jiang
 
Hive spark-s3acommitter-hbase-nfs
Yifeng Jiang
 
introduction-to-apache-kafka
Yifeng Jiang
 
Hive2 Introduction -- Interactive SQL for Big Data
Yifeng Jiang
 
Introduction to Streaming Analytics Manager
Yifeng Jiang
 
HDF 3.0 IoT Platform for Everyone
Yifeng Jiang
 
Hortonworks Data Cloud for AWS 1.11 Updates
Yifeng Jiang
 
Spark Security
Yifeng Jiang
 
Introduction to Hortonworks Data Cloud for AWS
Yifeng Jiang
 
Real-time Analytics in Financial
Yifeng Jiang
 
Nifi workshop
Yifeng Jiang
 
Sub-second-sql-on-hadoop-at-scale
Yifeng Jiang
 
Kinesis vs-kafka-and-kafka-deep-dive
Yifeng Jiang
 
Hive present-and-feature-shanghai
Yifeng Jiang
 
Hadoop Present - Open Enterprise Hadoop
Yifeng Jiang
 
Apache Hiveの今とこれから
Yifeng Jiang
 
HDFS Deep Dive
Yifeng Jiang
 

Yifeng hadoop-present-public

  • 1. Hadoopの今とこれから Yifeng Jiang Solutions Engineer, Hortonworks 2015/10/15 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 2. Page 2 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 自己紹介 蒋 逸峰 (Yifeng Jiang) •  Solutions Engineer, Hortonworks •  Apache HBase本の作者 •  ⽇本に来て10年経ちました… •  趣味は⼭登り •  Twitter: @uprush
  • 3. Page 3 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 4. Page 4 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Hadoopコミュニティのアクティビティ コード⾏数の増加 http://ajisakaa.blogspot.jp
  • 6. Page 6 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HortonworksのApache コミュニティに対する影響力 コミッターの多くがHortonworks社員 -- Apache® Hadoop™プロジェクトの 全コミッターの1/3、および他の重要プロジェクト のコミッターの大多数を占める Hortonworksコミッターの役割 Open Enterprise Hadoopの革新と拡張 Hadoopロードマップに対する影響力 リーダーを通じて、重要な要件をコミュニティに 伝達 A PA C H E H A D O O P の コ ミ ッ タ ー
  • 7. About Hortonworks 顧客 •  556 のお客様 (2015年8月5日時点) •  2015年2期に119 新規お客様追加 •  NASDAQに上場(HDP) Hortonworks Data Platform •  完全にオープンなマルチテナント プラット フォーム。あらゆるデータ、あらゆるアプリ。 •  一貫したエンタプライズ サービス:セキュリ ティ、オペレーション、ガバナンス お客様のためのパートナー •  オープンソース コミュニティのリーダー、エ ンタプライズ要件を満たすための革新に注力 •  比類のないHadoopのサポートサブスクリプ ション Founded in 2011 Original 24 architects, developers, operators of Hadoop from Yahoo! 740+ E M P L O Y E E S 1350+ E C O S Y S T E M PA R T N E R S
  • 8. Page 8 © Hortonworks Inc. 2011 – 2015. All Rights Reserved お客様は、Hortonworks®のテクノロジーを利用してビジネスの変革を図り、新たな事業目標の達成や コストの削減を目指している。ユースケースの多くで、カスタマージャーニーに両方の目標が組み込ま れている。 Social Mapping Payment Tracking Factory Yields Defect Detection Call Analysis Machine Data Product Design M & A Due Diligence Next Product Recs Store Design Risk Modeling Ad Placement Proactive Repair Disaster Mitigation Investment Planning Inventory Predictions Customer Support Sentiment Analysis Supply Chain Ad Placement Basket Analysis Segments Cross- Sell Customer Retention Vendor Scorecards Optimize Inventories OPEX Reduction Mainframe Offloads Historical Records Data as a Service Public Data Capture Fraud Prevention Device Data Ingest Rapid Reporting Digital Protection
  • 9. Hortonworks Data Platform (HDP) Open Enterprise Hadoop
  • 10. Open Enterprise Hadoop オープン 相互運用性 一元化 万全の対応 Page 10 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow
  • 11. Open Enterprise Hadoop Page 11 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 一元化 万全の対応 オープン
  • 12. Page 12 © Hortonworks Inc. 2011 – 2015. All Rights Reserved 完全にオープンな Hortonworks Data Platform リスクの解消 完全なオープンソースであるApache技術を提 供することで、ベンダー固定化のリスクを解消 コミュニティイノベーションの最大化 数百社の企業の数百人の開発者により、 コミュニティイノベーションを最大化 シームレスな統合 共同エンジニアリングの取り組みを通して、 他の先進技術を統合 コ ミ ュ ニ テ ィ イ ノ ベ ー シ ョ ン の 最 大 化 イ ノ ベ ー シ ョ ン の 優 位 性 独自の HADOOP 時間 イノベーション オープンコミュニティ
  • 13. Open Enterprise Hadoop Page 13 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow 相互運用性 万全な対応 オープン 一元化
  • 14. YA R N データオペレーティングシステム オペレーション セキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 プラットフォーム一元化 オペレーション、ガバナンス、セキュリティ 多様なアプリケーション 単一クラスタで同時実行 データ取り込みの最大化 ローフォーマットかどうかに関係なく、新旧の ソースに対応 ビッグデータ資産の共有 すべての事業部門、機能部門、ユーザー間で の共有 YARN ベースのアーキテクチャによるプラットフォーム一元化
  • 16. 最大限の柔軟性を提供 あ ら ゆ る デ ー タ 新旧のデータセット あ ら ゆ る ア プ リ ケ ー シ ョ ン 複数のデータ分析エンジン あ ら ゆ る 場 所 あらゆる環境に対応 バッチ インタラクティブ 検索 ストリーミング 機械学習 クリック ストリーム センサー ソーシャル モバイル ジオ ロケーション サーバ ログ Linux Windows クラウドオンプレミス
  • 19. Open Enterprise Hadoop Page 19 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow オープン 一元化 相互運用性 万全な対応
  • 21. Apache Atlas – データガバナンスのための基盤 Rest API Atlasサービス、 HDPコンポーネント、外部ツールへ の柔軟なアクセスが可能 SQLのようなドメイン特化型言語を使った検索 キーワード、ファセット、フルテキストによる検索 データリネージとスキーマ HiveServer2上のすべてのSQLランタイムアクティビ ティを取得 エクスチェンジ 既存のメタデータのインポートと、ダウンストリームシ ステムへのメタデータのエクスポート Apache Atlas ナレッジストア 監査ストア モデル型システム ポリシールール分類 タグベースのポリシー データライフサイクル 管理 リアルタイムのタグベースアクセス制御 REST API サービス 検索 リネージ エクスチェンジ ヘルスケア HIPAA HL7 l金融 SOX Dodd-Frank エネルギー PPDM 小売業 PCI PII その他 CWM
  • 22. YA R N データオペレーティングシステム OPERATIONS セキュリティ ガバナンス ストレージ ストレージ 機械学習バッチ ストリーミン グ インタラクティ ブ 検索 安定した運用 一元化 Hadoopクラスタの管理・監視 自動プロビジョニング Cloudbreak APIにより、オンプレミスかクラウド のいずれかの環境に数分でクラスタをプロビ ジョニング マネージドサービス ダッシュボードとアラート機能により、高可用性 と一貫したライフサイクル管理を提供 オペレーション
  • 25. © Hortonworks Inc. 2015. All Rights Reserved ビッグデータの技術革新 ~ Hadoop Core ~ Page 25 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 26. Page 26 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSとYARN – イノベーションの基盤 Hadoop / YARNを用いたデータオペレーティングシステム あらゆるアプリケーション、データセット、環境に対応する、 100%オープンソースのマルチテナント型データプラットフォーム 共有エンタープライズサービスの集中型アーキテクチャをベース に構築 拡張可能な階層型ストレージ リソース/ワークロード管理 信頼性に優れたデータガバナンスとメタデータ管理 安定した運用 包括的なセキュリティ 開発者向けAPIとツール YARN ガバナンス セキュリティ オペレーション リソース管理 ストレージ コモディティ アプライアンス クラウド データアクセス:バッチ、インタラクティブ、リアルタイム
  • 27. Page 27 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS:拡張性、信頼性、安全性に優れたストレージプラットフォーム 拡張性 データの増加にあわせて水平方向に拡張し、1つ以上の ノードを1度に追加 信頼性 高可用性(HA)とフォルトトレラント性により、データの 損失と破損を防止 コスト効率 階層型ストレージで汎用ハードウェアを採用 クロスワークロードアクセス 安全性 強力なアクセス制御と認証メカニズムの統合 すべてのユーザー/グループのデータセットへのアクセス を細かく制御 移動中のデータ/保存データを保護 HDFS YARN:データオペレーティングシステム C A B C B B A C B A B A C A 標準ベースの データインターフェイス NFS 発信元/ 発信先 REST RPC 発信元/ 発信先 発信元/ 発信先 あらゆるフォーマットのあらゆるデータを取り込み、保管 柔軟なリードアクセスにより多様なワークロードに対応
  • 28. Page 28 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFSのエンタプライズ機能 エンタプライズ機能 •  Namenode HA(冗⻑化) •  単⼀障害点がない •  ファイル システム スナップショット •  HDFS NFS Gateway •  HDFSをNFSマウント、データを簡単にHadoopに •  データ暗号化 (HDFS TDE) •  データを置くだけで⾃動暗号化
  • 29. Page 29 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDFS -- 大規模向け更に効率アップ ⼤規模向け •  ティア・ストレージ •  HDD, SSD, アーカイブ, RAM Disk •  アーカイブ・ティア:コストが最⼤1/6までダウン •  Erasure Code •  ⽇本のエンジニアからの貢献が⼤きい •  3レプリケーションと⽐べ、ストレージ効率が2倍 Cluster Storage and Compute Capacity Cluster Storage Utilization Compute Utilization
  • 30. Page 30 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARNにおけるマルチテナント/ワークロード
  • 31. Page 31 © Hortonworks Inc. 2011 – 2015. All Rights Reserved HDP 2.3内のApache Spark 1.4.1 完璧な組み合わせ セキュリティ、 プラットフォーム統合、 Zepplinによる可視化など リソース管理 – Spark on YARN マルチテナントワークロードと予測可能なSLA SparkR* RデータサイエンティストはSpark機械学習を活用 可能 アプリケーション ガバナンスと統合 セキュリティ オペレーション YARN HDFS Scala Java Python API Sparkコアエンジン Sparkコアエンジン Spark SQL Spark Streaming MLlib GraphX
  • 32. Page 32 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Apache Zeppelinについて インタラクティブな分析を可能にする Webベースのノートブック 特徴 アドホックな実験 Spark + Hadoopとの緊密な統合 複数の⾔語バックエンドをサポート Apacheでのインキュベート ユースケース データの探索と発⾒ データの視覚化 インタラクティブなスニペット⼀括処 理 「モダンデータサイエンススタジオ」
  • 33. Page 33 © Hortonworks Inc. 2011 – 2015. All Rights Reserved YARN - エコシステムの拡大 YARN:データオペレーティングシステム データアクセス 1 ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° ° N HDFS Hadoop Distributed File System データ管理 環境の選択肢 Linux Windows オンプレミス クラウド バッチ MapReduce スクリプト Pig 検索 Solr SQL Hive NoSQL HBase Accumulo Phoenix ストリーム Storm インメモリ Spark その他 ISVエンジン Tez Tez Slider Slider SAS統合 SASで、Hadoopからのデータの取り出し、 Hadoopを利用したインメモリ処理、 Hadoop クラスタ内での直接動作が可能に Slider Hbase、Accumolo、StormなどのSlider経由で YARN上のDocker化アプリケーションを実行 Solr HDP 2.3を利用して Solr検索エンジンをYARN 上で実行できるように YARNとDocker セキュアなクラスタおよびアンセキュアなクラス タでコンテナを実行するための透過的な方法
  • 34. Page 34 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Data Operating System Enable all data and applications TO BE accessible and shared BY any end-user
  • 35. Page 35 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 36. Page 36 © Hortonworks Inc. 2011 – 2015. All Rights Reserved
  • 37. Page 37 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 37 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow サンドボックスをダウンロードし、試し てみてください: hortonworks.com/sandbox
  • 38. Page 38 © Hortonworks Inc. 2011 – 2015. All Rights ReservedPage 38 © Hortonworks Inc. 2011 – 2015. All Rights Reserved Tweet: #hadooproadshow Thank You