SlideShare a Scribd company logo
淺談大數據平台安全現況
Introduction to
Big Data Platform Security
Jazz Yao Tsung Wang
<http://about.me/jazzwang>
2016/7/12 1CSA Summit 2016
About Me
• 王耀聰 Jazz Wang
• 資安門外漢 /交大電控碩士
• 前 Etu Manager 產品協理
• 現任 TenMax Data Architect
• Hadoop.TW 共同創辦人
• HadoopCon 社群年會總召
• Hadoop The Definitive Guide 譯者
• Hadoop Operations 譯者
• 自由軟體愛好者 / 推廣者 / 開發者
• http://about.me/jazzwang - slideshare, github, etc.
2016/7/12 2CSA Summit 2016
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 3CSA Summit 2016
Gartner Hype Cycle 2014
2016/7/12 CSA Summit 2016 4
萌芽期 夢幻期 幻滅期 平原期 高原期
Cloud Computing
Big Data
Internet of Things
Gartner Hype Cycle 2015
2016/7/12 CSA Summit 2016 5
萌芽期 夢幻期 幻滅期 平原期 高原期
“ Hybrid ’’
Cloud Computing
Internet of Things
VR
AR
Big Data 退燒 畢業了!!
隱身進入以下領域:
• Internet of Things ( 物聯網 )
• Business Intelligence and Analytics ( 商業智慧 )
• Enterprise Architecture
• Web-Scale IT
• Digital Banking Transformation ( 數位金融 )
• Utility Industry IT
• CRM Customer Service and Customer Engagement
• CRM Marketing Applications
• Digital Commerce ( 電子商務 )
6
導入 Big Data 到底是想要?還是需要?
2016/7/12 CSA Summit 2016 7
Open Data資料集
分析資料的合法性
資料鑑價?
個資法
商業模式
金礦
開採權
含金度
提煉廠 分析平台與工具軟體 SMAQ
開採成本 總擁有成本 軟硬體投資
國際金價 提供給客戶的價值 產品通路






2016 年剛好是”跨越鴻溝”的時間點
2016/7/12 CSA Summit 2016 8
企業導入 Big Data 的四個階段
2016/7/12 CSA Summit 2016 9
專案規劃
大數據
平台建置
大數據
平台資安
大數據
品質管制
台灣只有極少數
創新者在這個位置
Innovators
台灣開始有一些追隨者在這個位置
Early Majority
但往往問題是“剛開始蒐集數據”或
”剛開始思考如何讓數據產生價值”
台灣只有少數
先行者在這個位置
Early Adopters
今天談大數據平台資安只是
預告後面的路還很崎嶇…..
Big Data 專案規劃的六頂思考帽
• 問題一:組織想要解決什麼商業問題 ?? ( Value )
可以用資料解決嗎 ?? ( 降低成本 or 增加收益 )
• 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料??
該如何獲得 ?? 有哪些型態 ?? ( Variety )
• 問題三:分析這些資料是否合乎法規需求 ??
有無需要事先聲明的保護條款 ?? ( Legality )
• 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ??
需要多少資料才能找到答案 ?? ( Volume , Veracity )
• 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術
定義多快找到答案才能解決商業問題 ( Velocity )
• 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? )
持續改善的時程藍圖 ( Validation , Roadmap )
2016/7/12 CSA Summit 2016 10
專案規劃
大數據平台建置的三個面向
2016/7/12 CSA Summit 2016 11
影片
自訂
Flume
HDFS
Map
Reduce
Hive
(Cold)
Mobile
App
照片
錄音
日誌檔 Log
網頁 HTML
交換檔
XML, Json
syslog
FTP
Scribe
Fluentd HBase
File Input /
Output
Format
FS
Shell
Web
HDFS
Thrift
Java
API
Pig
Mahout
Oozie
Impala
(Warm)
Sqoop
生 流 蒐 存 取 算 析 用 看
資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀
變
行動
Engineer
(電機)
Network
(網通)
System
Admin
DBA
(資管)
Programmer
(資工)
Analyst
(統計)
Decision
Maker
企業內部的人力資源盤點 People
處理巨量資料的常見流程 Process
處理巨量資料的技術盤點 Technology



大數據
平台建置
如果您對以上內容有興趣…
2016/7/12 CSA Summit 2016 12
http://www.ithome.com.tw/news/101577
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 13CSA Summit 2016
大數據
平台資安
高可用性 High Availability (HA)
CDH 4.7 CDH 5.2 CDH 5.3 CDH 5.4 CDH 5.7
文件日期 2014/12 2015/9 2015/10 2015/11 2016/06
管理者介面 ClouderaManager V V
金鑰管理 Key Trustee KMS V
稽核者介面
Cloudera Navigator
Key Trustee Server
V V
使用者介面 Hue V V
查詢引擎 Llama / Impala V V V 沒寫?
ODBC 接口 HiveServer2 V
Schema Hive Metastore V V V V
工作流程 Oozie V V V V
索引引擎 Solr ( Search ) V V V V
運算引擎 MRv1 / YARN V V V V V
快速查表 HBase V V V V
儲存層 HDFS V V V V V
2016/7/12 CSA Summit 2016 14
• 架一座 Big Data Platform 的叢集,其實同時買了很多不同功能的元件!
• 國際大廠對於各元件高可用性的支援還持續隨著時間,正在慢慢增加中
高可用性 High Availability (HA)
• 現狀:
• 大數據平台的賣點是划算--分散儲存、分散運算、平行查詢一次購足
• 缺點是潛藏的維運成本 -- 請不要過度期待高可用性的支援是完整的!
( 10 歲的童工 vs 38 歲的老員工,成本不同,強項不同,互補非取代 )
• 分散式系統難解的耦合性:
如果您想要支援 AAA 與 Encryption 就會隨之增加高可用性的挑戰!
• 建議:
• 麻煩先根據組織的需求,由需求往回推估最小功能元件集合
• 再根據最小功能元件集合,逐一驗證每個元件的高可用性支援程度
• 寧可分階段依商務問題的急迫性,逐一增加元件的複雜度;
千萬別想一次到位,所有功能元件都想馬上用得上。
2016/7/12 CSA Summit 2016 15
注意!! 並不是所有角色都可以跑兩個
• 以下角色,一座叢集只能跑一個!
• HDFS Balancer
• YARN JobHistory Server
• Impala StateStored
• Impala Catalog Server
• Spark History Server
• 真的不幸那台掛掉,只好手動進管理介面改派給別台!!
(或者寫好自動化隔離腳本靠 API 來達成)
(謎之音:前提是管理介面還活著!或許這就是為何基本
軟體授權最低台數從5台漲到 10 台,就是要把服務拆散)
2016/7/12 CSA Summit 2016 16
災害復原 Disaster Recovery (DR)
• 高可用性是用在臨時有一台機器暫時故障(還有救)的時候
• 災害復原是用在臨時有一台機器完全救不回來的時候
• 現況:複雜的 State Machine !!
• HDFS 靠 Journal Node 所以可以從另外兩台救回
• MRv1/YARN 因為狀態存在 HDFS 所以裝一台新的也沒關係
• HBase 因為狀態存在 HDFS 所以重裝一台也沒關係
• 但其他的呢?? Hive Metastore 背後的資料庫 ??
Cloudera Manager 背後的資料庫?? Oozie 的 Metastore ??
• 建議:
• 有關聯式資料庫的地方儘量維持兩台 Active-Standby 或 A-A 副本
• 裝機後至少做一次全系統備份(把當時的狀態存起來)
• 行有餘力,別忘了做遞增備份
2016/7/12 CSA Summit 2016 17
災害復原 Disaster Recovery (DR)
• 本錢夠粗的可以考慮 異地備援 ( 架兩座叢集做同步 )
• 一些解決方案:
• Cloudera Backup and Disaster Recovery ( BDR )
• 把 HDP 備份到 Azure
• BDR 主要備份的對象是
• Metastore (有用到外部關聯式資料庫的部分)
• HDFS 的內容
2016/7/12 CSA Summit 2016 18
https://0x0fff.com/hadoop-cluster-backup/
Hadoop 剛滿十歲,後繼者還在追趕進度
• Hadoop Security 的四大範疇:
• Authentication – 帳號密碼認證
• Authorization – 基於帳號身分,管理讀寫權限
• Auditing – 稽核讀寫的紀錄
• Encryption – 資料的加密、通訊的加密 (運算過程的加密?)
• 那 Spark 呢?? 還在經歷生長痛中….
• Authentication – 1.3 剛支援 Kerberos
https://issues.apache.org/jira/browse/SPARK-5493
• Authorization – 目標做到 Spark SQL column-level 管控
• Auditing – 是否有工具??還在找
• Encryption – 進行中
https://issues.apache.org/jira/browse/SPARK-5682
2016/7/12 CSA Summit 2016 19
身分認證 Authentication
• 現況:支援度最廣的還是 Kerberos
2016/7/12 CSA Summit 2016 20
CM CN HDFS MRv1 YARN Flume HBase
HCat
olog
Hive
Server
2
HiveS
erver
Hue Impala Llama Oozie
ZooK
eeper
一個
以上
擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 雙重* 擇一 擇一 擇一
simple V V V V V V V V V V V V
Data
base
V V V
Open
LDAP
V V V V V*
AD V V V V V*
LDAPS V V V V*
Kerberos V V V V V V V V V V V V V V
External
Program V CLASS
SAML V V
OpenID V
Oauth V
身分認證 Authentication
• 導入前的自我檢驗項目:
• 組織內部有沒有合適的系統管理者可以協助 Kerberos 問題排查
• 組織內部的網管能否協助Kerberos 跨網段傳輸的問題排查
• 叢集成長到一定數量時,能否接受 Kerberos 認證會影響效能
• 折衷選擇一:AD/LDAP
• 如果目前組織的需求跟Data Warehouse Offload 有關
只會用到 Hive / Impala 等 SQL on Hadoop 的元件
• 折衷選擇二:透過 API Server 做隔離層
2016/7/12 CSA Summit 2016 21
Application Server
HDFS HBase Hive Impala Spark
權限控管 Authorization
• 現況:
• Apache Sentry or Apache Ranger
• Role-Based Access Control
• Fine-grained access control – 目標是 column-based 權限控管
• Unified Authorization
2016/7/12 CSA Summit 2016 22
存取稽核 Auditing ( Accounting )
• 現況:
• 土砲手工打造每個元件的Audit Log 蒐集系統
• Cloudera Navigator
• Apache Ranger Audit Framework
2016/7/12 CSA Summit 2016 23
加密防護 Encryption
• 傳輸過程的加密
• 儲存資料的加密
2016/7/12 CSA Summit 2016 24
Agenda
• 企業導入大數據的四個階段
• 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制
• 大數據平台資安範疇與現況
• 高可用性 High Availability (HA)
• 災害復原 Disaster Recovery (DR)
• 身分認證 Authentication
• 權限控管 Authorization
• 存取稽核 Auditing ( Accounting )
• 加密防護 Encryption
• 結語
• 題外話:開放原始碼軟體的資安掃描
2016/7/12 25CSA Summit 2016
現在進行式:Data Governance
• 全球頂尖的極極少數創新者已經走到「數據品管」的階段!!
• Data Governance
• Apache Atlas
2016/7/12 CSA Summit 2016 26
專案規劃
大數據
平台建置
大數據
平台資安
大數據
品質管制
Data governance is a control that ensures that the data
entry by an operations team member or by an automated
process meets precise standards, such as a business rule,
a data definition and data integrity constraints in the
data model.
http://atlas.incubator.apache.org/
題外話:開放原始碼軟體的資安掃描
當 Open Source 變成一種商業策略
企業該如何確保所採用的開源軟體是安全的呢?
縱使掃過原始碼,又能確保多少安全性呢?
2016/7/12 CSA Summit 2016 27
結語
• 企業對「資訊安全」的需求成為大數據平台的獲利模式
• 對各種 Security 需求的支援完整性也象徵著Hadoop 正式進入
Enterprise Software !!
• 先求有,二求安全,再求品質
2016/7/12 CSA Summit 2016 28
Q & A
JAZZWANG.TW 老鼠 GMAIL 點 COM
2016/7/12 CSA Summit 2016 29

More Related Content

What's hot (20)

PDF
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Etu Solution
 
PDF
Hadoop大数据实践经验
Schubert Zhang
 
PPT
Hadoop 與 SQL 的甜蜜連結
James Chen
 
PDF
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
 
PPTX
Hadoop hive
Wei-Yu Chen
 
PDF
罗李:构建一个跨机房的Hadoop集群
hdhappy001
 
PPTX
淘宝Hadoop数据分析实践
Min Zhou
 
PDF
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 
PDF
唯品会大数据实践 Sacc pub
Chao Zhu
 
PDF
Life of Big Data Technologies
Jazz Yao-Tsung Wang
 
PDF
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
PDF
Distributed Data Analytics at Taobao
Min Zhou
 
PDF
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
 
PDF
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
 
PDF
2006-11-16 RFID and OSS for Agriculture
Jazz Yao-Tsung Wang
 
PDF
Data Analyse Black Horse - ClickHouse
Jack Gao
 
PDF
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
 
PDF
Azure Data Lake 簡介
Herman Wu
 
PDF
Hadoop 2.0 之古往今來
Wei-Yu Chen
 
PDF
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
Jazz Yao-Tsung Wang
 
Big Data Taiwan 2014 Track1-3: Big Data, Big Challenge — Splunk 幫你解決 Big Data...
Etu Solution
 
Hadoop大数据实践经验
Schubert Zhang
 
Hadoop 與 SQL 的甜蜜連結
James Chen
 
翟艳堂:腾讯大规模Hadoop集群实践
hdhappy001
 
Hadoop hive
Wei-Yu Chen
 
罗李:构建一个跨机房的Hadoop集群
hdhappy001
 
淘宝Hadoop数据分析实践
Min Zhou
 
2014-10-17 探析台灣巨量資料產業供應鏈串聯現況
Jazz Yao-Tsung Wang
 
唯品会大数据实践 Sacc pub
Chao Zhu
 
Life of Big Data Technologies
Jazz Yao-Tsung Wang
 
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
Distributed Data Analytics at Taobao
Min Zhou
 
Track A-1: Cloudera 大數據產品和技術最前沿資訊報告
Etu Solution
 
Hadoop ecosystem - hadoop 生態系
Wei-Yu Chen
 
2006-11-16 RFID and OSS for Agriculture
Jazz Yao-Tsung Wang
 
Data Analyse Black Horse - ClickHouse
Jack Gao
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
 
Azure Data Lake 簡介
Herman Wu
 
Hadoop 2.0 之古往今來
Wei-Yu Chen
 
2015-05-20 製造業生產歷程全方位整合查詢與探勘的規劃心法
Jazz Yao-Tsung Wang
 

Viewers also liked (16)

PDF
Introduction to HCFS
Jazz Yao-Tsung Wang
 
PDF
PCI Security Standards on Big Data Platform (1)
Chris Cheng-Hsun Lin
 
PDF
Yarn Resource Management Using Machine Learning
ojavajava
 
PDF
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Jing-Doo Wang
 
PDF
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Taiwan User Group
 
PDF
2016 Hadoop Conf TW - 如何建置數據精靈
晨揚 施
 
PDF
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Flink Taiwan User Group
 
PDF
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
Wayne Chen
 
PDF
BI in Xuenn
Len Chang
 
PDF
HadoopCon'16, Taipei @myui
Makoto Yui
 
PPTX
Achieve big data analytic platform with lambda architecture on cloud
Scott Miao
 
PDF
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Taiwan User Group
 
PDF
大數據時代的行動支付風險控制
Chris Cheng-Hsun Lin
 
PDF
SparkR - Play Spark Using R (20160909 HadoopCon)
wqchen
 
PDF
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Len Chang
 
PDF
Log Event Stream Processing In Flink Way
George T. C. Lai
 
Introduction to HCFS
Jazz Yao-Tsung Wang
 
PCI Security Standards on Big Data Platform (1)
Chris Cheng-Hsun Lin
 
Yarn Resource Management Using Machine Learning
ojavajava
 
Hadoop con 2016_9_10_王經篤(Jing-Doo Wang)
Jing-Doo Wang
 
Apache Flink Training Workshop @ HadoopCon2016 - #2 DataSet API Hands-On
Apache Flink Taiwan User Group
 
2016 Hadoop Conf TW - 如何建置數據精靈
晨揚 施
 
Apache Software Foundation: How To Contribute, with Apache Flink as Example (...
Apache Flink Taiwan User Group
 
HadoopCon 2016 - 用 Jupyter Notebook Hold 住一個上線 Spark Machine Learning 專案實戰
Wayne Chen
 
BI in Xuenn
Len Chang
 
HadoopCon'16, Taipei @myui
Makoto Yui
 
Achieve big data analytic platform with lambda architecture on cloud
Scott Miao
 
Apache Flink Training Workshop @ HadoopCon2016 - #1 System Overview
Apache Flink Taiwan User Group
 
大數據時代的行動支付風險控制
Chris Cheng-Hsun Lin
 
SparkR - Play Spark Using R (20160909 HadoopCon)
wqchen
 
Hadoop con2016 - Implement Real-time Centralized logging System by Elastic Stack
Len Chang
 
Log Event Stream Processing In Flink Way
George T. C. Lai
 
Ad

Similar to 2016-07-12 Introduction to Big Data Platform Security (20)

PPTX
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
 
PDF
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
 
PDF
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
 
PPTX
Introduction to big data
YuHsuan Chen
 
PDF
High Throughput Computing Technologies
Jazz Yao-Tsung Wang
 
PDF
Emc keynote 1130 1200
Chiou-Nan Chen
 
PDF
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
PDF
Data Engineering in Taiwan: PAST, NOW and FUTURE
Jazz Yao-Tsung Wang
 
PDF
單元演講F-1_資安篇 【微服務、雲端化、容器化、AI 化】的資安嶄新機制探討.pdf
alex349518
 
PDF
IT03
Airray Liu
 
PDF
HDInsight for Hadoopers
Kuo-Chun Su
 
PPTX
What could hadoop do for us
Simon Hsu
 
PDF
零壹科技 個人資料管理系統 (PIMS) WorkShop
零壹科技股份有限公司
 
PPTX
林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(台北場)
開拓文教基金會
 
PPTX
大數據
brian401777
 
PDF
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Jazz Yao-Tsung Wang
 
PDF
Bd paa s - big-data platform as a service
inwin stack
 
PPT
2012 雲端產業介紹
Sitg Yao
 
PPTX
HDInsight for Microsoft Users
Kuo-Chun Su
 
ODP
雲端技術的新趨勢
Jazz Yao-Tsung Wang
 
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
 
Hadoop con 2015 hadoop enables enterprise data lake
James Chen
 
淺談物聯網巨量資料挑戰 - Jazz 王耀聰 (2016/3/17 於鴻海內湖) 免費講座
NTC.im(Notch Training Center)
 
Introduction to big data
YuHsuan Chen
 
High Throughput Computing Technologies
Jazz Yao-Tsung Wang
 
Emc keynote 1130 1200
Chiou-Nan Chen
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
Data Engineering in Taiwan: PAST, NOW and FUTURE
Jazz Yao-Tsung Wang
 
單元演講F-1_資安篇 【微服務、雲端化、容器化、AI 化】的資安嶄新機制探討.pdf
alex349518
 
HDInsight for Hadoopers
Kuo-Chun Su
 
What could hadoop do for us
Simon Hsu
 
零壹科技 個人資料管理系統 (PIMS) WorkShop
零壹科技股份有限公司
 
林合昕:雲端運用案例分享-從協助單位導入O365角度@2019 非營利組織資訊運用座談會(台北場)
開拓文教基金會
 
大數據
brian401777
 
Observe Changes of Taiwan Big Data Communities with Small Data (Updated)
Jazz Yao-Tsung Wang
 
Bd paa s - big-data platform as a service
inwin stack
 
2012 雲端產業介紹
Sitg Yao
 
HDInsight for Microsoft Users
Kuo-Chun Su
 
雲端技術的新趨勢
Jazz Yao-Tsung Wang
 
Ad

2016-07-12 Introduction to Big Data Platform Security

  • 1. 淺談大數據平台安全現況 Introduction to Big Data Platform Security Jazz Yao Tsung Wang <http://about.me/jazzwang> 2016/7/12 1CSA Summit 2016
  • 2. About Me • 王耀聰 Jazz Wang • 資安門外漢 /交大電控碩士 • 前 Etu Manager 產品協理 • 現任 TenMax Data Architect • Hadoop.TW 共同創辦人 • HadoopCon 社群年會總召 • Hadoop The Definitive Guide 譯者 • Hadoop Operations 譯者 • 自由軟體愛好者 / 推廣者 / 開發者 • http://about.me/jazzwang - slideshare, github, etc. 2016/7/12 2CSA Summit 2016
  • 3. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 3CSA Summit 2016
  • 4. Gartner Hype Cycle 2014 2016/7/12 CSA Summit 2016 4 萌芽期 夢幻期 幻滅期 平原期 高原期 Cloud Computing Big Data Internet of Things
  • 5. Gartner Hype Cycle 2015 2016/7/12 CSA Summit 2016 5 萌芽期 夢幻期 幻滅期 平原期 高原期 “ Hybrid ’’ Cloud Computing Internet of Things VR AR
  • 6. Big Data 退燒 畢業了!! 隱身進入以下領域: • Internet of Things ( 物聯網 ) • Business Intelligence and Analytics ( 商業智慧 ) • Enterprise Architecture • Web-Scale IT • Digital Banking Transformation ( 數位金融 ) • Utility Industry IT • CRM Customer Service and Customer Engagement • CRM Marketing Applications • Digital Commerce ( 電子商務 ) 6
  • 7. 導入 Big Data 到底是想要?還是需要? 2016/7/12 CSA Summit 2016 7 Open Data資料集 分析資料的合法性 資料鑑價? 個資法 商業模式 金礦 開採權 含金度 提煉廠 分析平台與工具軟體 SMAQ 開採成本 總擁有成本 軟硬體投資 國際金價 提供給客戶的價值 產品通路      
  • 9. 企業導入 Big Data 的四個階段 2016/7/12 CSA Summit 2016 9 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 台灣只有極少數 創新者在這個位置 Innovators 台灣開始有一些追隨者在這個位置 Early Majority 但往往問題是“剛開始蒐集數據”或 ”剛開始思考如何讓數據產生價值” 台灣只有少數 先行者在這個位置 Early Adopters 今天談大數據平台資安只是 預告後面的路還很崎嶇…..
  • 10. Big Data 專案規劃的六頂思考帽 • 問題一:組織想要解決什麼商業問題 ?? ( Value ) 可以用資料解決嗎 ?? ( 降低成本 or 增加收益 ) • 問題二:這些資料哪些是內部資料 ?? 哪些是外部資料?? 該如何獲得 ?? 有哪些型態 ?? ( Variety ) • 問題三:分析這些資料是否合乎法規需求 ?? 有無需要事先聲明的保護條款 ?? ( Legality ) • 問題四:驗證答案真的在這堆資料裡 ?? 資料是否可靠 ?? 需要多少資料才能找到答案 ?? ( Volume , Veracity ) • 問題五:挑選合理的資料處理/分析平台 – 人、流程、技術 定義多快找到答案才能解決商業問題 ( Velocity ) • 問題六:定義效益評量指標 ( 怎麼算 ROI ?? 或 KPI 是什麼 ?? ) 持續改善的時程藍圖 ( Validation , Roadmap ) 2016/7/12 CSA Summit 2016 10 專案規劃
  • 11. 大數據平台建置的三個面向 2016/7/12 CSA Summit 2016 11 影片 自訂 Flume HDFS Map Reduce Hive (Cold) Mobile App 照片 錄音 日誌檔 Log 網頁 HTML 交換檔 XML, Json syslog FTP Scribe Fluentd HBase File Input / Output Format FS Shell Web HDFS Thrift Java API Pig Mahout Oozie Impala (Warm) Sqoop 生 流 蒐 存 取 算 析 用 看 資料源 網路協定 前處理 儲存方式 存取方式 資料處理 資料分析 視覺化 解讀 變 行動 Engineer (電機) Network (網通) System Admin DBA (資管) Programmer (資工) Analyst (統計) Decision Maker 企業內部的人力資源盤點 People 處理巨量資料的常見流程 Process 處理巨量資料的技術盤點 Technology    大數據 平台建置
  • 12. 如果您對以上內容有興趣… 2016/7/12 CSA Summit 2016 12 http://www.ithome.com.tw/news/101577
  • 13. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 13CSA Summit 2016 大數據 平台資安
  • 14. 高可用性 High Availability (HA) CDH 4.7 CDH 5.2 CDH 5.3 CDH 5.4 CDH 5.7 文件日期 2014/12 2015/9 2015/10 2015/11 2016/06 管理者介面 ClouderaManager V V 金鑰管理 Key Trustee KMS V 稽核者介面 Cloudera Navigator Key Trustee Server V V 使用者介面 Hue V V 查詢引擎 Llama / Impala V V V 沒寫? ODBC 接口 HiveServer2 V Schema Hive Metastore V V V V 工作流程 Oozie V V V V 索引引擎 Solr ( Search ) V V V V 運算引擎 MRv1 / YARN V V V V V 快速查表 HBase V V V V 儲存層 HDFS V V V V V 2016/7/12 CSA Summit 2016 14 • 架一座 Big Data Platform 的叢集,其實同時買了很多不同功能的元件! • 國際大廠對於各元件高可用性的支援還持續隨著時間,正在慢慢增加中
  • 15. 高可用性 High Availability (HA) • 現狀: • 大數據平台的賣點是划算--分散儲存、分散運算、平行查詢一次購足 • 缺點是潛藏的維運成本 -- 請不要過度期待高可用性的支援是完整的! ( 10 歲的童工 vs 38 歲的老員工,成本不同,強項不同,互補非取代 ) • 分散式系統難解的耦合性: 如果您想要支援 AAA 與 Encryption 就會隨之增加高可用性的挑戰! • 建議: • 麻煩先根據組織的需求,由需求往回推估最小功能元件集合 • 再根據最小功能元件集合,逐一驗證每個元件的高可用性支援程度 • 寧可分階段依商務問題的急迫性,逐一增加元件的複雜度; 千萬別想一次到位,所有功能元件都想馬上用得上。 2016/7/12 CSA Summit 2016 15
  • 16. 注意!! 並不是所有角色都可以跑兩個 • 以下角色,一座叢集只能跑一個! • HDFS Balancer • YARN JobHistory Server • Impala StateStored • Impala Catalog Server • Spark History Server • 真的不幸那台掛掉,只好手動進管理介面改派給別台!! (或者寫好自動化隔離腳本靠 API 來達成) (謎之音:前提是管理介面還活著!或許這就是為何基本 軟體授權最低台數從5台漲到 10 台,就是要把服務拆散) 2016/7/12 CSA Summit 2016 16
  • 17. 災害復原 Disaster Recovery (DR) • 高可用性是用在臨時有一台機器暫時故障(還有救)的時候 • 災害復原是用在臨時有一台機器完全救不回來的時候 • 現況:複雜的 State Machine !! • HDFS 靠 Journal Node 所以可以從另外兩台救回 • MRv1/YARN 因為狀態存在 HDFS 所以裝一台新的也沒關係 • HBase 因為狀態存在 HDFS 所以重裝一台也沒關係 • 但其他的呢?? Hive Metastore 背後的資料庫 ?? Cloudera Manager 背後的資料庫?? Oozie 的 Metastore ?? • 建議: • 有關聯式資料庫的地方儘量維持兩台 Active-Standby 或 A-A 副本 • 裝機後至少做一次全系統備份(把當時的狀態存起來) • 行有餘力,別忘了做遞增備份 2016/7/12 CSA Summit 2016 17
  • 18. 災害復原 Disaster Recovery (DR) • 本錢夠粗的可以考慮 異地備援 ( 架兩座叢集做同步 ) • 一些解決方案: • Cloudera Backup and Disaster Recovery ( BDR ) • 把 HDP 備份到 Azure • BDR 主要備份的對象是 • Metastore (有用到外部關聯式資料庫的部分) • HDFS 的內容 2016/7/12 CSA Summit 2016 18 https://0x0fff.com/hadoop-cluster-backup/
  • 19. Hadoop 剛滿十歲,後繼者還在追趕進度 • Hadoop Security 的四大範疇: • Authentication – 帳號密碼認證 • Authorization – 基於帳號身分,管理讀寫權限 • Auditing – 稽核讀寫的紀錄 • Encryption – 資料的加密、通訊的加密 (運算過程的加密?) • 那 Spark 呢?? 還在經歷生長痛中…. • Authentication – 1.3 剛支援 Kerberos https://issues.apache.org/jira/browse/SPARK-5493 • Authorization – 目標做到 Spark SQL column-level 管控 • Auditing – 是否有工具??還在找 • Encryption – 進行中 https://issues.apache.org/jira/browse/SPARK-5682 2016/7/12 CSA Summit 2016 19
  • 20. 身分認證 Authentication • 現況:支援度最廣的還是 Kerberos 2016/7/12 CSA Summit 2016 20 CM CN HDFS MRv1 YARN Flume HBase HCat olog Hive Server 2 HiveS erver Hue Impala Llama Oozie ZooK eeper 一個 以上 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 擇一 雙重* 擇一 擇一 擇一 simple V V V V V V V V V V V V Data base V V V Open LDAP V V V V V* AD V V V V V* LDAPS V V V V* Kerberos V V V V V V V V V V V V V V External Program V CLASS SAML V V OpenID V Oauth V
  • 21. 身分認證 Authentication • 導入前的自我檢驗項目: • 組織內部有沒有合適的系統管理者可以協助 Kerberos 問題排查 • 組織內部的網管能否協助Kerberos 跨網段傳輸的問題排查 • 叢集成長到一定數量時,能否接受 Kerberos 認證會影響效能 • 折衷選擇一:AD/LDAP • 如果目前組織的需求跟Data Warehouse Offload 有關 只會用到 Hive / Impala 等 SQL on Hadoop 的元件 • 折衷選擇二:透過 API Server 做隔離層 2016/7/12 CSA Summit 2016 21 Application Server HDFS HBase Hive Impala Spark
  • 22. 權限控管 Authorization • 現況: • Apache Sentry or Apache Ranger • Role-Based Access Control • Fine-grained access control – 目標是 column-based 權限控管 • Unified Authorization 2016/7/12 CSA Summit 2016 22
  • 23. 存取稽核 Auditing ( Accounting ) • 現況: • 土砲手工打造每個元件的Audit Log 蒐集系統 • Cloudera Navigator • Apache Ranger Audit Framework 2016/7/12 CSA Summit 2016 23
  • 24. 加密防護 Encryption • 傳輸過程的加密 • 儲存資料的加密 2016/7/12 CSA Summit 2016 24
  • 25. Agenda • 企業導入大數據的四個階段 • 專案規劃、大數據平台建置、大數據平台資安、大數據品質管制 • 大數據平台資安範疇與現況 • 高可用性 High Availability (HA) • 災害復原 Disaster Recovery (DR) • 身分認證 Authentication • 權限控管 Authorization • 存取稽核 Auditing ( Accounting ) • 加密防護 Encryption • 結語 • 題外話:開放原始碼軟體的資安掃描 2016/7/12 25CSA Summit 2016
  • 26. 現在進行式:Data Governance • 全球頂尖的極極少數創新者已經走到「數據品管」的階段!! • Data Governance • Apache Atlas 2016/7/12 CSA Summit 2016 26 專案規劃 大數據 平台建置 大數據 平台資安 大數據 品質管制 Data governance is a control that ensures that the data entry by an operations team member or by an automated process meets precise standards, such as a business rule, a data definition and data integrity constraints in the data model. http://atlas.incubator.apache.org/
  • 27. 題外話:開放原始碼軟體的資安掃描 當 Open Source 變成一種商業策略 企業該如何確保所採用的開源軟體是安全的呢? 縱使掃過原始碼,又能確保多少安全性呢? 2016/7/12 CSA Summit 2016 27
  • 28. 結語 • 企業對「資訊安全」的需求成為大數據平台的獲利模式 • 對各種 Security 需求的支援完整性也象徵著Hadoop 正式進入 Enterprise Software !! • 先求有,二求安全,再求品質 2016/7/12 CSA Summit 2016 28
  • 29. Q & A JAZZWANG.TW 老鼠 GMAIL 點 COM 2016/7/12 CSA Summit 2016 29