SlideShare a Scribd company logo
HDInsight for Hadoopers
[蘇國鈞]
[monster.supreme@gmail.com]
1 / 30
Agenda
HDInsight 是 Microsoft 在 Azure 上頭提供的 Hadoop 服務,讓以往繁瑣的 Hadoop
Cluster 設定,變成只是幾個簡單的精靈頁面操作。Hadoop 的 HDFS 分散式檔案系
統,跟 Azure 的 Storage 整合在一起,MapReduce 應用程式則是直接丟到 Cluster 內的
各個 Windows Server 虛擬機器上面執行。這個 Session 主要就是帶領大家在 Microsoft
Azure 上頭從無到有,建置自己的 Hadoop Cluster,進行基本的 Hadoop 應用操作。
1. Hadoop 介紹
2. HDInsight 介紹
3. HDInsight 操作
2 / 30
Bio
在 Java SE 與 Java EE 領域有十多年的講師教學經驗,熟悉 XML/Web Services、
Design Patterns、EJB/JPA 等 Java EE 規格,Struts/Spring Framework/Hibernate 等
Open Source Framework,與 JBoss AS、GlassFish 等 Application Server。
自認為會的技術不多,但是學不會的也不多,最擅長把老闆交代的工作,以及找
不到老師教的技術,想辦法變成自己的專長。
目前負責 Java 與 .NET 雲端運算相關技術的推廣,主要包括 Hadoop Platform 與
NoSQL 等 Big Data 相關應用,Microsoft Azure、Google App Engine、與 CloudBees
等雲端平台的運用,以及 iOS、Android、Windows Phone 等 Smart Phone 的應用程
式開發。
3 / 30
資訊工業策進會 數位教育研究所 資訊技術訓練中心
http://www.iiiedu.org.tw/taipei
4 / 30
Hadoop 介紹
5 / 30
由創建 Lucene 與 Nutch 的 Doug Cutting 所建立
Lucene 是 Full-Featured Text Indexing and Searching Library
Nutch 是 Web Search Engine
依循著 Google 在 2003/2004 年發表的論文來開發
2006 年從 Nutch 計劃獨立出來,稱之為 Hadoop
2008 年 1 月變成 Apache 的 Top-Level Project
2009 年 7 月 Yahoo! 與 Microsoft 在 Search 達成合作協議
2009 年 9 月 Doug Cutting 加入 Cloudera 公司擔任 Architect
2011 年 6 月 Yahoo! 內部的 Hadoop 團隊 Spin Off 出去,成
立 Hortonworks 公司
Hadoop 簡史
6 / 30
Hadoop
的特色
Hadoop
的使用
情境
Accessible:普通 PC 或 VM 組成的 Cluster 就可以跑
Robust:所以要特別處理普通 PC 比較容易掛掉的問題
Scalable:隨著資料量增加,加入新機器就可以
Simple:透過 MapReduce 可以輕易寫出平行處理的程式
具備幾千個 Node 的 Scalability
把軟硬體發生 Failure 當成家常便飯
要處理的檔案多少不是重點,但是每個最好都很大
適合只會寫入一次/只有一人寫入,但是會讀取很多次
7 / 30
Hadoop 平台
兩大部份:Hadoop Distributed File System 與 MapReduce Programming Paradigm
以 Java 開發,但是不支援 Java SE 6 之前的 JDK 版本
原則上 Linux 平台是一個 Hadoop 有支援的 Development 與 Production Platform
Win32 可以是個 Development Platform,但是 Distributed Operation 沒有在 Win32
上面詳細測試過,所以不建議把 Win32 當成 Production Platform
不過,這件事因為 Hortonworks 把 Hadoop 移植到 Windows 平台,然後 Microsoft
又與 Hortonworks 合作,開始在 Azure 上支援 Hadoop 之後,有了改變
8 / 30
什麼是 HDFS
Self-Healing、Distributed File System
以 Block 方式儲存資料,打破 Disk 實體限制
透過 Replication 的方式實現 Reliability
提供熟悉的操作介面,以及可以客製化的 API
提供 RESTful 介面方便客製化
9 / 30
什麼是 MapReduce
一個 Computing Model
把一個處理大量資料的 Job,拆解成許多可以在一堆 Server 平行處理的 Task
把 Code 往 Data 所在的 Server 搬移,減少 Network Traffic
各個 Task 執行的結果,會整合在一起,得到最終的結果
10 / 30
MapReduce 的 Hello, Word Count!
11 / 30
HDInsight 介紹
12 / 30
Microsoft 的 Big Data Solution
13 / 30
什麼是 HDInsight
2012 年 10 月發佈
以 Hortonworks Data Platform (HDP) 平台為基礎
結合 Microsoft Windows 簡易操作與 Hortonworks HDP 的穩定與威力
14 / 30
HDInsight 操作
15 / 30
Demo
1. 建立 Azure Blob Storage
2. 在 Azure Blob Storgae 裡頭建立 Container
3. 建立 HDInsight Cluster
4. 透過 Windows Azure PowerShell 操作
5. MapReduce 示範
6. Hive 示範
7. Power Query for Excel 示範
16 / 30
建立 Azure Blob Storage
17 / 30
建立 Container
18 / 30
快速建立 HDInsight Cluster
19 / 30
自訂建立 HDInsight Cluster
* 3.1 現在已經是正式版本了
20 / 30
透過 WebPI 安裝 Windows Azure PowerShell
21 / 30
透過 PowerShell 登入 Azure
22 / 30
透過 PowerShell 執行 MapReduce 範例
$subscription = "Azure 訂閱名稱"
$cluster = "剛剛建立的 HDInsight Cluster 名稱"
$jarFile = "wasb:///example/jars/hadoop-mapreduce-examples.jar"
$className = "wordcount"
$arguments1 = "wasb:///example/data/gutenberg/davinci.txt"
$arguments2 = "wasb:///example/data/WordCountOutput"
$waitTimeoutInSeconds = 3600
$jobDefinition = New-AzureHDInsightMapReduceJobDefinition
-JarFile $jarFile -ClassName $className -Arguments $arguments1, $arguments2
Select-AzureSubscription $subscription
$job = Start-AzureHDInsightJob -Cluster $cluster -JobDefinition $jobDefinition
Wait-AzureHDInsightJob -Job $job -WaitTimeoutInSeconds $waitTimeoutInSeconds
Get-AzureHDInsightJobOutput -Cluster $cluster -JobId $job.JobId -StandardError
23 / 30
透過 PowerShell 上傳 Hive 測試資料
ggplot R package 裡頭提供了測試資料,下載網址是 http://had.co.nz/data/movies/,
解壓縮之後放在 C:。
$subscription = "Azure 訂閱名稱"
$cluster = "剛剛建立的 HDInsight Cluster 名稱"
Select-AzureSubscription $subscription
Use-AzureHDInsightCluster $cluster
$storageAccountName = "剛剛建立的 Storage 名稱"
$container = "剛剛建立的 Container 名稱"
$file = "C:movies.tab"
$blob = "movies/movies.tab"
$storageAccountKey = Get-AzureStorageKey –StorageAccountName $storageAccountName
$context = New-AzureStorageContext
–StorageAccountName $storageAccountName -StorageAccountKey $storageAccountKey.Primary
Set-AzureStorageBlobContent -Container $container -File $file -Blob $blob -Context $context
24 / 30
透過 PowerShell 執行 Hive 範例
$response = Invoke-Hive -Query @"
create external table movies(title string, year string, length int, budget float, rating float, votes int,
r1 float, r2 float, r3 float, r4 float, r5 float, r6 float, r7 float, r8 float, r9 float, r10 float, mpaa string,
Action boolean, Animation boolean, Comedy boolean, Drama boolean, Documentary boolean,
Romance boolean,Short boolean)
row format delimited fields terminated by 't' lines terminated by 'n';
"@
Write-Host $response
$response = Invoke-Hive -Query @"
load data inpath '/movies/movies.tab' overwrite into table movies;
"@
Invoke-Hive "select count(*) from movies"
Invoke-Hive "select year, count(*) from movies group by year;"
Invoke-Hive -Query @"
insert overwrite directory 'moviesoutput'
select concat_ws(',', cast(size(split(title, ' ')) as string), cast(count(*) as string))
from movies
group by size(split(title, ' '));
"@
25 / 30
Microsoft 商業智慧工具
Hadoop 運算的結果可以透過 ODBC 匯入 Excel,無痛使用 PowerPivot 與 Power
Query/Power View 等 BI 工具分析資料
Hadoop 運算的結果可以透過 Sqoop 匯入 SQL Server,跟 SQL Server Analysis
Service、Reporting Service 等 BI 工具無縫整合
26 / 30
下載 Power Query for Excel 安裝
27 / 30
POWER QUERY -> 取得外部資料 -> 從其他來源 -> 從 Windows Azure HDInsight
28 / 30
圖表化的資料呈現方式
29 / 30
謝謝
Q & A
30 / 30

More Related Content

PPTX
HDInsight for Microsoft Users
Kuo-Chun Su
 
PDF
Big Java, Big Data
Kuo-Chun Su
 
PDF
從 Web Site 到 Web Application,從 Web Services 到 Mobile Services
Kuo-Chun Su
 
PDF
打開窗,讓大象跨進來 - Microsoft HDInsight
Kuo-Chun Su
 
PPTX
Hadoop安裝 (1)
銘鴻 陳
 
PPT
Huangjing renren
d0nn9n
 
PPTX
Hadoop hive
Wei-Yu Chen
 
PPTX
NoSQL-MongoDB介紹
國昭 張
 
HDInsight for Microsoft Users
Kuo-Chun Su
 
Big Java, Big Data
Kuo-Chun Su
 
從 Web Site 到 Web Application,從 Web Services 到 Mobile Services
Kuo-Chun Su
 
打開窗,讓大象跨進來 - Microsoft HDInsight
Kuo-Chun Su
 
Hadoop安裝 (1)
銘鴻 陳
 
Huangjing renren
d0nn9n
 
Hadoop hive
Wei-Yu Chen
 
NoSQL-MongoDB介紹
國昭 張
 

What's hot (20)

PDF
Full Stack Monitoring with Prometheus and Grafana (Updated)
Jazz Yao-Tsung Wang
 
PPTX
前端自動化工具
國昭 張
 
PPTX
RxJS 6 新手入門
Will Huang
 
PPTX
使用Ubuntu架設hadoop
taishanla
 
PPTX
快速入坑 Node.js - 0613 SITCON 雲林定期聚
Lorex L. Yang
 
PDF
Vue ithome
Yoyo Young
 
PPTX
Hadoop程式開發環境
立鼎 蘇
 
PDF
D2_node在淘宝的应用实践_pdf版
Jackson Tian
 
PPTX
云端的数据库
thinkinlamp
 
PPTX
Mongo db 特性
Hermes Chiang
 
PPTX
FHIR Server 安裝與使用
Lorex L. Yang
 
PPTX
Mongo db 簡介
昱劭 劉
 
PDF
Spark sql培训
Jiang Yu
 
PDF
Hadoop开发者入门专刊
liangxiao0315
 
PDF
Hadoop-分布式数据平台
Jacky Chi
 
PPTX
初探 Elastic Observability 的實踐方法
Joe Wu
 
PPTX
使用 TypeScript 駕馭 Web 世界的脫韁野馬:以 Angular 2 開發框架為例
Will Huang
 
PPTX
北護大/FHIR 開發簡介與應用
Lorex L. Yang
 
PPTX
架設Hadoop叢集以及mapreduce開發環境
Phate334
 
PDF
Mesos intro
dennis zhuang
 
Full Stack Monitoring with Prometheus and Grafana (Updated)
Jazz Yao-Tsung Wang
 
前端自動化工具
國昭 張
 
RxJS 6 新手入門
Will Huang
 
使用Ubuntu架設hadoop
taishanla
 
快速入坑 Node.js - 0613 SITCON 雲林定期聚
Lorex L. Yang
 
Vue ithome
Yoyo Young
 
Hadoop程式開發環境
立鼎 蘇
 
D2_node在淘宝的应用实践_pdf版
Jackson Tian
 
云端的数据库
thinkinlamp
 
Mongo db 特性
Hermes Chiang
 
FHIR Server 安裝與使用
Lorex L. Yang
 
Mongo db 簡介
昱劭 劉
 
Spark sql培训
Jiang Yu
 
Hadoop开发者入门专刊
liangxiao0315
 
Hadoop-分布式数据平台
Jacky Chi
 
初探 Elastic Observability 的實踐方法
Joe Wu
 
使用 TypeScript 駕馭 Web 世界的脫韁野馬:以 Angular 2 開發框架為例
Will Huang
 
北護大/FHIR 開發簡介與應用
Lorex L. Yang
 
架設Hadoop叢集以及mapreduce開發環境
Phate334
 
Mesos intro
dennis zhuang
 
Ad

Viewers also liked (9)

PDF
Spring Data MongoDB 介紹
Kuo-Chun Su
 
PPTX
Hadoop 設定與配置
鳥 藍
 
PPTX
Electricity
Prabhusacademy
 
PPTX
Tecnologia pucmm (1)
francisca de los santos
 
PPTX
2. tercera reforma esalc
Carmen Wichtendahl
 
PDF
Pretuieste lectura calendarul cartilor 2017 (1)
Cimpeanemese
 
PPTX
VIEW Inside My Marketing Technology Stack
Bill Schilling
 
PDF
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Kuo-Chun Su
 
PDF
Redbooth Training - Introduction into a Project Management Software
Mark Copeland
 
Spring Data MongoDB 介紹
Kuo-Chun Su
 
Hadoop 設定與配置
鳥 藍
 
Electricity
Prabhusacademy
 
Tecnologia pucmm (1)
francisca de los santos
 
2. tercera reforma esalc
Carmen Wichtendahl
 
Pretuieste lectura calendarul cartilor 2017 (1)
Cimpeanemese
 
VIEW Inside My Marketing Technology Stack
Bill Schilling
 
Hadoop, the Apple of Our Eyes (這些年,我們一起追的 Hadoop)
Kuo-Chun Su
 
Redbooth Training - Introduction into a Project Management Software
Mark Copeland
 
Ad

Similar to HDInsight for Hadoopers (20)

PDF
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
PPTX
What could hadoop do for us
Simon Hsu
 
PPTX
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
 
PDF
Hadoop 2.0 之古往今來
Wei-Yu Chen
 
PDF
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
 
PDF
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
 
PPTX
HDFS與MapReduce架構研討
Billy Yang
 
PDF
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
 
PDF
20170108 微軟大數據整合解決方案- cortana intelligence suite
Meng-Ru (Raymond) Tsai
 
PDF
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
PDF
How to plan a hadoop cluster for testing and production environment
Anna Yen
 
PDF
2019-HPE Infosight AI智能雲平台功能解析1-7篇
裝機安 Angelo
 
PPT
Hadoop Map Reduce 程式設計
Wei-Yu Chen
 
PPTX
20151016 中興大學 big data + machine learning
Meng-Ru (Raymond) Tsai
 
PDF
Azure Resource in EN-TW-CN-JamesHong-20220614.pdf
plutojunjun
 
PDF
Log collection
FEG
 
PPTX
Introduction to big data
YuHsuan Chen
 
PDF
Hadoop 生態系十年回顧與未來展望
Jazz Yao-Tsung Wang
 
PPT
Hadoop 與 SQL 的甜蜜連結
James Chen
 
ODP
雲端技術的新趨勢
Jazz Yao-Tsung Wang
 
選擇正確的Solution 來建置現代化的雲端資料倉儲
Herman Wu
 
What could hadoop do for us
Simon Hsu
 
Hadoop 介紹 20141024
Jay Chu, PMP/OCM
 
Hadoop 2.0 之古往今來
Wei-Yu Chen
 
Apache hadoop and cdh(cloudera distribution) introduction 基本介紹
Anna Yen
 
Hadoop Deployment Model @ OSDC.TW
Jazz Yao-Tsung Wang
 
HDFS與MapReduce架構研討
Billy Yang
 
2016-07-12 Introduction to Big Data Platform Security
Jazz Yao-Tsung Wang
 
20170108 微軟大數據整合解決方案- cortana intelligence suite
Meng-Ru (Raymond) Tsai
 
大資料趨勢介紹與相關使用技術
Wei-Yu Chen
 
How to plan a hadoop cluster for testing and production environment
Anna Yen
 
2019-HPE Infosight AI智能雲平台功能解析1-7篇
裝機安 Angelo
 
Hadoop Map Reduce 程式設計
Wei-Yu Chen
 
20151016 中興大學 big data + machine learning
Meng-Ru (Raymond) Tsai
 
Azure Resource in EN-TW-CN-JamesHong-20220614.pdf
plutojunjun
 
Log collection
FEG
 
Introduction to big data
YuHsuan Chen
 
Hadoop 生態系十年回顧與未來展望
Jazz Yao-Tsung Wang
 
Hadoop 與 SQL 的甜蜜連結
James Chen
 
雲端技術的新趨勢
Jazz Yao-Tsung Wang
 

HDInsight for Hadoopers

  • 2. Agenda HDInsight 是 Microsoft 在 Azure 上頭提供的 Hadoop 服務,讓以往繁瑣的 Hadoop Cluster 設定,變成只是幾個簡單的精靈頁面操作。Hadoop 的 HDFS 分散式檔案系 統,跟 Azure 的 Storage 整合在一起,MapReduce 應用程式則是直接丟到 Cluster 內的 各個 Windows Server 虛擬機器上面執行。這個 Session 主要就是帶領大家在 Microsoft Azure 上頭從無到有,建置自己的 Hadoop Cluster,進行基本的 Hadoop 應用操作。 1. Hadoop 介紹 2. HDInsight 介紹 3. HDInsight 操作 2 / 30
  • 3. Bio 在 Java SE 與 Java EE 領域有十多年的講師教學經驗,熟悉 XML/Web Services、 Design Patterns、EJB/JPA 等 Java EE 規格,Struts/Spring Framework/Hibernate 等 Open Source Framework,與 JBoss AS、GlassFish 等 Application Server。 自認為會的技術不多,但是學不會的也不多,最擅長把老闆交代的工作,以及找 不到老師教的技術,想辦法變成自己的專長。 目前負責 Java 與 .NET 雲端運算相關技術的推廣,主要包括 Hadoop Platform 與 NoSQL 等 Big Data 相關應用,Microsoft Azure、Google App Engine、與 CloudBees 等雲端平台的運用,以及 iOS、Android、Windows Phone 等 Smart Phone 的應用程 式開發。 3 / 30
  • 6. 由創建 Lucene 與 Nutch 的 Doug Cutting 所建立 Lucene 是 Full-Featured Text Indexing and Searching Library Nutch 是 Web Search Engine 依循著 Google 在 2003/2004 年發表的論文來開發 2006 年從 Nutch 計劃獨立出來,稱之為 Hadoop 2008 年 1 月變成 Apache 的 Top-Level Project 2009 年 7 月 Yahoo! 與 Microsoft 在 Search 達成合作協議 2009 年 9 月 Doug Cutting 加入 Cloudera 公司擔任 Architect 2011 年 6 月 Yahoo! 內部的 Hadoop 團隊 Spin Off 出去,成 立 Hortonworks 公司 Hadoop 簡史 6 / 30
  • 7. Hadoop 的特色 Hadoop 的使用 情境 Accessible:普通 PC 或 VM 組成的 Cluster 就可以跑 Robust:所以要特別處理普通 PC 比較容易掛掉的問題 Scalable:隨著資料量增加,加入新機器就可以 Simple:透過 MapReduce 可以輕易寫出平行處理的程式 具備幾千個 Node 的 Scalability 把軟硬體發生 Failure 當成家常便飯 要處理的檔案多少不是重點,但是每個最好都很大 適合只會寫入一次/只有一人寫入,但是會讀取很多次 7 / 30
  • 8. Hadoop 平台 兩大部份:Hadoop Distributed File System 與 MapReduce Programming Paradigm 以 Java 開發,但是不支援 Java SE 6 之前的 JDK 版本 原則上 Linux 平台是一個 Hadoop 有支援的 Development 與 Production Platform Win32 可以是個 Development Platform,但是 Distributed Operation 沒有在 Win32 上面詳細測試過,所以不建議把 Win32 當成 Production Platform 不過,這件事因為 Hortonworks 把 Hadoop 移植到 Windows 平台,然後 Microsoft 又與 Hortonworks 合作,開始在 Azure 上支援 Hadoop 之後,有了改變 8 / 30
  • 9. 什麼是 HDFS Self-Healing、Distributed File System 以 Block 方式儲存資料,打破 Disk 實體限制 透過 Replication 的方式實現 Reliability 提供熟悉的操作介面,以及可以客製化的 API 提供 RESTful 介面方便客製化 9 / 30
  • 10. 什麼是 MapReduce 一個 Computing Model 把一個處理大量資料的 Job,拆解成許多可以在一堆 Server 平行處理的 Task 把 Code 往 Data 所在的 Server 搬移,減少 Network Traffic 各個 Task 執行的結果,會整合在一起,得到最終的結果 10 / 30
  • 11. MapReduce 的 Hello, Word Count! 11 / 30
  • 13. Microsoft 的 Big Data Solution 13 / 30
  • 14. 什麼是 HDInsight 2012 年 10 月發佈 以 Hortonworks Data Platform (HDP) 平台為基礎 結合 Microsoft Windows 簡易操作與 Hortonworks HDP 的穩定與威力 14 / 30
  • 16. Demo 1. 建立 Azure Blob Storage 2. 在 Azure Blob Storgae 裡頭建立 Container 3. 建立 HDInsight Cluster 4. 透過 Windows Azure PowerShell 操作 5. MapReduce 示範 6. Hive 示範 7. Power Query for Excel 示範 16 / 30
  • 17. 建立 Azure Blob Storage 17 / 30
  • 20. 自訂建立 HDInsight Cluster * 3.1 現在已經是正式版本了 20 / 30
  • 21. 透過 WebPI 安裝 Windows Azure PowerShell 21 / 30
  • 22. 透過 PowerShell 登入 Azure 22 / 30
  • 23. 透過 PowerShell 執行 MapReduce 範例 $subscription = "Azure 訂閱名稱" $cluster = "剛剛建立的 HDInsight Cluster 名稱" $jarFile = "wasb:///example/jars/hadoop-mapreduce-examples.jar" $className = "wordcount" $arguments1 = "wasb:///example/data/gutenberg/davinci.txt" $arguments2 = "wasb:///example/data/WordCountOutput" $waitTimeoutInSeconds = 3600 $jobDefinition = New-AzureHDInsightMapReduceJobDefinition -JarFile $jarFile -ClassName $className -Arguments $arguments1, $arguments2 Select-AzureSubscription $subscription $job = Start-AzureHDInsightJob -Cluster $cluster -JobDefinition $jobDefinition Wait-AzureHDInsightJob -Job $job -WaitTimeoutInSeconds $waitTimeoutInSeconds Get-AzureHDInsightJobOutput -Cluster $cluster -JobId $job.JobId -StandardError 23 / 30
  • 24. 透過 PowerShell 上傳 Hive 測試資料 ggplot R package 裡頭提供了測試資料,下載網址是 http://had.co.nz/data/movies/, 解壓縮之後放在 C:。 $subscription = "Azure 訂閱名稱" $cluster = "剛剛建立的 HDInsight Cluster 名稱" Select-AzureSubscription $subscription Use-AzureHDInsightCluster $cluster $storageAccountName = "剛剛建立的 Storage 名稱" $container = "剛剛建立的 Container 名稱" $file = "C:movies.tab" $blob = "movies/movies.tab" $storageAccountKey = Get-AzureStorageKey –StorageAccountName $storageAccountName $context = New-AzureStorageContext –StorageAccountName $storageAccountName -StorageAccountKey $storageAccountKey.Primary Set-AzureStorageBlobContent -Container $container -File $file -Blob $blob -Context $context 24 / 30
  • 25. 透過 PowerShell 執行 Hive 範例 $response = Invoke-Hive -Query @" create external table movies(title string, year string, length int, budget float, rating float, votes int, r1 float, r2 float, r3 float, r4 float, r5 float, r6 float, r7 float, r8 float, r9 float, r10 float, mpaa string, Action boolean, Animation boolean, Comedy boolean, Drama boolean, Documentary boolean, Romance boolean,Short boolean) row format delimited fields terminated by 't' lines terminated by 'n'; "@ Write-Host $response $response = Invoke-Hive -Query @" load data inpath '/movies/movies.tab' overwrite into table movies; "@ Invoke-Hive "select count(*) from movies" Invoke-Hive "select year, count(*) from movies group by year;" Invoke-Hive -Query @" insert overwrite directory 'moviesoutput' select concat_ws(',', cast(size(split(title, ' ')) as string), cast(count(*) as string)) from movies group by size(split(title, ' ')); "@ 25 / 30
  • 26. Microsoft 商業智慧工具 Hadoop 運算的結果可以透過 ODBC 匯入 Excel,無痛使用 PowerPivot 與 Power Query/Power View 等 BI 工具分析資料 Hadoop 運算的結果可以透過 Sqoop 匯入 SQL Server,跟 SQL Server Analysis Service、Reporting Service 等 BI 工具無縫整合 26 / 30
  • 27. 下載 Power Query for Excel 安裝 27 / 30
  • 28. POWER QUERY -> 取得外部資料 -> 從其他來源 -> 從 Windows Azure HDInsight 28 / 30