SlideShare a Scribd company logo
資料科學與媒體報導關聯性分析
—以太陽花學運為例
清華統計所博⼠士後研究員 謝宗震 (Johnson)!
May 15th 2014
About Me
學歷!
• 清華統計所博⼠士 (2009-2013)
現職!
• 清華統計所博⼠士後研究員
• TW.R group Officer
• Data Science Program 講師
擅⻑⾧長!
• Statistics, biodiversity,
community ecology, population
genetic, R programing
Blog
• 讀數⼀一格 http://readata.org
我因為⼀一張圖⽽而來到這裡
http://readata.org/datasci/ecfa-and-data-science/
回到今天的第⼀一個主題
資料科學
什麼是資料科學?
資料科學可以解決什麼問題?
就我的觀察,
資料科學⾄至少可以解決幾種問題...
解決考卷上的問題
http://www.ics.uci.edu/~jutts/8/FinalExamAKey.pdf
解決發paper的問題
http://www.iscramlive.org/ISCRAM2011/proceedings/papers/119.pdf
解決⽣生活上的問題
http://www.sonypictures.com/movies/21/
http://archive.indianexpress.com/news/review-the-wolf-of-wall-street/1215087/
事實上,應該問的是
怎麼⽤用資料科學解決問題?
為了回答這個問題
先要了解資料科學的基本流程
資料科學的基本流程
產品導向的分析流程
資料科學的基本流程
http://columbiadatascience.com/2013/09/16/introduction-to-data-science-version-2-0/
資料導向的分析流程
真實流程遠⽐比以下複雜多了
學習路徑圖
http://nirvacana.com/thoughts/becoming-a-data-scientist/
http://www.dataists.com/2010/09/the-data-science-venn-diagram/
The Data Science Venn Diagram
資料科學家好⽐比⼀一隻軍隊
現實⽣生活中 你需要的可能是
⼀一隻資料科學團隊
http://media.edge-online.com/wp-content/uploads/edgeonline/2013/02/ArmyOfTwo2.jpg
http://www.themovieblog.com/archives/iron-man-post.jpg
可以講媒體關聯性分析了
終於
?
Question?
⾝身為⼀一位⽣生態統計學家
怎麼會牽扯到媒體關聯性?
故事從這裡說起...
http://juan.tw/?p=2269
http://g0v.today
⽂文播組沒說完的話:
我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒
有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,
但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......
還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下
來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。
https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS
我問⾃自⼰己⼀一個問題
現場⽂文播資料可以怎麼⽤用?
現場情況 V.S. 現場⽂文播
現場⽂文播 V.S. 新聞報導
有沒有辦法量化 新聞媒體報導的真實性?
基本上 沒有 完美的辦法
不過 媒體的關聯性應該有辦法
怎麼量化關聯性?
先設想 你需要什麼 / 有什麼資料
Data science and ECFA media analysis
怎麼獲取媒體報導資料?
Data science and ECFA media analysis
除了堅毅不拔的複製 / 貼上之外...
你還會什麼?
Data science and ECFA media analysis
特別感謝
Ronny Wang and NewsDiff
我收到了三萬多筆學運相關報導的原始資料
怎麼量化關聯性?
接著問 這些資料可以怎麼⽤用?
Data science and ECFA media analysis
使⽤用關鍵字頻作為基本量化元素
http://johnsonhsieh.github.io/study-area-statR/#49
這個過程⽤用了以下技術
Quick references
• Statistics with R (Johnson)
• slide: http://johnsonhsieh.github.io/study-area-statR/#49
• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ
• Text Mining with R (Glen)
• slide : https://docs.google.com/presentation/d/
1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQh
Q/edit#slide=id.p
• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8
怎麼計算關聯性?
Pearson correlation coefficient
最廣為⼈人知的相關性指標
但是本案例中完全⽤用不上
觀察資料的結構
該怎麼計算關聯性?
Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage
probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)
Data science and ECFA media analysis
這個過程⽤用了以下技術
最後得到所謂的媒體關係圖
http://readata.org/datasci/ecfa-and-data-science/
Question?
– ⺩王中佾、戚宇賢、林秉儒
在進⾏行社群媒體上的內容分析時,需要列出「關鍵字」
以進⾏行資料撈取,然⽽而,研究者該如何界定哪些是關鍵
字、那些不是關鍵字?
idea: frequencies and weight
– 吳⾟辛夷、廖苡涵、謝佳佑
蒐集新聞資料時應以什麼樣的時間⻑⾧長度作為⼀一個單位?
!
由於現在各家媒體轉載、合作⽅方式多,如何區分各家媒體
的資訊來源?
idea: published time, hyperlink, similarity
– 蕭奕凱、李欣穎、任喆鸝
想請教您有關「相似度指標」的細節。因為我們課 堂報告的題⺫⽬目是「區
分⼤大量留⾔言的⽴立場」,需要將留⾔言辨別為「正⾯面的」、「負⾯面的」或「中
⽴立持平的」。然後就⾯面臨了留⾔言的相似度與⽴立場辨別之間的問題。
!
如果將您繪製的網絡再加上時間變數,隨著事件的發展與沉寂,網絡會漸
漸變得越來越不⼀一樣嗎?
!
在得知蘋果⽇日報是服貿議題的新聞 散播中⼼心之後(根據您的發現:蘋果
⽇日報與所有報導來源都有⾼高度的關聯性),運⽤用何種研究⽅方法可以釐清新
聞後續的散播路徑與⽅方向?
idea: machine learning, time-varying covariate
Examples:
服貿東⻄西軍: http://ecfa.speaking.tw/imho.php
News Nexus: https://www.facebook.com/387816094628136/posts/604071486335928
– 莊漢菱、沈威志、陳宣耀
在⺫⽬目前的服貿事件X資料科學中可以看到各種媒體與現場
情況之間的關聯性,也知道蘋果⽇日報與所有報導來源都有
相當⾼高度關聯,然⽽而不知道是否有任何研究⽅方式可以得知
各個媒體或是報導來源的先後順序?也就是哪家媒體可能
跟另⼀一個媒體互為資料上下游的關係?
idea: published time, time-varying covariate
– 林⾔言翰、韓凡霖、陳毓屏、彭 湘
以Hot Topic的概念來看,這次的太陽花學運的形成與之前的學
運有什麼型態上的不⼀一樣?有哪些特徵值是需要特別注意的
嗎? ⼜又,太陽花學運的興起是否與社群網路的興盛有關?
!
⺫⽬目前市⾯面上的分析⼯工具眾多,以R為分析⼯工具,與SPSS或者
SAS等⼯工具相⽐比有什麼利基特⾊色或者使⽤用族群上的市場區隔
呢?
idea: how to quantify?
Ref:
SAS, SPSS末路?: http://r4stats.com/2013/05/14/beginning-of-the-end-v2/
R for SAS and SPSS Users: http://r4stats.com/books/r4sas-spss/
如果沒⼈人想繼續提問 ⼜又還有時間
我想再說⼀一個故事...
其實 web crawling & text mining 的技術
我只學了半天...
當時是在 pixnet hackathon (2014-03-22)
http://pixnethackathon2014.events.pixnet.net/
痞客邦 美⻝⾷食分類前1000名
部落格⽂文章標題分析
http://programmermagazine.github.io/201402/htm/article6.html
Ref: ⽤用 R 進⾏行中⽂文 text Mining (作者:陳嘉葳@Taiwan R User Group)
Data Science 相關資源
Data Science Program
http://datasci.co/
t
MLDM monday
Taiwan R User Group
Free R Online Tutorials is coming !!!!
Meetup: http://www.meetup.com/Taiwan-R/
YouTube: https://www.youtube.com/user/TWuseRGroup
台灣資料科學愛好者年會 2014
2014/8/30 (Sat) - 2014/8/31 (Sun) 中研院⼈人⽂文社會科學館國際會議廳
http://twconf.data-sci.org/
Follow my slideshare account
http://www.slideshare.net/euler96
Thanks for listening
http://3.bp.blogspot.com/-wYuLfk1NGbY/UXaxv0-9prI/AAAAAAAAAaw/G8kQpHiA2No/s1600/ironman3_3.jpg

More Related Content

What's hot (6)

PPTX
一名女科技人的反思
Yi-Shin Chen
 
PPTX
從人工智慧反思教育現場
Yi-Shin Chen
 
PPTX
【D4SG】新竹縣環保局-便利資訊看板(雛形)
Mickey Lai
 
PPTX
How to develop big data
Phoenix Su
 
PPTX
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
Yung-Ting Chen
 
PDF
採購開竅 - OK Tasigle
DSP智庫驅動
 
一名女科技人的反思
Yi-Shin Chen
 
從人工智慧反思教育現場
Yi-Shin Chen
 
【D4SG】新竹縣環保局-便利資訊看板(雛形)
Mickey Lai
 
How to develop big data
Phoenix Su
 
20150504 建構整合異質性數位典藏之開放原始碼資源探索系統先導研究
Yung-Ting Chen
 
採購開竅 - OK Tasigle
DSP智庫驅動
 

Viewers also liked (7)

PDF
媒體報導關聯性分析:以太陽花學運為例
Johnson Hsieh
 
PDF
電腦不只會幫你選土豆,還會幫你選新聞
Andy Dai
 
PDF
資料原力,改變社會
Johnson Hsieh
 
PDF
《簡報化妝術》公開班課程介紹
林 稚蓉
 
PDF
有效的教學簡報技巧
林 稚蓉
 
PDF
導演您的教學簡報
林 稚蓉
 
PDF
Slide share 全世界最大簡報知識共享平台
bunny4776
 
媒體報導關聯性分析:以太陽花學運為例
Johnson Hsieh
 
電腦不只會幫你選土豆,還會幫你選新聞
Andy Dai
 
資料原力,改變社會
Johnson Hsieh
 
《簡報化妝術》公開班課程介紹
林 稚蓉
 
有效的教學簡報技巧
林 稚蓉
 
導演您的教學簡報
林 稚蓉
 
Slide share 全世界最大簡報知識共享平台
bunny4776
 
Ad

More from Johnson Hsieh (8)

PDF
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
Johnson Hsieh
 
PDF
[網二] 『資料力,做公益』- 開創公共服務的新契機
Johnson Hsieh
 
PDF
資料視覺化的力量
Johnson Hsieh
 
PDF
iNEXT: An R package for interpolation and extrapolation in measuring species ...
Johnson Hsieh
 
PDF
Statistics with R
Johnson Hsieh
 
PDF
iNEXT: an r package for interpolation and extrapolation species diversity
Johnson Hsieh
 
PDF
Intro shiny coscup2013
Johnson Hsieh
 
PPT
Paper Summary
Johnson Hsieh
 
[網二] 打擊家暴的資料英雄--- NPO如何憑藉數據來解決社會問題?
Johnson Hsieh
 
[網二] 『資料力,做公益』- 開創公共服務的新契機
Johnson Hsieh
 
資料視覺化的力量
Johnson Hsieh
 
iNEXT: An R package for interpolation and extrapolation in measuring species ...
Johnson Hsieh
 
Statistics with R
Johnson Hsieh
 
iNEXT: an r package for interpolation and extrapolation species diversity
Johnson Hsieh
 
Intro shiny coscup2013
Johnson Hsieh
 
Paper Summary
Johnson Hsieh
 
Ad

Data science and ECFA media analysis