data science and ecfa media analysis

Post on 24-May-2015

1.810 Views

Category:

Presentations & Public Speaking

5 Downloads

Preview:

Click to see full reader

DESCRIPTION

資料科學與媒體報導關聯性分析—以太陽花學運為例

TRANSCRIPT

資料科學與媒體報導關聯性分析—以太陽花學運為例

清華統計所博⼠士後研究員 謝宗震 (Johnson)!May 15th 2014

About Me學歷!

• 清華統計所博⼠士 (2009-2013)

現職!• 清華統計所博⼠士後研究員 • TW.R group Officer • Data Science Program 講師

擅⻑⾧長!• Statistics, biodiversity,

community ecology, population genetic, R programing

Blog • 讀數⼀一格 http://readata.org

我因為⼀一張圖⽽而來到這裡

http://readata.org/datasci/ecfa-and-data-science/

回到今天的第⼀一個主題

資料科學

什麼是資料科學?

資料科學可以解決什麼問題?

就我的觀察, 資料科學⾄至少可以解決幾種問題...

解決考卷上的問題

http://www.ics.uci.edu/~jutts/8/FinalExamAKey.pdf

解決發paper的問題

http://www.iscramlive.org/ISCRAM2011/proceedings/papers/119.pdf

解決⽣生活上的問題

http://www.sonypictures.com/movies/21/

http://archive.indianexpress.com/news/review-the-wolf-of-wall-street/1215087/

事實上,應該問的是 怎麼⽤用資料科學解決問題?

為了回答這個問題 先要了解資料科學的基本流程

資料科學的基本流程

產品導向的分析流程

資料科學的基本流程

http://columbiadatascience.com/2013/09/16/introduction-to-data-science-version-2-0/

資料導向的分析流程

真實流程遠⽐比以下複雜多了

學習路徑圖http://nirvacana.com/thoughts/becoming-a-data-scientist/

http://www.dataists.com/2010/09/the-data-science-venn-diagram/

The Data Science Venn Diagram

資料科學家好⽐比⼀一隻軍隊 現實⽣生活中 你需要的可能是 ⼀一隻資料科學團隊

http://media.edge-online.com/wp-content/uploads/edgeonline/2013/02/ArmyOfTwo2.jpg

http://www.themovieblog.com/archives/iron-man-post.jpg

可以講媒體關聯性分析了終於

?Question?

⾝身為⼀一位⽣生態統計學家 怎麼會牽扯到媒體關聯性?

故事從這裡說起...

http://juan.tw/?p=2269

http://g0v.today

⽂文播組沒說完的話:我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......

還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS

我問⾃自⼰己⼀一個問題 現場⽂文播資料可以怎麼⽤用?

現場情況 V.S. 現場⽂文播

現場⽂文播 V.S. 新聞報導

有沒有辦法量化 新聞媒體報導的真實性?

基本上 沒有完美的辦法

不過 媒體的關聯性應該有辦法

怎麼量化關聯性? 先設想 你需要什麼 / 有什麼資料

怎麼獲取媒體報導資料?

除了堅毅不拔的複製 / 貼上之外...你還會什麼?

特別感謝

Ronny Wang and NewsDiff

我收到了三萬多筆學運相關報導的原始資料

怎麼量化關聯性? 接著問 這些資料可以怎麼⽤用?

使⽤用關鍵字頻作為基本量化元素

http://johnsonhsieh.github.io/study-area-statR/#49

這個過程⽤用了以下技術

Quick references

• Statistics with R (Johnson) • slide: http://johnsonhsieh.github.io/study-area-statR/#49

• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ

• Text Mining with R (Glen) • slide : https://docs.google.com/presentation/d/

1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQhQ/edit#slide=id.p

• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8

怎麼計算關聯性?

Pearson correlation coefficient

最廣為⼈人知的相關性指標

但是本案例中完全⽤用不上

觀察資料的結構 該怎麼計算關聯性?

Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)

這個過程⽤用了以下技術

最後得到所謂的媒體關係圖

http://readata.org/datasci/ecfa-and-data-science/

Question?

– ⺩王中佾、戚宇賢、林秉儒

在進⾏行社群媒體上的內容分析時,需要列出「關鍵字」以進⾏行資料撈取,然⽽而,研究者該如何界定哪些是關鍵字、那些不是關鍵字?

idea: frequencies and weight

– 吳⾟辛夷、廖苡涵、謝佳佑

蒐集新聞資料時應以什麼樣的時間⻑⾧長度作為⼀一個單位? !由於現在各家媒體轉載、合作⽅方式多,如何區分各家媒體的資訊來源?

idea: published time, hyperlink, similarity

– 蕭奕凱、李欣穎、任喆鸝

想請教您有關「相似度指標」的細節。因為我們課 堂報告的題⺫⽬目是「區分⼤大量留⾔言的⽴立場」,需要將留⾔言辨別為「正⾯面的」、「負⾯面的」或「中⽴立持平的」。然後就⾯面臨了留⾔言的相似度與⽴立場辨別之間的問題。 !如果將您繪製的網絡再加上時間變數,隨著事件的發展與沉寂,網絡會漸漸變得越來越不⼀一樣嗎? !在得知蘋果⽇日報是服貿議題的新聞 散播中⼼心之後(根據您的發現:蘋果⽇日報與所有報導來源都有⾼高度的關聯性),運⽤用何種研究⽅方法可以釐清新聞後續的散播路徑與⽅方向?

idea: machine learning, time-varying covariate

Examples: 服貿東⻄西軍: http://ecfa.speaking.tw/imho.php News Nexus: https://www.facebook.com/387816094628136/posts/604071486335928

– 莊漢菱、沈威志、陳宣耀

在⺫⽬目前的服貿事件X資料科學中可以看到各種媒體與現場情況之間的關聯性,也知道蘋果⽇日報與所有報導來源都有相當⾼高度關聯,然⽽而不知道是否有任何研究⽅方式可以得知各個媒體或是報導來源的先後順序?也就是哪家媒體可能跟另⼀一個媒體互為資料上下游的關係?

idea: published time, time-varying covariate

– 林⾔言翰、韓凡霖、陳毓屏、彭 湘

以Hot Topic的概念來看,這次的太陽花學運的形成與之前的學運有什麼型態上的不⼀一樣?有哪些特徵值是需要特別注意的嗎? ⼜又,太陽花學運的興起是否與社群網路的興盛有關? !⺫⽬目前市⾯面上的分析⼯工具眾多,以R為分析⼯工具,與SPSS或者SAS等⼯工具相⽐比有什麼利基特⾊色或者使⽤用族群上的市場區隔呢?

idea: how to quantify?Ref: SAS, SPSS末路?: http://r4stats.com/2013/05/14/beginning-of-the-end-v2/ R for SAS and SPSS Users: http://r4stats.com/books/r4sas-spss/

如果沒⼈人想繼續提問 ⼜又還有時間我想再說⼀一個故事...

其實 web crawling & text mining 的技術 我只學了半天...

當時是在 pixnet hackathon (2014-03-22)

http://pixnethackathon2014.events.pixnet.net/

痞客邦 美⻝⾷食分類前1000名 部落格⽂文章標題分析

http://programmermagazine.github.io/201402/htm/article6.html

Ref: ⽤用 R 進⾏行中⽂文 text Mining (作者:陳嘉葳@Taiwan R User Group)

Data Science 相關資源

Data Science Program

http://datasci.co/

t

MLDM monday Taiwan R User Group

Free R Online Tutorials is coming !!!!Meetup: http://www.meetup.com/Taiwan-R/ YouTube: https://www.youtube.com/user/TWuseRGroup

台灣資料科學愛好者年會 20142014/8/30 (Sat) - 2014/8/31 (Sun) 中研院⼈人⽂文社會科學館國際會議廳

http://twconf.data-sci.org/

Follow my slideshare account http://www.slideshare.net/euler96

Thanks for listening

http://3.bp.blogspot.com/-wYuLfk1NGbY/UXaxv0-9prI/AAAAAAAAAaw/G8kQpHiA2No/s1600/ironman3_3.jpg

top related