媒體報導關聯性分析:以太陽花學運為例

37
媒體報導關聯性分析 ─以太陽花學運為例 清華統計所 謝宗震 (Johnson) Dec 6 th 2014 社會學年會

Upload: johnson-hsieh

Post on 14-Jul-2015

337 views

Category:

Documents


4 download

TRANSCRIPT

媒體報導關聯性分析 ─以太陽花學運為例

清華統計所 謝宗震 (Johnson) Dec 6th 2014 社會學年會

⾝身為⼀一位⽣生態統計學家 怎麼會牽扯到媒體關聯性?

我因為⼀一張圖⽽而來到這裡

http://readata.org/datasci/ecfa-and-data-science/

故事從這裡說起...

http://juan.tw/?p=2269

http://g0v.today

⽂文播組沒說完的話:我們是⼀一群對程式幾乎⼀一無所知的⼈人,想做些事情,只是沒有平台、也不會這些技術。我們不曉得這個夢會不會太⼤大,但只是想整合資源,⽽而不想讓資料隨⾵風飄,然後就消失了......

還有就是想要把這個屬於台灣⼈人⾃自⼰己的歷史完完整整記錄下來,最完整的歷史記錄,留下後讓後⼈人⾃自⼰己來評論。https://g0v.hackpad.com/ep/pad/static/07KBjTxWEFS

我問⾃自⼰己⼀一個問題 現場⽂文播資料可以怎麼⽤用?

That is data-driven !

現場情況 V.S. 現場⽂文播

現場情況 V.S. 現場⽂文播 V.S. 新聞報導

有沒有辦法量化 新聞媒體報導的真實性?

基本上 沒有完美的辦法

不過 媒體的關聯性應該有辦法

怎麼量化關聯性? 先設想 你需要什麼 / 有什麼資料

怎麼獲取媒體報導資料?

除了堅毅不拔的複製 / 貼上之外...你還會什麼?

特別感謝

Ronny Wang and NewsDiff

我收集了三萬多筆學運相關報導的原始資料

怎麼量化關聯性? 接著問 這些資料可以怎麼⽤用?

使⽤用關鍵字頻作為基本量化元素

http://johnsonhsieh.github.io/study-area-statR/#49 https://github.com/JohnsonHsieh/study-area-statR/blob/gh-pages/src/tm.R

Quick references

• Statistics with R (Johnson) • slide: http://johnsonhsieh.github.io/study-area-statR/#49

• vod : https://www.youtube.com/watch?v=XbNx-I9fLWQ

• Text Mining with R (Jiawei) • slide : https://docs.google.com/presentation/d/

1IP5vFmBlGPBp32bWDqSpGYLox5QVmenFAfPwcOseQhQ/edit#slide=id.p

• vod : https://www.youtube.com/watch?v=ALZaXnzXPg8

怎麼計算關聯性?

Pearson correlation coefficient

最廣為⼈人知的相關性指標

但是本案例中完全⽤用不上

觀察資料的結構 該怎麼計算關聯性?

Ref: Chao, A., Jost, L., Chiang, S. C. Jiang Y.- H. and Chazdon, R. (2008). A Two-stage probabilistic approach to multiple-community similarity indices.Biometrics 64, 1178-1186. (pdf file)

蘋果 中時 ⾃自由 聯合 PTT 現場蘋果 1中時 0.82 1⾃自由 0.84 0.80 1聯合 0.82 0.83 0.81 1

PTT 0.75 0.68 0.71 0.69 1現場 0.78 0.71 0.72 0.71 0.78 1

蘋果 中時 ⾃自由 聯合 PTT 現場蘋果中時 0.88⾃自由 1.00 0.75聯合 0.88 0.94 0.81PTT 0.44 0.00 0.19 0.06現場 0.63 0.19 0.25 0.19 0.63

Source Target Type Weight

1 蘋果 中時 Undirected0.88

2 蘋果 ⾃自由 Undirected1.00

3 蘋果 聯合 Undirected0.88

4 蘋果 PTT Undirected0.44

5 蘋果 現場 Undirected0.63

6 中時 ⾃自由 Undirected0.75

7 中時 聯合 Undirected0.94

8 中時 PTT Undirected0.00

9 中時 現場 Undirected0.19

10 ⾃自由 聯合 Undirected0.81

11 ⾃自由 PTT Undirected0.19

12 ⾃自由 現場 Undirected0.25

13 聯合 PTT Undirected0.06

14 聯合 現場 Undirected0.19

15 PTT 現場 Undirected0.63

相似度矩陣

Gephi import format

最後得到所謂的媒體關係圖

http://readata.org/datasci/ecfa-and-data-science/

MLDM monday Taiwan R User Group

Free R Online Tutorials is coming !!!!Meetup: http://www.meetup.com/Taiwan-R/ YouTube: https://www.youtube.com/user/TWuseRGroup

Data Science HC

每週三晚上七點,清⼤大綜三館R834

thank you