社群與新聞 資料分析 實作課程
TRANSCRIPT
![Page 1: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/1.jpg)
社群與新聞資料分析實作課程
Gene (黑貘)/2015-04-28
![Page 2: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/2.jpg)
https://goo.gl/VqPASq
![Page 3: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/3.jpg)
其貘
管理科學
化學
數學, 商用數學
資管, 資工
圖書館
![Page 4: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/4.jpg)
其夢
2005: MyZilla2006: 部落格觀察2007: Hook: 關鍵字熱度2008: Plurk.tw2009: Google + 排行榜2010: 網點: SEO.datamining.tw2011: 神貘天氣2012: 網事: web.mas.ter.tw2013: 林克傳說2014: 社群排行榜2015: 新文易數
![Page 5: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/5.jpg)
我不是好的講師
1. 我從來不講相同的東西, 每次講都是重新準備, 講最新的東西, 不太喜歡講舊觀念, 而一個好的講師往往是因為熟練講
得更好
2. 我不太會深入淺出, 就一開始就講我認為值得講的, 外面書上寫過的或 FAQ 我就很習慣跳過, 所以入門的人來聽就會
很尷尬...3. 我很少提前備課, 我發現在講時前一小時寫完投影片, 講的思考連續性與效果是最好
4. 我很少講別人的範例, 或是用別人的投影片, 所以很少精美的投影片
5. 我強調的是邏輯思維, 而不是純架構而已, 所以很常漏失外面的基本常識
6. 我不太喜歡自我介紹, 真的要講自介只講跟課程/講題有關的
7. 我很受聽眾的影響, 互動得好我就會講得很盡興, 下面在睡的話我反而比聽眾更想睡
8. 我喜歡講自己的作品, 而不是用較宏觀的角度來看
9. 我習慣做內部訓練, 至少知道這群人的程度, 這樣比較好講, 也往往不會受時間限制
10. 相對的一般性的對外演講經驗很少, 一年只有 10~20 次而已, 所以練習的次數經驗無法跟專業的比
11. 我不太講技術以外的事, 所以最好是有實作能力與經驗的人來聽..12. 我不講黑暗兵法...
![Page 6: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/6.jpg)
Big Data 的 5V
Volumne
Velocity
Variety
Veracity
Value
![Page 7: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/7.jpg)
![Page 8: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/8.jpg)
![Page 9: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/9.jpg)
![Page 10: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/10.jpg)
課程目標
1. 實作新聞探勘系統
2. 整合資料的價值
3. 與臉書資料的串接
![Page 11: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/11.jpg)
專家系統 vs 使用者資料
1. 透過所有媒體作家定義資訊標籤
2. 臉書的所有使用者對文章做互動
3. 計算對應出使用者與標籤的數量
4. 與其他資訊的差異與時間性比較
![Page 12: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/12.jpg)
tag.analysis.tw (新文易數)
記者的採訪與下 Tag
所有記者的聚焦
使用者社群的熱度
轉計算到 Tag 的熱門話題
=> 知道 PGC (OGC) 與 UGC 的差異
![Page 13: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/13.jpg)
新文易數的系統流程 (I)
1. 抓取媒體的文章列表
2. 每篇文章的 Tags3. 計算 Tags 總數
4. 計算分數 (Normalization)5. 從趨勢計算爆發力
6. 計算 Tag 關聯與距離等基本數值
![Page 14: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/14.jpg)
新文易數的系統流程 (II)
7. 計算等價標籤
8. 把 Tag 組成事件
9. 計算出主要標籤
10. 做成事件簿與新聞牆
![Page 15: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/15.jpg)
新文易數的系統流程 (III)
11. 計算有意義的標籤
12. 套用在沒有 Tag 的新聞網站
13. 計算連結文章的社群數值
14. 回算出每個 Tag 的社群數值
![Page 16: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/16.jpg)
新文易數的研究方法
1. 量化: 半衰期控制時間量級
2. 質化: 如何定義等價標籤
3. 正負: 從讚享評的分配定義出正負評
4. 呈現: 透過對數來轉換比較
![Page 17: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/17.jpg)
研究目的
大數據的時代, 透過使用者行為能夠獲取相當數量的資料, 但要轉化成有意義的資訊
須要一些過程, 利用專家系統的聚焦然後配合社群行為的大量資料, 就可以提高解讀
資訊的價值.
![Page 18: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/18.jpg)
研究方法的挑戰
現代科技如何應用在研究調查統計
大數據資料探勘須要很多先驗資訊才會有效
![Page 19: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/19.jpg)
目前研究方法的不足
時間性: 最新的資料是最有效的
廣泛性: 研究者就自己的想法猜測
客觀性: 侵入式的資料有很強的主觀
數量性: 很少抓取全體資訊
![Page 20: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/20.jpg)
資料探勘與學術研究的比較
即時 vs 區間
全體 vs 抽樣
個體 vs 分類
自動化 vs 操作
客觀分析 vs 主觀模型
次級資料 vs 直接資料
![Page 21: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/21.jpg)
![Page 22: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/22.jpg)
次級資料
1. 我們有時只能從已抓的資料下手, 而不是最實際的資料
2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義
3. 我們可以視其須要及適用度, 去調整演算法或資料搜集
4. 對於資料的可能性與適用性, 我們還須要一段路來學習
![Page 23: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/23.jpg)
網路民意與抽樣調查最不一樣的地方
1. 網路民意是搜集使用者主動的行為, 而抽樣調查是被動被問問題. 2. 網路民意是可以做到所有的母體/群眾, 而抽樣調查是子集合/子體. 3. 網路民意是每天或隨時都在變化有數字, 而抽樣調查一定是個區間或有時間間
隔. 4. 網路民意是特定一個族群, 而抽樣調查的族群較為廣泛. 5. 網路民意不見得知道其背景資料, 而抽樣調查通常會詢問其背景資料
![Page 24: 社群與新聞 資料分析 實作課程](https://reader035.vdocuments.pub/reader035/viewer/2022062900/58ec85381a28ab810d8b4687/html5/thumbnails/24.jpg)
專家系統 vs 使用者資料
1. 透過所有媒體作家定義資訊標籤
2. 臉書的所有使用者對文章做互動
3. 計算對應出使用者與標籤的數量
4. 與其他資訊的差異與時間性比較