從專家到社群 即時資訊採集分析系統

27
從專家到社群 即時資訊採集分析系統 洪進吉/陳其貝/2015-09-03

Upload: gene-hong

Post on 11-Apr-2017

615 views

Category:

Internet


2 download

TRANSCRIPT

從專家到社群即時資訊採集分析系統

洪進吉/陳其貝/2015-09-03

研究目的

大數據的時代, 透過使用者行為能夠獲取相當數

量的資料, 但要轉化成有意義的資訊須要一些過

程, 利用專家系統的聚焦然後配合社群行為的大

量資料, 就可以提高解讀資訊的價值.

研究方法的挑戰

現代科技如何應用在研究調查統計

大數據資料探勘須要很多先驗資訊才會有效

目前研究方法的不足

時間性: 最新的資料是最有效的

廣泛性: 研究者就自己的想法猜測

客觀性: 侵入式的資料有很強的主觀

數量性: 很少抓取全體資訊

資料探勘與學術研究的比較

即時 vs 區間

全體 vs 抽樣

個體 vs 分類

自動化 vs 操作

客觀分析 vs 主觀模型

次級資料 vs 直接資料

次級資料

1. 我們有時只能從已抓的資料下手, 而不是最實際的資料

2. 這種指數的計算是簡化其複雜度, 一定會失去一些意義

3. 我們可以視其須要及適用度, 去調整演算法或資料搜集

4. 對於資料的可能性與適用性, 我們還須要一段路來學習

網路民意與抽樣調查最不一樣的地方

1. 網路民意是搜集使用者主動的行為, 而抽樣調查是被動被問問題. 2. 網路民意是可以做到所有的母體/群眾, 而抽樣調查是子集合/子體. 3. 網路民意是每天或隨時都在變化有數字, 而抽樣調查一定是個區間或有時間間隔. 4. 網路民意是特定一個族群, 而抽樣調查的族群較為廣泛. 5. 網路民意不見得知道其背景資料, 而抽樣調查通常會詢問其背景資料

專家系統 vs 使用者資料

1. 透過所有媒體作家定義資訊標籤2. 臉書的所有使用者對文章做互動3. 計算對應出使用者與標籤的數量4. 與其他資訊的差異與時間性比較

tag.analysis.tw (新文易數)

記者的採訪與下 Tag所有記者的聚焦

使用者社群的熱度

轉計算到 Tag 的熱門話題

=> 知道 PGC (OGC) 與 UGC 的差異

新文易數的系統流程 (I)

1. 抓取媒體的文章列表2. 每篇文章的 Tags3. 計算 Tags 總數4. 計算分數 (Normalization)5. 從趨勢計算爆發力6. 計算 Tag 關聯與距離等基本數值

新文易數的系統流程 (II)

7. 計算等價標籤

8. 把 Tag 組成事件

9. 計算出主要標籤

10. 做成事件簿與新聞牆

新文易數的系統流程 (III)

11. 計算有意義的標籤

12. 套用在沒有 Tag 的新聞網站

13. 計算連結文章的社群數值

14. 回算出每個 Tag 的社群數值

新文易數的研究方法

1. 量化: 半衰期控制時間量級2. 質化: 如何定義等價標籤3. 正負: 從讚享評的分配定義出正負評4. 呈現: 透過對數來轉換比較

定義議題的比較

服貿媒體分眾媒體的光譜分析

計算一個人的傾向

延伸研究 -- 得票率 0.901 的正相關

2016 總統候選人聲量

系統資訊

新文易數: http://tag.analysis.tw/