大數據與商業分析 -...

62
大數據與商業分析 Big Data and Business Analytics Guest Speaker: Shirley Li, 意藍OpView團隊 2017.4.25 1

Upload: others

Post on 16-Jun-2020

24 views

Category:

Documents


0 download

TRANSCRIPT

大數據與商業分析

Big Data and Business Analytics

Guest Speaker: Shirley Li, 意藍OpView團隊

2017.4.25

1

Copyright © Proprietary and Confidential. All rights reserved.

課程大綱

前言

(一)案例分享

社群data

(二)文字探勘工具-Etool應用實作

本學期課程回顧 v.s. 對應工具功能

說明與介紹

實機練習

Copyright © Proprietary and Confidential. All rights reserved.

前言

「大數據」(Big Data)自 2011 年起逐漸進入商業大眾的

視野,相關書籍與論述如雨後春筍般出現,各行各業也都對

此一名詞充滿期待。現實商業情境中,數據分析是圍繞「大

數據」各種想像的基礎條件。著眼於培養企業需求日殷的數

據分析人才,此一跨系課程針對台大管理學院的同學而設,

透過講演與專案,概念與實作並重,有系統介紹數據分析的

商管相關應用,為有志於成為商業應用領域數據科學家的不

同背景修課同學,奠定未來發展的基礎。

3

Copyright © Proprietary and Confidential. All rights reserved.

前言

運用最新工具與技術

在既有基礎之上進行開發,發展出實際應用

4

• 文字及社群數據分析

• 財經數據分析

• 網站及電商數據分析

• 其他 (客服、零售、廣告等)

Copyright © Proprietary and Confidential. All rights reserved.

前言

內容分析

從大量(不一定精確)的文字中,找出有用的資訊

擷取特徵字、特徵詞、特徵句、特徵段落(摘要)等

共現分析、引文分析

相似性分析

文獻比對、專利比對、判例比對、著作權比對等

自動分類或分群

信件(廣告文)分類、客訴案件分類、新聞分類、專利分類等

5

(一)案例分享

6

案例一

信用卡偏好關聯分析

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

銀行發卡賺暴利?

曾銘宗指出,雙卡業務並非外界想像為暴利事

業,09年雙卡風暴時差一點搞垮銀行,發卡行

要從雙卡業務賺錢不容易,目前有賺錢的銀行也

僅兩家,國銀、外銀各有1家。

曾銘宗說明,雙卡業務廣告費用相當龐大,發

卡行要從該項業務賺錢要有技巧,除了發卡量要夠多外,現金循環動用額度也要夠大才行

8

新聞來源: ETtoday財經新聞

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

信用卡業務不賺錢,為何銀行還要做?

增加整體產品完整性

將辦信用卡的個資轉到財富管理部門使用

發卡=幫自家銀行打廣告

增加與客戶接觸的機會

分行服務、提款機ATM

網路、產品、申辦流程、080免付費專線

9

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

手續費

循環利息

部門成本

優惠活動分攤

廣告成本 優惠活動不需要包山包海,

針對特定族群需求設計的促銷活動,可降低廣告、優惠活動的成本

從銀行角度:如何讓信用卡業務賺錢

信用卡業務收入 信用卡業務支出

增加收入:提升發卡量 降低支出:減少不必要的優惠與廣告活動

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

從消費者角度:消費者為何使用信用卡

服務

購物刷卡

跨國交易便利性

自動扣繳-水電費等

理財

延期繳款

分期付款

11

優惠

刷卡消費現金回饋

紅利積點

累計里程

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

消費者特性:精打細算型

12

不過華南紅卡、永豐鈦豐搞不好有一天會沒有分期0利率制度,所以分期卡還是需要留幾張在手邊,以備不時之需…今年五月我把匯豐的現金白剪了,到十二月又變成新戶。有點後悔之前沒有辦紅利好點御璽卡,當時送的點數比較多。匯豐紅利好點御璽卡的首刷禮真的很差,而且必收年費300元。…不過我就是覺得現金白已經被取代了(除了一天國旅卡的功能啦,哈哈),又加上額度給不高,所以才剪卡啊。…我爬了文,目前這張討論的也不是非常多了,除了每年多賺的點數之外,有其他好用之處嗎?畢竟匯豐的點數似乎也不是很好用。如果這樣子的話,把現金白辦回來似乎比較好,至少首刷禮還有500元+100元可拿。

1500字以上的心得文

沒有持續誘因,部分精明的消費者會把這些卡用完就丟,耗費銀行許多成本卻沒有實際的收益

原本是申請元大的新世代信用卡,低額度核卡,一個月的7-11早餐券印完後,立刻剪卡換成商務白金卡。

新光辦這張原本就只為了拿首刷禮

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

消費者特性:簡單管理型

13

都是六日看電影,所以電影優惠通常都用不到因為有時出門不一定會帶到那張卡所以想換掉手上幾張卡,改用比較符合目前需求的

我知道版上神人的習慣拿卡一定超過10張不過我和老公都是希望越簡單越好把消費集中在某幾張卡

主力卡的話應該就不用擔心這張的年費問題?不過又覺得這樣好像太多卡

• 不想出門帶太多卡 • 太多卡養卡很麻煩 • 不喜歡卡片有用不上的優惠

雖然免年費沒錯,但那時覺得礙眼就剪了

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

創造雙贏

14

找出適合不同族群的優惠活動組合 針對該族群發行包含這些活動組合的信用卡

希望能有符合生活所需,但又不會有太多用不上的優惠的卡

喜歡簡單的消費者

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

從OpView觀察-PTT credit card版的文章

15

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

辦卡文文章特性

16

年齡性別

職業類別

工作年資

年收入

申請卡別

財力證明

是否有其它貸款

已持有信用卡額度

核卡額度

申請過程

辦卡需求

平時生活型態

基本資料 辦卡資料 辦卡心得

[職業類別]私立大學宿舍輔導(不知道專員幫我勾哪個選項) [工作年資] 2.5個月[年齡] 22 [性別] 男 [年收入] 240K [申請卡別]中信寰遊美國運通卡[核卡額度] 35K [心得] 10/18分行填寫資料…因為有時工作上需要採購要先墊錢、或有時要去賣場帶些東西給學生,萌生了想要辦卡的念頭。一開始就是鎖定家樂福卡去申請…最後選擇了我從大二開始就有往來的中信做為辦卡的選擇(也是有爬文到他家對小白算蠻友善的)也考慮到之後會辦好市多會員以及AE卡年底前核卡終身免年費就選了AE卡…遇到很熱心的專員,雖然他一開始是推薦我中油卡,但我講完我的需求之後就開始幫我介紹AE卡…大部分是刷聚餐餐費(然後跟同學收現金,省得去領錢)PTT板首PO獻給卡版,希望我的心得文對之後有跟我差不多背景而且想辦卡的人能做參考

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

透過辦卡文可以了解常被一起提及的需求

17

量販

百貨

加油

悠遊

航空

飯店

旅遊

美食

電影

繳費

那些需求 在消費者討論時 常被一併提及?

找出適合不同族群的優惠活動組合 針對該族群發行包含這些活動組合的信用卡

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

維度標記

18

Step1.

Step2.

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

分析過程

19

Step3.

Step4.

Step5.

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

購物籃分析結果-消費者最常提到的需求組合

支援度(support):同時包含這些維度的聲量數/總聲量數

信賴度(confidence):關聯法則可信的程度

提升值(lift)>1:有意義(因前項而提升後項的被提及程度)的規則

20

編號 前項、後項 support confidence lift

1 悠遊、百貨、電影 4.1% 56.8% 2.13

2 悠遊、百貨、量販 4.6% 50.9% 1.91

3 悠遊、量販、電影 5.5% 50.7% 1.90

4 悠遊、加油、電影 4.2% 56.5% 1.68

5 美食、電影 4.9% 53.6% 1.60

6 量販、百貨、電影 4.2% 59.1% 1.43

最小支援度門檻:0.04;最小信賴度門檻:0.5 apriori演算法

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

分析結果-族群樣貌與需求

21

量販

悠遊

基本資料 悠遊&百貨&量販 需求整理

A [職業類別]: 專業技術 [目前工作年資]:3年 [年齡]:26女 [年收入]: 除了第一張國泰填720k其他大略填850k

國泰世華是我工作滿一年後申請的人生第一張卡現金0.5%回饋,百貨滿三千則1%卡面好看紫色漸層霧面,但字體閃著雷射光澤,左右邊邊是有弧度的也很可愛國泰銀行大活動多,作為唯一持卡我很滿意但隨著後續卡片越來越多越特化,這張就顯得雞肋… 美國運通簽帳金…最常拿來刷costco…御璽免年費門檻大降立刻改換現金回饋的御璽卡嘍又因為想要有悠遊卡功能再轉成悠遊鈦金卡

1.重視卡片外表顏色與設計感 2.喜歡國泰的活動多,以及每半年系統會自動生出「可供挑整額度」,覺得很有養卡樂趣;花旗額度調整出現時機不一定,很麻煩 3.不喜歡台新的紅利兌換要綁購物平臺帳號

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

分析結果-族群樣貌與需求

22

美食

基本資料 電影&美食 需求整理

A [職業類別]:藝術行業[工作年資] : 3年8個月[年齡]:29

連最基本的電影6折都沒有,繳卡費繳的很心酸… 選擇美國運通除了Costco以外還是看在飯店以及部分餐飲的優惠

1.因為工作假期難請的關係,但李承換點數要提前12-14天,所以認為里程換點數沒必要 2.在意年費是否有談判空見

B 夫妻 目前我和老公共持有7張卡我1.花旗現金回饋看電影、上餐廳用…但是又不想要自己手上的卡超過5張(現金回饋可以像匯豐那樣直接扣掉最好花旗還要打電話換很麻煩,目前只是為了平日看電影和吃飯有優惠才留著)

1.不希望持有太多張卡 2.現金回饋在實際使用上的便利性

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

族群樣貌與需求-在意卡片外觀

網友 基本資料 討論內容摘錄

1 [工作年資] 5年 [性別]女

而且笨蛋如我,以為只要是VISA,卡面就是紫色的,今天拿到藍白卡還愣了一下,上網拜大神才曉得紫色是白金卡T_T

2

[職業類別] :客服專員 [年齡/性別]: 26歲/女 [目前工作年資] : 9個月 [年收入] : 48萬

沒想到就這麼核卡了! yes~挺喜歡這張卡的表面

3 N/A

卡片有一種說不出來的怪,明明整體上很好看,但正面是霧面質感,背面卻是亮面,沒有一致性;不像人家萬泰MB御璽卡或標準白金卡整張都是霧面,質感好很多

4

[職業類別]:教育業 [年資]: 2個月 [年齡]: 24男: [年收入]: 450K

收到卡片質感非常好很喜歡

23

Copyright © eLand Information Co., Ltd. Proprietary and Confidential.

分析限制與優點

24

分析限制

消費者在文章中未提及的隱藏性需求較難發現(討論特性針

對現有信用卡的優惠為主)

分析優點

除了用數據找出有意義的規則組合外

還可以對照原始討論

了解消費者提及這些的原因

以及族群樣貌可進一步結合作者的行為模式,進行應用

案例二

1999市民熱線資料分析報告

前言

目前狀況:

目前1999市民專線每日案件數量可觀

過去累積相當的資料量可供研究探索

遭遇問題:

新進案件量多的情況下,需較多人力進行日常分案作業

過去累積的資料可做為提升政府服務與效能之參考,但因資料量較大,

目前尚未能有效利用

研究目的:將資訊科技應用在提升政府服務與效能

利用自動分類的方式,將1999市民專線接收到的新進案件採自動化

分類,降低分案所需之人力

將資料進行加值應用

26

本次研究流程圖

27

原始資料

可分析資料格式

語意斷詞技術

預測單位

語意

分析

關鍵詞篩選 資料處理

分析

議題探索

自動化分案

加值應用

• 各議題主協辦單位統計 • 議題地圖 • 議題v.s.外部輿情

環保局

環保局

資料處理

原始資料與研究變項說明

案件編號 主旨 內容 單位

UN201401020187

反映虎林街路燈昏暗相關事宜

市民來電反映 地點:信義區虎林街272巷1之2號前方 事由:市民表示上述地點有一盞路燈從上星期開始就變得昏暗,可能是燈泡老舊。

工務局公園處

案件編號 日期 關鍵詞 主辦單位 協辦單位 地點

作為主鍵 自案件編號斷出時間yyyy-mm-dd

自主旨、內容斷出分類關鍵詞

單位 單位 自內容 斷出地點

關鍵詞處理

原始資料

處理後資料

單位簡化處理 地址簡化處理 日期處理

語意

分析 語意斷詞技術

關鍵詞篩選

30

事由

系統

電話

問題 台北市

大安區

車輛

紅線

自主旨與內容 所斷出的關鍵詞

……

台北市 大安區

車輛 紅線

事由 系統 問題 篩選

只保留與案件相關的關鍵詞

地點

描述用語

案件相關

單位簡化處理

簡化後單位

工務局水利工程處

觀光傳播局

工務局公園處

警察局大安分局

31

原始資料「單位」

工務局水利工程處水利工程處河川管理科(主辦)

觀光傳播局綜合行銷科(主辦)

工務局公園處工務局公園處路燈工程隊(主辦)

警察局大安分局大安分局督察組(主辦)

將單位進行簡化 目的:方便之後進行次數統計

主辦單位:簡化處理原始資料「單位」 協辦單位:給定之原始資料

地址簡化處理

32

地點

迎風河濱公園

N/A

虎林街272巷

N/A

捷運國父紀念館站

光復南路419巷

大佳河濱公園

木柵路四段

地點:自內容斷出地點

地理區位

迎風河濱公園

N/A

虎林街272巷1之2號前方

N/A

捷運國父紀念館站4號出口

光復南路419巷97號附近

大佳河濱公園

木柵路四段與軍功路交叉口-T字路口

內容

市民來電: 地址:大安區新生南路一段103巷跟濟南路三段5巷交叉路口 說明:市民告知有一男性路倒在該址地上

市民來電反映: 來電時間:1/1 上午00:22 地點:捷運國父紀念館站4號出口 事由:市民於上述時間於上述地點表示有一位身穿黃色背心的站務人員在現場使用大聲公,表示只有猜對謎語的人才可以進入捷運站,市民認為此舉不妥。 訴求:希望相關單位查察處理。 此案已電話通報相關局處單位

主辦單位案件量統計

33

單位 案件數 案件數比例 累計百分比

1 警察局 6681 20.7% 20.7%

2 公共運輸處 2855 8.9% 29.6%

3 環保局 2799 8.7% 38.3%

4 建築管理工程處 2736 8.5% 46.8%

5 交通管制工程處 2219 6.9% 53.7%

6 工務局新建工程處 2187 6.8% 60.4%

7 停車管理工程處 1664 5.2% 65.6%

8 工務局公園處 1265 3.9% 69.5%

9 動物保護處 910 2.8% 72.4%

10 教育局 763 2.4% 74.7%

11 衛生局 670 2.1% 76.8%

12 區公所 649 2.0% 78.8%

13 社會局 605 1.9% 80.7%

14 其他(共65個單位) 6221 19.3% 100.0%

選取占總案件量前80%單位之資料,進行後續分析

21%

9%

9%

8% 7%

7%

5% 4%

3% 2%

2% 2%

2%

19%

案件數

警察局 公共運輸處

環保局 建築管理工程處

交通管制工程處 工務局新建工程處

停車管理工程處 工務局公園處

動物保護處 教育局

衛生局 區公所

社會局 其他

分類:預測單位

可應用在自動化分案

分析:預測單位

35

原始資料

可分析資料格式

語意斷詞技術

語意

分析

關鍵詞篩選 資料處理

議題探索

加值應用

• 各議題主協辦單位統計 • 議題地圖 • 議題v.s.外部輿情

環保局

預測單位

環保局

分析

自動化分案

預測分析方法

方法:CART決策樹,進行類別的預測

應用:

類別=單位分類=將案件分派至各單位

找出適當的分類規則,將新進的陳情案件自動化分類的方式,分案到特定的單位

採用決策樹進行預測的原因

有方便解釋與呈現的規則,其他預測方式較難解釋與呈現

實際執行

將案件資料以隨機抽樣的方式,切割成訓練及測試資料集

建模:利用訓練資料集(全部資料的90%)

驗證:利用測試資料集(全部資料的10%)

建立預測模型

對模型預測能力進行實際評估

本學期課程內容

37

可進行預測分析的資料格式

38

案件編號 主辦

單位 廢棄車 擾鄰 菸蒂 人孔蓋鬆動 路燈 昏暗 清潔

人員 違停

陳情案件1 環保局 1 0 0 0 0 0 0 0

陳情案件2 警察局 0 0 0 0 0 0 0 1

陳情案件3 衛生局 0 2 0 0 0 0 0

案件編號 主辦 單位

協辦 單位

主旨 內容 回覆內容

UN201401030324

環保局 NULL 反映虎林街無牌廢棄車輛事宜

市民反映: 地點:信義區虎林街141巷巷口2號或4號處 市民表示上述地點有一輛白色的無牌廢棄車輛 敬請相關單位協助處理 若局處單位對案件不清楚可電洽市民 本案件市民要求處理完成後以書面方式回覆

親愛的王先生:您好!您反映的事項,本局說明如下: 一、本局信義區清潔隊已於103年1月7日依……..

原始資料

可供分析的資料格式 斷詞技術

決策樹圖形解讀說明範例

39

警察局=b(b的意思為0) 是(右邊) :警察局出現頻率為0次 否(左邊) :警察局出現頻率並非為0次

公園>=1.5 是(右邊):公園出現次數小於等於1.5次 否(左邊):公園出現次數大於1.5次

註:原始資料中次數皆為正整數,決策樹在進行分割時從中間切開,故呈現在圖上的次數會以0.5次為切割點,但實際意義上的解讀需以整數較方便說明 Ex.小於等於1.5次:最多1次 小於0.5次:為0次 大於0.5次:至少有1次

環境髒亂<0.5 是(右邊):環境髒亂出現次數大於0.5次 否(左邊):環境髒亂出現次數小於0.5次

分群:議題探索

後續加值應用的前置步驟

預測單位

環保局

分析:預測單位

41

原始資料

可分析資料格式

語意斷詞技術

語意

分析

關鍵詞篩選 資料處理

自動化分案

加值應用

• 各議題主協辦單位統計 • 議題地圖 • 議題v.s.外部輿情

分析

議題探索

環保局

議題探索

依分群結果區分各單位處理之議題

依內容及主旨進行斷詞

•將全部資料依單位分割成各單位資料 •測試最佳分群數(R fpc套件),作為K-means指定分群數依據 •針對各單位資料使用K-means分群 •抓出各分群中,頻率最高的10%的關鍵詞(共59個詞) •區分共同關鍵詞,以及特有關鍵詞,做為該群命名依據

案件編號 廢棄車 車柱 擾鄰 菸蒂 人孔蓋鬆動 家長接送區 清潔人員 室內裝修 公車站牌 劃紅線

A0001

A0002

議題探索

43

議題 案件量

食品安全衛生問題 457

菸害防制問題 130

公立醫院問題 83

共同 關鍵詞

共同出現群數

獨特 關鍵詞

衛生局 3 衛生

健檢 2 食品

網路 2 食材

山區 3 廚房

醫院 3 攤販

食品安全衛生問題 菸害防治問題

共同 關鍵詞

共同出現群數

獨特 關鍵詞

吸菸 2 抽菸

山區 3 菸害

衛生局 3 公園

住戶 3 運動中心

學生 3 標誌

共同 關鍵詞

共同出現群數

獨特 關鍵詞

醫院 3 病房

醫生 2 警察

醫師 2 急診室

病患 3 輪椅

就診 2 車輛

公立醫院問題

依內容及主旨 關鍵詞分群

• 排序在「共同關鍵詞」及「獨特關鍵詞」的越上方代表關鍵詞在該群中越重要 • 受限篇幅,其餘未列出關鍵字詳見附件,分群結果也請參考附件

本學期課程內容

44

視覺化呈現

45

環保局

預測單位

環保局

分析:加值應用

46

原始資料

可分析資料格式

語意斷詞技術

語意

分析

關鍵詞篩選 資料處理

自動化分案

議題探索

分析

加值應用

• 各議題主協辦單位統計 • 議題地圖 • 議題v.s.外部輿情

方向1:各議題主協辦單位統計 單位:警察局

單位案件量 協辦單位與案件量

人身安全 32

乞丐遊民 31

不滿處理方式 236 交通管制工程處(6)、停車管理工程處(6)

加強取締 128

占用 395 建築管理工程處(10)、環保局(10)

交通 468 交通管制工程處(6)

危險物品 15

老人與路倒 55

巡邏 91

車禍 37

其他問題 883 交通管制工程處(7)、環保局(27)

治安問題 30

表揚員警 29

毒品 10

計程車 153 公共運輸處(18)

執法問題 735 交通管制工程處(7)、環保局(10)

測速與監視器 90

傳單販售 23

義交 30

違規停車 2137 工務局公園處(6)、工務局新建工程處(6)、交通管制工程處(51)、停車管理工程處(34)、環保局(27)

違規駕駛 309 交通管制工程處(9)、環保局(8)

罰單 246 交通管制工程處(33)、停車管理工程處(22)

廢棄物 357 環保局(41)

擾民問題 161 環保局(36)

目前篩選出各議題協辦單位案件量在6件以上的資料

48

案件分類結果

結合地址斷詞資訊

匯入Google Map

1. 挑選案件分類,選擇範例資料。 -環境髒亂 -流浪動物問題 -排放廢氣

調整補充 地理資訊

方向2:議題地圖

2. 交叉使用意藍工具與文本資料判斷取得地址。 -人工調整地址資訊,移除多餘文字 (ex.路口、巷口、巷內、對面影響定位)

3. 使用Google Map API 匯入案件地址。

4. 調整明顯錯誤地點。 -交叉路口 -地址無法辨別

多分布於河濱、近山區

中山區、松山區較未有流浪動物通報

取1月份資料,共194則

皆為有效資料

49

議題地圖-流浪動物

單位:動物保護處 議題:流浪動物

普遍散佈於台北市各區

取1~3月份資料,共343則

4則無有效地理位置

50

議題地圖-環境髒亂

單位:環保局 議題:環境髒亂

相較集中分布於市區:如大安、信義、松山區

多屬油煙空污

汽機車廢氣

取1~3月份資料,共115則

2則無有效地理位置

51

議題地圖-廢氣排放

單位:環保局 議題:廢氣排放

方向3:議題v.s.外部輿情

52

0

50

100

150

200

250

300

0

5000

10000

15000

20000

25000

30000

35000

1 2 3 4 5 6 7 8 9 10 11 12 13

1999

週次

opview網路口碑資料庫負面情緒聲量 1999案件量

Opview社群口碑資料庫關鍵詞設定: 環保局|噪音|環境|無牌|垃圾桶|環境髒亂|住戶|機車|廣告|垃圾車|清潔隊|人行道|清潔人員|衛生|道路|亂丟垃圾|汙染|稽查人員|保護局|資源回收|空氣|張貼|廢棄物

主辦單位為環保局之案件 所斷出的關鍵詞 (累積次數在前50%)

單位:環保局

結語:文字資料的各種應用

資料

領域知識

與創意

技術

與工具

53

企業內部資料 政府資料 Opview社群口碑資料 ……

R、SAS EM、SPSS Modeler、etool ……

資料來源/類型

資料處理工具

(二)文字探勘工具 ETOOL應用實作

54

Copyright © Proprietary and Confidential. All rights reserved.

Etool登入說明

登入網址:http://etool.eland.com.tw/ 服務帳號:NTUedu (固定) 使用者帳號:NTUstu0XX 密碼:stu0XX

(一)單篇功能

(二)多篇功能

(三)任務結果

本學習課程內容(1)

• Lecture 1 : Term Weighting and VSM – Basics to Informational Retrieval

– Ranked Retrieval

– Term Frequency

– TF-IDF Weighting

– Vector Space Model

• Lecture 2 : Web Mining – Co-occurrence and Association

– Link analysis

– Duplicate detection

本學習課程內容(2)

• Lecture 3 : Classification – Text Classification

– Naïve Bayes

– kNN : K Nearest Neighbors

– Decision Tree

– Support Vector Machine (SVM)

• Lecture 4 : Clustering – Clustering : Introduction

– K-means algorithm

– DBSCAN algorithm

– Hierarchical Clustering

• Lecture 5 : Chinese Processing – HMM 斷詞

– 自動關鍵字

– 自動摘要

– 情緒判別

單篇功能:課程內容說明

單篇功能:應用題目

• 題目: – 請使用資料夾內的任一資料集/或自行上網找尋open data

– 並用etool的任一功能進行應用方式的發想

• 範例: – 應用功能:屬性詞

– 需求:統計賞櫻的地點

– 實際應用:旅行業(檢視賞櫻行程規畫是否符合網路上大眾討論時所提及的需求)

– 統計表(附上參考之討論資訊)

• 1.國內:城市、地點

• 2.國外:國家、城市

– 視覺化呈現圖

• 國內地圖

• 國外地圖

國內賞櫻城市

排名 城市 聲量

1

台北

1944

2 台中 841

3 高雄 667

4 嘉義 638

5 新竹 576

6 桃園 541

7 台南 512

8 苗栗 503

9 南投 404

10 宜蘭 385

國內賞櫻地點

排名 賞櫻地點 相關討論 聲量

1

台北市信義區松高路 <台北|信義>信義商圈粉紅小確幸櫻花林~松高路與松高路交叉口 ... - 窩客島

2979

2 阿里山 1583

3 陽明山 720

4 淡水天元宮 632

5 嘉義瑞里 483

6 梨山 342

7 新竹公園 290

8 日月潭 271

9 武陵農場 223

10 拉拉山 216

11 九族文化村 184

12 中壢 162

13 大安森林公園 158

14 墾丁 120

15 岡山 119

國外賞櫻城市與地點

排名 賞櫻城市 聲量

1

日本

8246

2 韓國 2340

3 美國 827

4 中國 754

5 法國 452

6 英國 351

7 德國 344

8 泰國 342

9 義大利 323

10 新加坡 315

11 荷蘭 214

12 印度 189

13 西班牙 160

14 澳洲 155

15 瑞士 144

排名 賞櫻地點 聲量 所在國家

1

東京

1974

日本

2 大阪 697 日本

3 香港 548 中國

4 北海道 541 日本

5 京都 540 日本

6 河津 282 日本

7 沖繩 280 日本

8 澳門 272 中國

9 巴黎 228 法國

10 九州 205 日本

11 釜山 190 韓國

12 富士山 186 日本

13 福岡 165 日本

14 名古屋 151 日本

15 長崎 151 日本