應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/jeb2019-008.pdf ·...

24
229 December 2019 第二十一卷 第二期 2019 12 月(pp.229252應用深度學習技術於網路虛假評論偵測 鄭麗珍 a 江彥孟 b 游政憲 c, * a 國立臺北科技大學資訊與財金管理系 b 東吳大學資訊管理學系 c 中國科技大學資訊管理學系 摘要 網際網路蓬勃發展使得電子商務成為消費者重要的採購媒介。消費者為了取得商 品的資訊,會到重要的購物論壇或是討論群組閱讀其他消費者的評論心得。這也使得 網路的評論對消費者的採購決策有很大影響力和重要性。企業花錢聘用特定的寫手撰 寫對自己有利的評論,不肖廠商更聘用寫手散播不利對手的評論。這些虛假評論會誤 導消費者也會傷害商品製造商。過去研究都指出這些虛假評論真假難辨。本研究將採 用深度學習技術與傳統文字探勘的技術來比較識別虛假評論的內容的效果,資料前處 理用傳統與深度學習的技術,機器學習使用了多種傳統與深度學習的模型,來建構識 別虛假評論的分類器,本研究實驗將使用過去學者所提出的台灣知名論壇虛假評論真 實資料集。 關鍵詞:假評論、文字探勘、深度學習 Applying Deep Learning Techniques for Fake Review Detection Li-Chen Cheng a Yan-Meng Chiang b Cheng-Hsien Yu c a Department of Information and Finance Management, National Taipei University of Technology b Computer science and information management, Soochow University c Department of Information Management, China University of Technology Abstract E commerce becomes an important channel for consumers to purchase product. Online reviews are an important information resource for consumes before making a * 通訊作者 電子郵件:[email protected] 感謝審查委員無私的付出,提供許多的寶貴建議使本論文之內容更臻完美;本研究承蒙科技部專案部分經費贊助 (計畫編號:MOST 105-2410-H-031 -035 -MY3 MOST 107-2218-E-007-045),謹致謝忱。 DOI: 10.6188/JEB.201912_21(2).0004

Upload: others

Post on 30-Dec-2020

5 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

229December 2019

第二十一卷 第二期 2019 年 12 月(pp.229~252)

應用深度學習技術於網路虛假評論偵測鄭麗珍 a 江彥孟 b 游政憲 c, *

a國立臺北科技大學資訊與財金管理系b東吳大學資訊管理學系

c中國科技大學資訊管理學系

摘要

網際網路蓬勃發展使得電子商務成為消費者重要的採購媒介。消費者為了取得商

品的資訊,會到重要的購物論壇或是討論群組閱讀其他消費者的評論心得。這也使得

網路的評論對消費者的採購決策有很大影響力和重要性。企業花錢聘用特定的寫手撰

寫對自己有利的評論,不肖廠商更聘用寫手散播不利對手的評論。這些虛假評論會誤

導消費者也會傷害商品製造商。過去研究都指出這些虛假評論真假難辨。本研究將採

用深度學習技術與傳統文字探勘的技術來比較識別虛假評論的內容的效果,資料前處

理用傳統與深度學習的技術,機器學習使用了多種傳統與深度學習的模型,來建構識

別虛假評論的分類器,本研究實驗將使用過去學者所提出的台灣知名論壇虛假評論真

實資料集。

關鍵詞:假評論、文字探勘、深度學習

Applying Deep Learning Techniques for Fake Review Detection

Li-Chen Cheng a Yan-Meng Chiang b Cheng-Hsien Yu c a Department of Information and Finance Management, National Taipei University of Technology

b Computer science and information management, Soochow Universityc Department of Information Management, China University of Technology

AbstractE commerce becomes an important channel for consumers to purchase product.

Online reviews are an important information resource for consumes before making a * 通訊作者 電子郵件:[email protected] 感謝審查委員無私的付出,提供許多的寶貴建議使本論文之內容更臻完美;本研究承蒙科技部專案部分經費贊助

(計畫編號:MOST 105-2410-H-031 -035 -MY3 與 MOST 107-2218-E-007-045),謹致謝忱。 DOI: 10.6188/JEB.201912_21(2).0004

Page 2: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

230 December 2019

purchase. Users always browse online forum that are posted to share post-purchase experiences of products and services. However, the fake reviews in the online forum are harmful to consumers who might buy misrepresented products. Consumers can’t identify authentic and fake reviews. This study proposed a novel framework to detect fake reviews which integrated several techniques. There are traditional text mining techniques to deal with textual data including bag-of-words, latent semantic analysis and word2vec for word representation. Next, we used machine learning to train the model to detect fake review, including SVM, deep neural network (DNN), convolutional neural network (CNN) and long short-term memory (LSTM). Finally, we evaluated the performance in a real dataset.

Keywords: Fake review, text mining, deep learning

1. 緒論

隨著網路的興起,電子商務成為消費主流。但是因為資訊不對稱無法接觸到真實

的商品,且網路資訊繁多造成負擔。所以消費者在購買產品之前會蒐集其他消費者的

相關評論,協助建立消費決策。Amazon就是最典型的例子,這個電商平台可以購買商品,也提供論壇讓許多購買過商品或是對產品有興趣的消費者一起交流,或是留下

評論資料分享使用心得。使用者可以寫下自己的評論表達對該產品的意見或是分享自

己使用的經驗並給予評分,這些資訊都深深影響消費者決策。

網路評論扮演的角色越重要,當消費者購買產品時,看到該產品的評論大部分

都是正面的,會提高購買的機會。相反的大部分的評論如果都是負面的訊息,則讓消

費者卻步並產生質疑。廠商發現網路評論對自己本身商品的銷售具有很大的影響力,

會與廣告行銷公司合作,聘請寫手針對不同論壇的特性透過行銷手法,吸引消費者注

意。甚至透過撰寫對特定商品之正面假評論以此提升自家產品的銷售,或是付錢給

寫手來寫傷害對手的資訊,這些存在特定目的的評論就是所謂的「虛假評論」(Liu, 2007)。國內外都有許多知名案例。在台灣最知名的便是三星寫手事件,透過散播對手 HTC的不實使用心得,藉此打擊對手後來被台灣的公平交易會裁定違法。

近年來 「虛假評論」 的議題受到了很多的關注,主要是論壇中充斥過多的「虛假評論」對廠商跟消費者都造成極大的傷害(Wang, 2010)。為了避免誤導消費者,透過建立監督式學習模型來過濾是較有效的方式(Ott et al., 2011)。但是研究的瓶頸在於建立監督式學習所需的訓練標籤資料集取得不易。國外學者透過 Amazon

Page 3: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

231December 2019

Mechanical Turk(AMT)外包來建立訓練資料集,透過機器學習模型檢測假評論的內容可以有極高的正確率(Ott et al., 2011)。但是,Mukherjee et al. (2013)將同樣模型套用在真實網站 Yelp過濾的評論進行訓練,準確率就下降到六成左右。他研究中證實為要建立有效的虛假評論機制,必須在商業網站收集的標示過的虛假評論資

料集才有意義。可惜,這樣的資料集很少且很珍貴。自然語言處理界的重要學者陳

信希教授整理過去駭客公布的三星事件的寫手資料建立實驗資料集(Chen and Chen, 2015)。且先用自然語言的技術,用 Bag-of-words model(詞袋模型)的方法搭配文章的標題和發文者的特徵等多種方式來檢測假評論。但是該模型對於辨識「虛假評

論」的分類效果仍然有限,主因是品牌商所聘用的寫手會非常小心且用心的撰寫評

價與評論,且不會輕易被讀者發現,避免引起讀者的反彈。近年來有學者改以觀察

評論者的行為,來建立偵測模型(Mukherjee et al., 2013),或是透過網路社群分析(Wang et al., 2016)。Zhang et al.(2016)透過機器學習模型指出行為特色的預測較有用,因此國內外的學者在以評論內容透過機器學習偵測虛假評論的研究陷入瓶頸。

近年來深度學習已經成功地應用在圖形識別或是自然語言領域,透過深度學習所

建立的新模型已經打破很多過去各類研究的瓶頸。本研究提出以評論者寫作風格結合

深度學習應用在建立一個辨識「虛假評論內容」的模型,透過與傳統文字探勘技術的

比較,來驗證深度學習模型的效果。本研究的貢獻如下:

本研究提出一個新的以「寫手為基礎應用深度學習偵測虛假評論」的模型,每個人都有固定的寫作風格,打破過去以單一文章的觀點來建立訓練模型。

以陳信希教授的資料集(Chen and Chen, 2015)為基礎,創新以寫手觀點來整理評論資料建立訓練資料集,並提出創新的訓練模型。

透過與傳統文字探勘技術做比較,證明本研究所建立深度學習偵測模型的效果。傳統文字探勘技術分為前處理與分類模型。前處理包含:詞袋模型、潛

在語義分析(LSA)與傳統分類器 SVM(Support vector machine)的結合。本研究所建立「寫手為基礎應用深度學習偵測虛假評論」深度學習的前處理

word2vec,和使用深度學習的分類模型包含了深度神經網路(DNN)、和卷積神經網路(CNN)、長短期記憶(LSTM),等多種技術來建立多個以「寫手為基礎應用深度學習偵測虛假評論的模型」。最後以Mobile01論壇的寫手資料,透過實驗找出最有效率的組合方式,以供後續研究之用。

本研究首先透過不同深度學習技術建立一個偵測「虛假評論內容」的分類模型,

且透過真實的評論資料集來驗證各種模型效果,對學術界來說,本研究探討深度學習

應用在評論資料的模型建置與各種資料處理的組合上,提供極高的參考價值。另一方

面在應用上,可提供網路評論的平台一個監控的機制,可以預警或是篩選有問題的評

論,以避免不時評論對廠商或是消費者造成傷害。

Page 4: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

232 December 2019

2. 文獻探討

2.1 虛假評論

Jindal and Liu(2008)首次研究以來他們將虛假評論分為不真實的評論(Untruthful reviews)、只針對品牌做評論(Reviews on brands only)、非評論(Non-reviews)。不真實的評論指的是寫手所寫的評論故意誤導給讀者觀看,通過一些不應該是正向的評論以便對讀者做宣傳稱為超級假評論(Hyper spam),或是透過惡意攻擊或否定來達到損害商家名譽稱為誹謗假評論(Defaming spam),不真實的評論也稱為假評論(Bogus reviews)。只針對品牌做評論指的是專門只針對產品的品牌、製造商或是經銷商做評論,雖然可能有用,但學者們認為是假評論。最後非評

論主要有兩種類型分別為廣告和不相關的評論。

Jindal and Liu(2007)調查了 Amazon發現 580萬則的評論只有 214萬名的評論者至少撰寫一則評論,他們發現假評論是非常普遍的。過去學者們發現在同一個產

品或是不同的產品中有大量重複的評論和相近似的評論,是由同一個評論者或是不

同的評論者(可能是相同的人但 ID卻不同)來撰寫(Jindal and Liu, 2007)。目前已經有很多位學者提出了各種方法來檢測假評論,主要的研究方法之一是使用監督

式學習,有學者使用 Amazon Mechanical Turk(AMT)外包來檢測假評論,在研究中他們只使用 n-gram 特徵識別就有將近 90%的正確率(Ott et al., 2011)。但是,Mukherjee et al.(2013)同樣的方法套用在真實網站 Yelp已過濾的評論進行訓練,n-gram有 67.8%的準確率,證明透過評論內容仍有其實用性存在。但是,學者為了證明透過真實資料來建立模型的重要性,透過 AMT召聘寫手並僅支付 1美元,這樣為研究所聘用的寫手跟真實品牌廠商為了行銷所高薪聘用寫手,不論是給付的酬勞與

在心境上,都有極大的不同。透過 AMT聘用的寫手,因為單價低會重複貼文,且只是單純的稱讚商品。在這篇研究中證實真實世界的假評論辨識難度極高,反之使用

AMT而收集的假評論資料集相對於真實的商業網站上假評論不具代表性。Mukherjee et al.(2012)這篇論文中利用了 Yelp網站發現行為特徵的分類效果較好。所以就有學者提出非監督式的方法來檢測單一的寫手和寫手群(Cheng et al., 2017; Mukherjee et al., 2012; Wang et al., 2011)。後續Wang et al.(2016)觀察寫手的發文行為透過網路社群分析來建立預測模型。 Zhang et al.(2016)建立虛假評論的偵測指標分為語意跟非語意的屬性,透過機器學習模型的驗證指出行為特色的預測較有用。

Mobile01論壇是台灣 3C產品資訊討論度最高瀏覽率的網站之一,但在 2013年4月發生了三星寫手門事件,三星聘請寫手和自家的員工假裝是網友分享了使用三星手機的心得分享。Chen and Chen(2015)建立訓練資料集,並分析這些評論發現了寫手通常在撰寫假評論會把焦點都放在某些話題上,例如使用者體驗,或是寫手在撰

Page 5: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

233December 2019

寫假評論文章的內容上會使用很多的文字和圖片企圖打動人心,而寫手在撰寫文章的

時候都是在工作時間內提交文章,最後他們也發現了寫手的文章通常會被放在引人注

目的位置。

2.2 深度學習

機器學習(Machine learning)為我們生活中帶來許多的便利,從網路搜尋引擎到社群網路的內容過濾,再從電子商務網站上的推薦系統。過去機器學習系統普遍

用於圖像識別、語音轉換為文本、將新聞或是產品給興趣相同的使用者配對、電信

商客戶流失預測、智慧交通等相關研究。深度學習(Deep learning)一詞的由來是由Hinton and Salakhutdinov(2006)在 2006年成功將多層的神經網路實踐,深度學習會蓬勃發展的原因主要是因為圖像處理能力(Graphics processing unit)能力提升,電腦硬體成本下降和機器學習演算法效能的進步。深度學習的方法被不同的研究人員

廣泛的採用。目前透過深度學習的方法,Facebook的人臉識別技術識別率已經達到97.25%(Taigman et al., 2014)。

卷積神經網路(CNN)是多層訓練中最顯著的深度學習方法之一,也是在影像處理或圖片分類最常用的方法。CNN主要有兩種類型的網路層分別為卷積層(Convolution)和池化層(Pooling),在卷積層主要是為了計算圖像的各種特徵,而池化層是對一個壓縮圖像並保留重要資訊的方法。

在現實世界中有很多資料是有順序性的,例如:自然語言處理(Natural language processing)、股市資訊、氣象觀測等。遞歸神經網路(Recurrent neural networks, RNN)的原理是將神經元的輸出,再接回神經元的輸入,這樣能使神經網路具有記憶的功能。傳統的神經網路的訓練是輸入一個值得到一個結果,輸入下一個值得到

下一個結果,而每次使用的神經網路都是同一個神經網路。當我們的資料是有順序性

的,那對於傳統的神經網路在訓練的時候,神經網路是不能了解這些數據的關聯性,

因此效能會非常的不好,此時 RNN正適合解決這類型的問題。舉例來說假設有三筆資料當做輸入,那麼時間點分別為 t、t1、t2,每一層的神經網路都有各自的權重,而每一時間點分別也會有輸出產生,RNN會參考上一次的計算與當前的輸入來共同決定這次的結果。然而 RNN可能存在梯度消失(Gradient vanishing)和梯度爆炸(Gradient exploding)的問題(Sak et al., 2014),因為在每次的計算和反向傳播的增加和減少,在累積一定的時間之後它們會接近無限大或是收斂到零。

與一般的 RNN相比,長短期記憶(LSTM)增加 3個不同的閘門,輸入閘(Input gate)、遺忘閘(Forget gate)、輸出閘(Output gate)。LSTM記憶細胞的狀態(Cell state),可以透過閘門(Gate)來控制記憶細胞的狀態,輸入閘可以決定哪些訊息要增加到記憶細胞,遺忘閘可以決定哪些訊息是否要從記憶細胞刪減,輸出

Page 6: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

234 December 2019

閘可以決定哪些訊息要從記憶細胞輸出。舉例來說在文本的訓練中,如果此時的輸

入資料,長短期記憶(LSTM)會處理一些訊息,它可以選擇記住或是遺忘,輸出閘會基於目前的情況去判斷輸出該是什麼。目前 LSTM已經用於各種建模和預測等問題,像是機器翻譯、語音識別、圖像生成標題。

目前深度學習技術應用在很多不同領域,卷積神經網路(Convolutional neural networks, CNN)(LeCun et al., 1998)通常運用在電腦視覺領域,處理圖像、影像識別以及語音、音樂辨識等問題,(LeCun et al., 2015)。不過,近年來也有許多將卷積神經網路應用在自然語言處理的嘗試(Dos Santos and Gatti, 2014; Kalchbrenner et al., 2014; Lopez and Kalita, 2017)。股市預測也是常見的應用(Vargas et al., 2017)。Fischer and Krauss(2018)提到 LSTM本身非常適用於股價趨勢,結果 LSTM表現優於傳統分類器。

3. 研究方法

3.1 研究架構

本研究目的是利用傳統文字探勘技術與深度學習的分類法,透過 Chen and Chen(2015)在論文中所提供Mobile01論壇的資料找尋疑似是假評論的文章。利用已知是寫手所寫的少量文章去做訓練找出文章特徵,並藉由分析特徵建立分類模型,透過

機器學習分類出該文章是否是假評論,最後會挑選出三個最佳模型。研究架構如圖 1所示。

首要,會先撰寫爬蟲程式爬取 Mobile01論壇上的討論版,並存進資料庫,接下來會進行斷詞、停用詞以及符號的去除。接著處理文章的特徵詞並存入資料庫中。下

一步驟建立假評論詞彙的詞典。在進行機器學習之前要先把文章轉換成向量的形式,

因此這邊會使用 Bag-of-words、LSA、word2vec這三種方法。之後進行分類模型的建置和模型的評估。

Page 7: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

235December 2019

資料收集資料前處理 模型建置

非結構化資料

中文斷詞、停用詞去除

Bag-of-words、LSA、word2vec

SVM

CNN

DNN

LSTM

模型評估

Accuracy

precision

recall

F1-score

ROC curve

預測

圖 1 研究架構圖

3.2 資料來源

本研究提出多種不同結合深度學習所建立的偵測「虛假評論內容」的分類模

型,為了驗證模型效果。深度學習是一監督式學習,必須利用事先標註好的那些評

論是虛假評論的資料集,來逕行實驗才能看出模型效果。本研究採用 Chen and Chen(2015)所提供三星事件外流的寫手資料,當初被流出資料日期只有從 2011年到2012年。

因此本研究根據那份文件流出的寫手名單,透過自己設計的爬蟲重新整理之資料

集進行實驗。本研究定義所有寫手所寫的文章都當作是假評論。爬取了 SAMSUNG(三星)討論版,總共有 60,060篇發文和 804,157篇回文,可以明顯看出發文數量和回文數量差距是非常大。在本實驗中只選擇用發文當作本實驗的資料,因為回文的文

章大多數都是短篇的文章很難從中找出寫手的特徵,因此在本研究中只選擇用發文的

資料當作實驗的資料。

Page 8: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

236 December 2019

3.3 資料切割

Chen and Chen(2015)訓練資料是使用三星討論版 2011年一整年當作訓練,而2012年 1月到 5月當作測試。而本實驗資料採用三星討論版且時間區間在 2012年 12月 31日前的發文,因為已知的寫手人數已經非常的稀少,所以本研究不希望錯失任何一個是寫手的人。根據資料所流出的寫手名稱,本實驗爬取的資料中時間在 2012年 12月 31日前的區間共有 237位的寫手,基於這 237位的寫手他們發文數量總共有1,544篇。

每一位的寫手都有屬於自己撰寫風格,因此本實驗用發文者做為切分依據,並

以該發文者最後發文時間,來決定發文者是要當作訓練資料還是測試資料。表 1是寫手和非寫手最後發文時間統整,從表中可以明顯看出寫手大多數都集中在 2011年和2012年,但也有發過幾次文章之後再也沒發文過的寫手。

表 1 三星討論版寫手和非寫手最後發文時間統整

發文時間 寫手人數 寫手總發文數量 非寫手人數 非寫手總發文數量

2009/01/01~2009/12/31 1 4 57 71

2010/01/01~2010/12/31 3 12 1,364 2,359

2011/01/01~2011/12/31 102 303 3,616 7,182

2012/01/01~2012/12/31 131 1,225 8,253 21,028

本實驗訓練資料和測試資料的數量統計如表 2,在測試資料中因為只有少數的寫手,其餘都是非寫手,所以資料非常不平衡,因此本實驗採用了 SMOTE(Synthetic minority over-sampling technique)方法來讓本研究的訓練資料近似平衡,SMOTE是一種能增加少數類別資料的一種方法。

表 2 資料切分舉例

時間 寫手人數寫手發

文數量非寫手人數

非寫手發

文數量寫手比例 文章總數量

Train 2009/01/01~2012/08/31 208 1,047 9,764 19,754 2% 20,801

Test 2012/09/01~2012/12/31 29 497 3,526 10,886 1% 11,383

Test* 2012/09/01~2012/12/31 29 497 29 549 50% 1,046

Page 9: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

237December 2019

在本研究訓練資料中,有寫手發文數量的比例非常低,只有 2%,不平衡的數據可能導致本實驗模型效能不太精確,因此在本實驗訓練資料會使用 SMOTE,測試資料則保持不變,因為這代表著在現實世界中,大部分的文章都並非是寫手所寫,寫手

所寫的文章只是占少部分。為了能更進一步看出模型效能,本實驗還增加了另一個平

衡的測試資料(Test*)作為模型的驗證資料,在測試資料中只有 29位的寫手,本實驗會根據這 29位寫手的一些行為,根據他們的發文數量、回文數量,另外從非寫手的測試資料中人工挑選出和這 29位寫手相近行為的人當作 Test*資料中的非寫手,因此最後會有 58位發文者和共 1,046篇的文章數量來當作驗證資料。

3.4 向量表達

為了要與傳統方法做比較,本研究會使用 Bag-of-words(詞袋模型)的方法。Bag-of-words的概念不會考慮文章的語法和順序,在 Chen and Chen(2015)研究中詞袋模型採用 150維度效果是最好,因此本研究採用了 150維的大小,挑選了 150個關鍵字當作基底產生出文章矩陣。

詞袋模型主要是依據單詞的頻率得出文章矩陣,但這會有兩個重要的問題:一

個是一詞多義,另一個是同義詞;舉例來說,蘋果這個詞能指水果也能指蘋果公司,

這就是一詞多義;human和 user指的都是人,這就是同義詞。潛在語意分析(Latent semantic analysis)(Deerwester et al., 1990)能夠捕捉詞和詞之間的相關性,如果這兩個詞有強烈的相關性,那麼只要其中一個詞出現,另一個詞也會跟著出現;LSA運算過程中會使用奇異值分解(Singular value decomposition, SVD)進行文章矩陣的拆解,在本研究中會使用詞袋模型進行 SVD,保留最大奇異值(Singular value),在將原來的矩陣進行矩陣乘積產出一個新的矩陣。

在 2013年 Mikolov等人提出了 word2vec(Mikolov et al., 2013),word2vec是能把文字變成向量且同時還能讀出詞裡的概念。舉例來說,當我們想到日本的時候,

可能也會聯想到它的首都東京,word2vec在經過訓練之後是可以達到這樣的效果,它能把這個詞相鄰近的詞給考慮進來。

3.5 模型建置

在此階段會使用 DNN、CNN、LSTM,並產生出一個模型其誤差最少,但為了要與傳統的方法做比較,在傳統分類器的方法會選擇使用 SVM,接著也會比較各種方法組合的配置,用 Bag-of-words配 SVM、Bag-of-words配 DNN、Bag-of-words配CNN、Bag-of-words 配 LSTM、LSA 配 SVM、LSA 配 DNN、LSA 配 CNN、LSA配 LSTM、word2vec 配 SVM、word2vec 配 DNN、word2vec 配 CNN、word2vec 配LSTM等 12種組合來比較效能。

Page 10: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

238 December 2019

3.6 模型評估

本研究評估模型主要會以 ROC曲線(Receiver operating characteristic)和曲線下面積(Area under the curve, AUC)為主要的評估方式,ROC曲線橫坐標為 False positive rate(FPR)在本實驗中代表非寫手的比率,縱座標為 True positive rate(TPR)在本實驗中代表寫手的比率,另外為了能方便評估模型,會使用混淆矩陣算出模型準確率(Accuracy)、精確率(Precision)、召回率(Recall)、F1值(F1-score)等 4項指標如表 3,在Mobile01論壇的資料集,假評論文章占比率很低,因此用準確度(Accuracy)不是一個好的衡量標準。因為大多數的文章都不是假評論,所以在本研究會注重精確度(Precision),因為不希望把非假評論的文章當作是假評論來看。本研究也會提供速度當作參考指標,主要在於考量未來能否進化為線上即時

處理的機制,因此處理速度的好壞將影響未來之發展方向。

表 3 評估指標

評估指標 評估方式

準確率(Accuracy)TP TN

TP TN FP FN

精確率(Precision)TP

TP FP

召回率(Recall)TP

TP FN

F1 值(F1-score)2 × Precision × Recall

Precision Recall

4. 實驗結果

4.1 使用詞袋模型結果

訓練時間最長的是 LSTM要 3,537秒,其次是 CNN要 3,126秒,而最快的是DNN只要 603秒,Accuracy、Precision、Recall、F1-score四個分類器平均效能很高

Page 11: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

239December 2019

的原因,是因為 Test資料是不平衡,所以這些數值並不能代表模型的整體效能。所以本實驗只針對找出寫手,Precision表現最好的是 LSTM有 0.58,Recall表現最好的是 SVM有 0.34,圖 2是四個分類器配詞袋模型(Bag-of-words)ROC曲線圖,從圖中能看出使用 DNN配詞袋模型 ROC曲線表現沒有很好,它的 AUC只有 0.52,而CNN配詞袋模型的曲線優於其他三種分類器它的 AUC有 0.59。而使用驗證資料,因為資料是平衡所以從平均值來看,Precision表現最好的是 LSTM有 0.66其次是 DNN有 0.65,Recall表現最好的是 DNN有 0.61,而在 SVM、CNN和 LSTM都是 0.58,圖 3中驗證資料的 ROC曲線 CNN配詞袋模型表現優於其他三種方法,跟使用非平衡資料結果是一樣的 AUC有 0.59。

圖 2 詞袋模型使用 Test模型 ROC曲線圖

Page 12: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

240 December 2019

圖 3 詞袋模型使用 Test*模型 ROC曲線圖

4.2 使用 LSA 結果

LSA搭配每一個分類器,訓練時間最長的是 LSTM要 2,830秒,其次是 SVM要2,042秒,而最快的是 CNN只要 354秒,由於 Test資料是不平衡的,所以平均值並不能看出模型的好壞,因此本實驗注重的是偵測寫手。實驗結果 Precision在四個分類器的效果都表現的不是很好,SVM的 0.17優於其他三種方法,Recall表現最好的是 CNN有 0.61,使用詞袋模型配 CNN只有 0.17的 Recall,而使用了 LSA來去除雜訊效能明顯的提升,圖 4中使用 LSA四個分類器 ROC曲線都非常接近,而 LSA配CNN表現最好 AUC有 0.72。用驗證資料結果在平衡的資料中 4個分類器平均效能都非常接近,Precision表現最好的是 SVM有 0.63,Recall表現最好是 DNN和 CNN都是 0.61,圖 5是使用平衡資料 ROC曲線圖,SVM配 LSA和 CNN配 LSA,兩種分類的方法效能很接近,使用 LSA會比起用詞袋模型配其他分類器來的好。

Page 13: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

241December 2019

圖 4 LSA使用 Test 模型 ROC曲線圖

圖 5 LSA使用 Test*模型 ROC曲線圖

Page 14: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

242 December 2019

4.3 使用 word2vec 結果

使用 word2vec搭配每一個分類器,時間最久的是 LSTM要 3,502秒,其次是CNN要 2,815秒,而最快的是 DNN只要 165秒,由於在 Test資料中是不平衡的,所以只看平均值並不能看出模型的好壞,因此在本實驗中注重的是偵測寫手。Precision表現最好的是 LSTM有 0.44,而最差的是 SVM和 DNN只有 0.12,Recall表現最好的是 SVM有 0.58,四個分類器配 word2vec的 ROC曲線圖如圖 6,在 ROC曲線圖中,LSTM配上 word2vec表現的效能是最好 AUC有 0.78,其次是 SVM和 DNN,它們的 AUC非常的接近,分別是 0.74和 0.73。使用平衡資料的結果如圖 6,Precision表現最好的是 LSTM有 0.75,而 SVM、DNN、CNN都是 0.60,Recall表現最好的是 SVM和 DNN有 0.60,圖 7是使用平衡資料 ROC曲線圖,LSTM配 word2vec表現優於其他三種分類方法,AUC有 0.69,結果和使用 Test資料是一樣,LSTM搭配word2vec表現最好,而最差的是 CNN配 word2vec,它的 AUC只有 0.57,結果也和使用 Test資料是一樣。

圖 6 word2vec使用 Test模型 ROC曲線圖

Page 15: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

243December 2019

圖 7 word2vec使用 Test*模型 ROC曲線圖

4.4 實驗結果分析

使用 SVM搭配詞袋模型不管是用非平衡資料如圖 8,或是使用平衡資料如圖9,都能看出使用詞袋模型搭配 SVM效能都非常差,使用非平衡資料搭配 word2vec效能表現很好,AUC有 0.74,但使用平衡資料卻輸給了 LSA。因此本研究深入了解為何 LSA在使用平衡資料效能會比使用 word2vec來的好,在平衡資料中,有 549篇非寫手文章和 497篇寫手文章,word2vec搭配 SVM誤判本來是非寫手文章判定是寫手文章,而 LSA搭配 SVM誤判本來是寫手文章判定是非寫手文章,所以在平衡資料 ROC曲線圖中可以看到 word2vec曲線在一開始比 LSA表現的較好,而到了後面的曲線,因為 word2vec搭配 SVM誤判本來非寫手文章判定是寫手文章多於 LSA搭配 SVM,因此 word2vec搭配 SVM到了後面表現的不是很好。

Page 16: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

244 December 2019

圖 8 SVM使用 Test模型 ROC曲線圖

圖 9 SVM使用 Test*模型 ROC曲線圖

Page 17: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

245December 2019

使用 DNN配置不同轉向量方法得出的 ROC曲線圖如圖 10和圖 11,結果和使用SVM配上三種轉向量方法一樣,在使用詞袋模型表現最差,非平衡資料使用 LSA和word2vec可以看出 word2vec效能表現最好,AUC有 0.73,使用平衡資料 LSA則是優於使用 word2vec,AUC有 0.65,DNN配 word2vec誤判本來是非寫手文章判定是寫手文章,而且也把本來是寫手文章誤判非寫手文章,誤判筆數沒有很多筆,所以和

DNN配 LSA的 ROC曲線非常接近。CNN配置不同轉向量方法得出的 ROC曲線圖如圖 12和圖 13,使用非平衡資

料和平衡資料可以明顯看出 LSA非常適合 CNN,而使用 word2vec在本研究中顯然並不是這麼適合用 CNN,這可能是因為在本研究中寫手數量少,在經過卷積層和池化層把寫手特徵壓縮,導致效果並不是這麼好,所以在使用平衡資料可以看出使用

word2vec配 CNN效能表現很差。

圖 10 DNN使用 Test模型 ROC曲線圖

Page 18: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

246 December 2019

圖 11 DNN使用 Test*模型 ROC曲線圖

圖 12 CNN使用 Test模型 ROC曲線圖

Page 19: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

247December 2019

圖 13 CNN使用 Test*模型 ROC曲線圖

LSTM配置不同轉向量方法得出 ROC曲線圖如圖 14和圖 15,使用非平衡資料和平衡資料可以明顯看出使用詞袋模型搭配 LSTM效果都非常不好,AUC分別只有0.58和 0.53,從實驗中能看出使用 SVM、DNN、CNN、LSTM來搭配詞袋模型,每一個分類器的結果其實都差異不太大,使用 word2vec搭配 LSTM不管是在 Test或者是平衡資料結果都表現最好,word2vec能夠很好的和 LSTM做結合,LSTM的特性非常適合處理文字比起使用其他分類器,使用 LSA搭配 LSTM可以看出不管是用哪種分類方法效能差異性沒有很大,但 CNN搭配 LSA表現最好,而 word2vec不管是使用 SVM做搭配或者是 DNN做搭配,都和使用 LSA差異沒到很大的原因,這可能代表著在訓練階段可能是資料量不夠多或者是寫手數量少,能學到的特徵有限,所以

才和 LSA效能很接近。

Page 20: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

248 December 2019

圖 14 LSTM使用 Test模型 ROC曲線圖

圖 15 LSTM使用 Test*模型 ROC曲線圖

Page 21: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

249December 2019

5. 結論

近年來因為電子商務的興起,網路評論對消費者決策扮演非常重要的影響力。甚

至在台灣的論壇,三星聘用寫手到各大知名論壇發表不利競爭對手的評論,這樣的行

為干擾消費者判斷,也對競爭對手造成商譽的影響。因為這些廠商惡意的行為傷害了

競爭對手的商譽故被台灣公平交易委員會處罰。這些可以看出虛假評論對網路資訊的

傳播所造成的嚴重傷害。學術界也一直努力設計不同的機器學習模型,以自動化偵測

出虛假評論。這幾年來雖然有很多研究出現,但是都受限在真實資料不易取得的研究

困境。雖然,初期學者不論是用自製的資料集或是透過 AMT去聘用寫手所收集的資料及,因此所訓練出來的寫手模型,都無法適用在真實的商業論壇上以正確預測出寫

手。

最近,深度學習已經成功地應用在許多不同領域,且都有很好的效果。深度學

習應用在自然語言或是文字探勘也算剛起步,目前尚未有研究利用深度學習建立一

個「辨識虛假評論內容」的模型。本研究不但提出一個新的應用深度學習偵測虛假

評論的模型,也設計多種不同預測模型結合傳統的文字探勘技術前處理技術,例如:

詞袋模型、潛在語義分析(LSA)或是「word2vec」,後續透過不同與分類技術組合建立多個偵測「虛假評論內容」的分類模型。最後這些模型,透過 Chen and Chen (2015) 所提供 Mobile01論壇的寫手名單,本研究重新透過爬蟲抓取資料建立研究資料集,以驗證各種組合模型的效果。結果發現使用詞袋模型(Bag-of-word)表現是最差的,使用 LSA和 word2vec表現的效能很接近。在各種分類器的識別效果中,發現 LSTM配上 word2vec效能表現的最好,而使用淺層的神經網路 SVM配上word2vec,和使用 DNN配上 word2vec效果很接近。本研究證明深度學習在假評論的內容分析上有很大的改善空間,非常值得後續繼續往深度學習的模型擴展。在巨量

的評論資料中真的屬於寫手所發表的評論,占有比例非常稀疏。過去研究僅能以少量

資料來推論整個論壇的寫手,以致分類效果非常有限。

本研究貢獻為首先透過傳統文字探勘技術與新的深度學習技術設計多個偵測「虛

假評論內容」的分類模型,且透過真實的評論資料集來驗證各種模型效果。本研究根

據 Chen and Chen(2015)所提供Mobile01論壇的寫手資料,重新建立一個更完整的虛假評論資料集。實驗結果對學術界來說,本研究證明深度學習非常適合應用在虛假

評論資料預測的模型建置,也提出很多不同組合的建議。對後續研究極高的參考價

值。也建議未來網路評論平台,應該提供類似的一個監控機制,可以預警或是篩選有

問題的評論。本研究之限制為僅用單一論壇資料實驗,受限在寫手資料很有限,實驗

結果受限。未來研究可以想辦法聘用專家來標示出更多的寫手清單或是建立虛假評論

資料集。也可以更進一步結合更多分類的演算法來建立預測模型。

Page 22: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

250 December 2019

參考文獻

Chen, Y. R., & Chen, H. H. (2015). Opinion spam detection in web forum: A real case study. Proceedings of the 24th International Conference on World Wide Web (WWW 2015), Florence, Italy.

Cheng, L. C., Tseng, J. C. R., & Chung, T. Y. (2017). Case study of fake web reviews. Proceedings of the 2017 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining (ASONAM 2017), Sydney, Australia.

Deerwester, S., Dumais, S. T., Furnas, G. W., Landauer, T. K., & Harshman, R. (1990). Indexing by latent semantic analysis. Journal of the American Society for Information Science, 41(6), 391-407.

Dos Santos, C. N., & Gatti, M. (2014). Deep convolutional neural networks for sentiment analysis of short texts. Proceedings of the 25th International Conference on Computa-tional Linguistics: Technical Papers (COLING 2014), Dublin, Ireland.

Fischer, T., & Krauss, C. (2018). Deep learning with long short-term memory networks for financial market predictions. European Journal of Operational Research, 270(2), 654-669.

Hinton, G. E., & Salakhutdinov, R. R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504-507.

Jindal, N., & Liu, B. (2007). Review spam detection. Proceedings of the 16th International Conference on World Wide Web (WWW 2007), Banff, Alberta, Canada.

Jindal, N., & Liu, B. (2008). Opinion spam and analysis. Proceedings of the 2008 International Conference on Web Search and Data Mining (WSDM 2008), Palo Alto, California, USA.

Kalchbrenner, N., Grefenstette, E., & Blunsom, P. (2014). A convolutional neural network for modelling sentences. Retrieved June 10, 2018, from https://arxiv.org/abs/1404.2188

LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278-2324.

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521(7553), 436-444.Liu, B. (2007). Web data mining: Exploring hyperlinks, contents, and usage data. London:

Springer Science & Business Media.Lopez, M. M., & Kalita, J. (2017). Deep learning applied to NLP. Retrieved June 10, 2018,

from https://arxiv.org/abs/1703.03091

Page 23: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

電子商務學報 第二十一卷 第二期

251December 2019

Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. Retrieved June 10, 2018, from https://arxiv.org/abs/1301.3781

Mukherjee, A., Liu, B., & Glance, N. (2012). Spotting fake reviewer groups in consumer reviews. Proceedings of the 21st International Conference on World Wide Web (WWW 2012), Lyon, France.

Mukherjee, A., Venkataraman, V., Liu, B., & Glance, N. (2013). What Yelp fake review filter might be doing? Proceedings of the 7th International AAAI Conference on Weblogs and Social Media, Boston, Massachusetts USA.

Ott, M., Choi, Y., Cardie, C., & Hancock, J. T. (2011). Finding deceptive opinion spam by any stretch of the imagination. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1 (ACL-HLT 2011), Portland, Oregon, USA.

Sak, H., Senior, A., & Beaufays, F. (2014). Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition. Retrieved June 10, 2018, from https://arxiv.org/abs/1402.1128

Taigman, Y., Yang, M., Ranzato, M. A., & Wolf, L. (2014). Deepface: Closing the gap to human-level performance in face verification. Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition (IEEE 2014), Columbus, OH, USA.

Vargas, M. R., de Lima, B. S. L. P., & Evsukoff, A. G. (2017). Deep learning for stock market prediction from financial news articles. Proceedings of the 2017 IEEE International Conference on Computational Intelligence and Virtual Environments for Measurement Systems and Applications (CIVEMSA 2017), Annecy, France.

Wang, C. C., Day, M. Y., & Lin, Y. R. (2016). A real case analytics on social network of opinion spammers. Proceedings of the 2016 IEEE 17th International Conference on Information Reuse and Integration (IEEE IRI 2016), Pittsburgh, Pennsylvania, USA.

Wang, G., Xie, S., Liu, B., & Yu, P. S. (2011). Review graph based online store review spammer detection. Proceedings of the 2011 IEEE 11th International Conference on Data Mining (ICDM 2011), Vancouver, BC, Canada.

Wang, Z. (2010). Anonymity, social image, and the competition for volunteers: A case study of the online market for reviews. The B.E. Journal of Economic Analysis & Policy, 10(1), 1-35.

Zhang, D., Zhou, L., Kehoe, J. L., & Kilic, I. Y. (2016). What online reviewer behaviors

Page 24: 應用深度學習技術於網路虛假評論偵測jeb.cerps.org.tw/files/JEB2019-008.pdf · December 2019 229 第二十一卷 第二期 2019 年12 月(pp.229~252) 應用深度學習技術於網路虛假評論偵測

應用深度學習技術於網路虛假評論偵測

252 December 2019

really matter? Effects of verbal and nonverbal behaviors on detection of fake online reviews. Journal of Management Information Systems, 33(2), 456-481.