基於決策樹與二元語言模型的網路用語轉譯系統jeb.cerps.org.tw/files/jeb2015-002.pdf ·...

24
25 March 2015 第十七卷 第一期 2015 3 月(pp.2548基於決策樹與二元語言模型的網路用語轉譯系統 楊亨利 * 黃泓彰 林青峰 政治大學資訊管理學系 摘要 網路文章中含有的網路用語或網路流行語,對於以正規中文為對象的文字分析而 言是一個阻礙分析的問題;若將網路用語轉譯為正規中文將會有助於取得更多可用的 資訊。為了將網路用語轉譯為正規中文,本研究蒐集網路用語的定義與網路文章,將 網路用語分類後,運用決策樹和語言模型的轉譯方法,對各類用語作合適的轉譯。轉 譯系統能夠偵測並轉譯約 81% 的網路用語,其轉譯的精確度約為 90%;因此,本研 究所提出之以決策樹和語言模型為基礎之系統應可適合網路用語的轉譯。 關鍵詞:網路用語、網路流行語、文字正規化、決策樹、語言模型 An Internet Slang Translator Based on Decision Tree and Bi-gram Language Model Heng-Li Yang * Hung-Chang Huang Qing-Feng Lin Department of Management Information Systems, National Cheng-Chi University Abstract While conducting text mining on Chinese content, Internet slang is a problem which results in a lower accuracy of text segmentation. Translating Internet slang into formal Chinese would help segmentation and, in addition, revealing the implicit information of the slang. In order to translate Internet slang, this study rst collected meanings of slangs and web texts. Next, Internet slang was categorized, and translating methods, which are mainly based on decision tree and bi-gram language model, were developed for each category. The translator was then implemented. Eighty-one percentages of the Internet slang in web texts were correctly detected and translated, with a precision at ninety percentages. It is concluded that the proposed methods are quite applicable to Internet slang translation. * 通訊作者 電子郵件:[email protected] 致謝詞:本研究受行政院國家科學委員會計畫 NSC101-2410-H-004-015-MY3 補助,特此致謝。 DOI: 10.6188/JEB.2015.17(1).02

Upload: others

Post on 06-Sep-2019

1 views

Category:

Documents


0 download

TRANSCRIPT

25March 2015

第十七卷 第一期 2015 年 3 月(pp.25~48)

基於決策樹與二元語言模型的網路用語轉譯系統楊亨利 * 黃泓彰 林青峰

政治大學資訊管理學系

摘要

網路文章中含有的網路用語或網路流行語,對於以正規中文為對象的文字分析而

言是一個阻礙分析的問題;若將網路用語轉譯為正規中文將會有助於取得更多可用的

資訊。為了將網路用語轉譯為正規中文,本研究蒐集網路用語的定義與網路文章,將

網路用語分類後,運用決策樹和語言模型的轉譯方法,對各類用語作合適的轉譯。轉

譯系統能夠偵測並轉譯約 81%的網路用語,其轉譯的精確度約為 90%;因此,本研究所提出之以決策樹和語言模型為基礎之系統應可適合網路用語的轉譯。

關鍵詞:網路用語、網路流行語、文字正規化、決策樹、語言模型

An Internet Slang Translator Based on Decision Tree and Bi-gram Language Model

Heng-Li Yang* Hung-Chang Huang Qing-Feng Lin

Department of Management Information Systems, National Cheng-Chi University

AbstractWhile conducting text mining on Chinese content, Internet slang is a problem which

results in a lower accuracy of text segmentation. Translating Internet slang into formal Chinese would help segmentation and, in addition, revealing the implicit information of the slang. In order to translate Internet slang, this study first collected meanings of slangs and web texts. Next, Internet slang was categorized, and translating methods, which are mainly based on decision tree and bi-gram language model, were developed for each category. The translator was then implemented. Eighty-one percentages of the Internet slang in web texts were correctly detected and translated, with a precision at ninety percentages. It is concluded that the proposed methods are quite applicable to Internet slang translation.

* 通訊作者 電子郵件:[email protected]

致謝詞:本研究受行政院國家科學委員會計畫 NSC101-2410-H-004-015-MY3補助,特此致謝。

DOI: 10.6188/JEB.2015.17(1).02

基於決策樹與二元語言模型的網路用語轉譯系統

26 March 2015

Keywords: Internet slang, Internet buzzwords, text normalization, decision tree, bi-gram language model

1. 緒論

1.1 研究背景與動機

隨著資訊科技的發展以及時代的演進,電腦與網際網路成為近代新興的傳遞與儲

存資訊的文字載體,在全球資訊網以及Web 2.0的相繼出現後,全球的網頁數量開始激增。部落格(Blog)、網路論壇及社群網站的發展,使得網路上存在大量的,具有分析價值的文字。不少人或企業開始了對文字進行分析並期待從中取得可用資訊,這

也促成文字分析或文字探勘的研究領域。

然而,網路上的文字卻可能含有一些具有特殊意義的用語;這樣的詞句被稱為

網路用語(Internet Slang)或是網路流行語。網路用語的存在,對於預設以一般正規語言為分析對象的研究而言是一個難以處理的問題。在句子的處理上,一些表情

符號的組成含有正規的標點符號,如「::_::」(哭泣)含有冒號「:」,而「O。O」(睜大眼睛)則含有句號「。」,這些表情符號會在分析時導致句子的結構被破壞,造成語句分析的不正確;在詞的處理上,由於一些非屬正規中文的用語,例

如「估狗」(Google)、「叫獸」(教授)等,所以在文字探勘作斷詞時容易被誤判,而無法被視為一個語意單元。基於上述原因,網路用語在分析時通常會被視為是

雜訊(Noise)並被過濾(Wu et al., 2010),但是在此同時,卻也遺漏了該用語本身可能隱含的資訊。比如在句子中加入表情符號,往往有增強語氣的效果(張慧美,

2006)。我們認為這些網路用語所隱含的資訊是重要的。為了從一篇含有網路用語的文章中取得更多的資訊,必須將文章中含有的網路用語轉譯成以正規用語組成的形

式;因此,如何把網路用語轉譯為正規用語是一個待解決的重要的問題。

1.2 研究目的與方法

針對上述的研究問題,本研究的研究目的是建置一個網路用語轉譯系統,期待可

將含有網路用語的中文文章轉譯為正規中文的文章。為了探討如何把網路用語轉譯為

正規用語,本研究首先蒐集網路上對於網路用語的資料,瞭解其意義,並加以分類,

再針對不同類別的用語,提出相對應的合適轉譯方法。最後,我們建置轉譯系統,並

蒐集 BBS論壇上的網路文章做為實驗用的資料集合,進行轉譯結果評估,以探討轉譯系統的成效。

電子商務學報 第十七卷 第一期

27March 2015

2. 文獻探討

2.1 網路用語

2.1.1 網路用語定義網路用語又被稱作是網路語言或網路流行語;流行語原本是特定族群所使用的

行話、黑話,應只在特定族群內部流通,但是隨著網路的普及,這些用語反而流傳開

來,並在網路上被廣泛使用(周鳳五,2006)。因此,網路用語可以視為是網路族群所使用的流行語,是網路族群為了在網路上交際而創造的語言(張有軍,2009)。張慧美(2006)將網路用語分為廣義與狹義兩種;狹義的網路用語僅指網路族群在網路上常用的慣用語,以及含有特殊形式或意義的用語和符號;而廣義的網路用語除了包

含狹義的定義外,也包含全民常用的共同語,以及和網路有關的術語;本研究的研究

範圍僅限於狹義的網路用語。

2.1.2 網路用語分類網路用語的語體特徵和傳統的口頭語及書面語不同,可以被認為是一種新的語

體(張有軍,2009),所以在分類上的方法有別於傳統的語言。對網路用語的分類方式目前主要有兩種:其一是依照組成方式和來源的分類方式,如周鳳五(2006)將網路用語依照組成方式和來源分為「方言」、「注音文」、「以數字、英文字母、

符號代替國字」、「音變」、「電影、漫畫、電玩用語」、「美、日外來語」,

以及「表情符號」等七種類別;其二是依照語言特性為主的分類方式,如王貞英

(2010)將網路用語分為「字頭語」(Initialisms)、「以中文表示的詞語」(Words Presented in Mandarin)、「文字遊戲」(Word Games)、「數字表示」(Numeral Expressions)、「火星文」(Huo Xing Wen)以及其他多種分類,並探討中文、英文、日文、台語及廣東話等不同語系來源的網路用語。張慧美(2006)雖然沒有將網路用語分類,但也依語言特性探究網路用語的語法風格,並得出網路用語是具有「諧

音化」、「形象化」、「簡捷性」、「隨意性」、「創造性」等特性的結論。

2.2 文字正規化

網路用語是非正規語言的一種,因此本研究將非正規語言的校正方法應用

於網路用語的轉譯。過去對於非正規語言處理的研究稱為文字的正規化(Text Normalization),其作法是將非正規的文字代換為語意通順的正規文字(Sproat et al., 2001),並且可以視為是一個機器翻譯的問題(Aw et al., 2006)。文字正規化最初被應用於文字轉語音(Text-to-Speech)的處理上(Sproat et al., 2001; Schwarm and Ostendorf, 2002; Pennell and Liu, 2010),之後則被應用到簡訊文字(Aw et al.,

基於決策樹與二元語言模型的網路用語轉譯系統

28 March 2015

2006; Pennell and Liu, 2011; Khan and Karim, 2012)與推特(Twitter)的文字訊息上(Kouloumpis et al., 2011; Liu et al., 2011)。

然而,上述的文獻皆是以英文為主要語言,其方法無法完全應用於中文的網路用

語。就我們所知,文獻上欠缺有系統的處理中文的文字正規化的方法。因此,本研究

將以中文作為主要的語言,參考過去文獻所使用的處理英文部分或中文裡處理別字的

方法,發展一套將網路用語正規化的方法。

以中文的網路文本而言,一些網路用語如表情符號,是由英文字母、數字,以

及符號混合而成。這些網路用語的組成較相似於英文單字,因此可參考採用英文拼

字校正與字串比對的方法,如編輯距離(Edit Distance)。另外,網路用語中的注音文或音變,是以諧音的方式,將一個中文字以另一個中文字或注音符號取代(周鳳

五;2006;張慧美,2006;王貞英,2010)。這種用法與中文的別字(同音異字)類似。Yang et al.(2012)以結合語言模型(Language Model)與交互資訊(Mutual Information)的混合模型應用於中文的別字檢查。以下,我們先介紹編輯距離與語言模型的觀念。

2.2.1 編輯距離編輯距離,又稱作 Leveshtein距離;此乃因是 Leveshtein(1966)提出其演算

法,其意義是計算從一個字串到另一個字串之間必須經過的字元刪除、插入或取代的

次數;此演算法已在解決英文的拼字校正和字串比對上被廣泛使用(Sasu, 2011)。過去的文獻也提出了一些以編輯距離為基礎延伸出的計算方法,比如將編輯距離

以原始字串長度標準化後的詞錯誤率(Word Error Rate; WER)(NieBen, 2000);這方法也常被應用於拼字校正或機器翻譯的評估工作(Goutte et al., 2009)。

2.2.2 語言模型語言模型是一個根據機率分佈提供字串一個以機率為基礎的度量方式

(Probability Measure)的函數,主要應用於自然語言處理、資訊檢索、機器翻譯等領域(Manning et al., 2008; Goutte et al., 2009)。

Yang et al.(2012)認為中文的校正適合使用二元(Bigram)的語言模型。二元語言模型是指一個文字序列 s w1, w2, ⋯, wn的機率 P(s)是由字串中每一個字 wi產

生下一個字 wi1的機率的連乘積所決定,也就是

P s P w P w wi ii

n

( ) ( ) ( | )= +=

∏1 11

1

(1)

其中 P(w1)是 w1 出現在字首的機率,而 P(wi1|wi)則是一個字 wi 產生下一個字

電子商務學報 第十七卷 第一期

29March 2015

wi1的機率。舉例而言,「我很好」這個字串的機率便是「我」出現在字首的機率

(P(我 ))、「我」的下一個字出現「很」的機率(P(很 |我 )),以及「很」的下一個字出現「好」的機率(P(好 |很 ))三者的乘積。

3. 網路用語的分類與定義

根據上述的文獻可以得知,網路用語的組成方式和用法有著相當大的不同;網路

用語的構成元素包含中文、英文、數字、注音符號、乃至於各種特殊符號。因此,企

圖以一個單一的方法來轉譯網路用語並不是一個好的做法;本研究認為應先將網路用

語分類之後,再對各個分類分別發展其適合的轉譯方法。

本研究參考並整理周鳳五(2006)與王貞英(2010)對網路用語的分類,將網路用語分為五個類別,如表 1。對於這些,在本節我們將進一步討論。

表 1 網路用語的分類與對照表

分類 周鳳五(2006) 王貞英(2010)

表情符號 表情符號 火星文(表情符號)

英數符號文 以英數符號代替國字字頭語

數字表示

注音文 注音文 火星文(注音文)

諧音字方言

音變

文字遊戲

連音字

特殊用語電影、漫畫、電玩用話

外來語

外來語

文字遊戲

火星文(文字替換)

3.1 表情符號

表情符號,或稱顏文字,是以各種英文字母及符號組成的字串,以文字代替圖像

的方式,試圖表現人的情緒或動作(周鳳五,2006)。大多數的表情符號僅由英文字母及符號組成,而仍有少數例外如「口 」(傻眼,無言)或「ㄟ ( ̄▽ ̄ㄟ )」(鬼)是以部分的中文或注音符號表現。由於這些文字是以類似圖像的方式被使用,

因此也將其歸類為表情符號。

3.2 英數符號文

英數符號文指的是以英文、數字或符號代替文字的用法;其組成比表情符號使用

基於決策樹與二元語言模型的網路用語轉譯系統

30 March 2015

較多的英文和數字,也會使用少部分的符號。這類用法是為了加快打字的速度而將特

定詞語以諧音的方式換成英文、數字或符號(王貞英,2010)。因此,雖然英數符號文是以一個字元取代一個中文字的用法,單獨出現的情況極少,而是以慣用的形式較

為常見,如:「TMD」(他媽的)、「3Q」(謝謝你)、「U」(加油)等,或是與其他分類的網路用語結合,如:「偶 i泥」(我愛你)。本研究的英數符號文僅定義為以連續的英文、數字或符號代替中文字的用法,對其他合併用法則歸類為特殊用

語。

3.3 注音文

顧名思義,注音文是以注音符號取代中文字的一種網路用語。依照其來源,注

音文可以被分為三種:以聲符取代中文字、以韻母取代中文字、以及完整拼音(周鳳

五,2006;王貞英,2010)。前兩者的共同特點是僅以一個注音符號取代一個中文字,也就是取自該中文字的聲符或韻母,如「ㄅ要」是指「不要」的意思。完整拼

音是指像「ㄅㄧㄤˋ」(不一樣;勁爆)或「ㄍㄧㄥ」(撐)。這類注音文在使用

上,較相似於以多個注音符號取代一個中文詞。這類用法還包含以「ㄅㄆㄇ」代表

「注音符號」,或以「ㄆㄆ」代表「竊笑」。本研究所歸類的注音文僅包含前兩者,

也就是以一個注音符號取代一個中文字的用法,對其他用法則被歸類為特殊用語。

3.4 諧音字

在青少年的流行文化間,有時候為了裝可愛、耍酷,或是玩文字遊戲,會將中文

字的聲符、韻母、聲調作些許的變化,或是以另一個同音的中文字取代,如「偶不行

惹」即是「我不行了」的意思(周鳳五,2006;王貞英,2010)。雖然諧音字是以一個中文字取代一個中文字的用法,但本研究僅將一個單獨使用的諧音字歸於此類,對

連續的諧音字則歸類為特殊用語。

3.5 特殊用語

特殊用語原本是指各種專門用語及外來語,如「蘿莉」一詞是指可愛的小女生,

「條子」則是指警察。這類用法在非網路世界也經常被使用,與流行文化和次文化有

著密切的關係(王貞英,2010)。特殊用語的數量繁多,而且會根據當前流行的話題、時事而誕生新的詞彙。儘管特殊用語相當多變,但本研究認為在用法上,特殊用

語仍是以一個常用詞語取代中文的用法,因此將所有具有相同特徵的網路用語歸於此

類,並包含與其他用語結合使用的英數符號文或連續使用的注音文和諧音字的特殊情

形。是以,本研究的特殊用語可以被視為是一個常用網路詞語或字串的集合。

另外,網路上也會有引用或改編電影、動漫、電玩對話的用語(周鳳五,

電子商務學報 第十七卷 第一期

31March 2015

2006),或是 BBS使用者的流行語句,如第一屆批踢踢流行語大賞 1。然而,這類用

語本身通常是為了好玩,且其意義也與句子的的結構有關,無法單純用轉譯的方法解

決,故這類用語不在本研究的研究範圍之內。

3.6 網路用語數目現況

將網路用語依照用法分類後,本研究盡力由網路搜尋各種網路用語資料彙整,如

附錄 1。我們對附錄 1所示之由網路上蒐集而來的各種網路用語及其意義重新分類,並整理為網路用語資料表,其結果如表 2。其中,注音文與諧音字的數目計算是以被使用的注音符號或中文字為主;如「ㄅ」可以對應到「掰、吧、不、抱」等四個字,

計為一筆資料。對於這些不同的類別,所面臨的轉譯問題也不同。

表 2 路用語的定義與資料概況

分類 定義 資料數目

表情符號 以連續的英數符號表現情緒或動作 326

英數符號文以一個英數符號取代一個中文字,

但是以慣用語的形式連續出現181

注音文 以一個注音符號取代一個中文字 29

諧音字 以一個中文字取代一個中文字 17

特殊用語

以特殊詞語取代中文詞語

注音文與諧音字的連續用法

上述分類的合併用法

336

4. 網路用語轉譯系統

4.1 建議的轉譯系統流程

本研究提出的網路用語轉譯系統流程如圖 1所示。本系統以蒐集到的網路用語資料及語料庫為基礎建立轉譯的處理方法與模型,並

根據轉譯的目標將系統設計為兩階段的運作方式。其處理過程如下:

(1) 輸入轉譯前文章。(2) 進入第一階段:此階段是以英數符號字串為目標的轉譯,也就是表情符號與英數符號文。

(3) 以自行撰寫的演算法偵測文章中由英數符號組成的特殊字串,並得到特殊字串的清單。

1 第一屆批踢踢流行語大賞,http://pttpedia.pixnet.net/blog/post/13857703

基於決策樹與二元語言模型的網路用語轉譯系統

32 March 2015

輸入轉譯前文章

偵測特殊字串

轉譯英數符號文

轉譯表情符號

斷詞

轉譯特殊用語

轉譯注音文

轉譯諧音字

比對與取代詞語

輸出轉譯後文章

中央研究院中文斷詞系統

第一階段轉譯 第二階段轉譯

圖 1 轉譯系統流程圖

(4) 針對清單中的資料逐筆進行表情符號以及英數符號文的轉譯。(5) 第一階段轉譯完成,進入第二階段:此階段是以中文和注音符號為目標的轉譯,也就是注音文、諧音字及特殊用語。

(6) 由於特殊用語的目標字串較長,為了避免特殊用語的字串包含連續注音文和連續諧音字的情形,系統首先轉譯特殊用語。

(7) 轉譯單獨出現的注音文和諧音字。(8) 將轉譯後的詞語和原文的文字比對並取代。(9) 輸出轉譯後文章。

4.2 偵測特殊字串

在進行第一階段的轉譯之前,系統必須先偵測出可能是網路用語的字串。前兩

類的網路用語是以英數字及符號為主要的組成元素,這對以中文為主要語言的文章中

較容易被偵測。因此,我們先以自行撰寫的程式偵測在文章中由特殊字元所組成的字

串。特殊字元的集合包含英文、數字、特殊符號,以及「皿」或「口」等以圖像方式

被使用的中文字元。轉譯系統偵測特殊字串的演算法如下:

List DetectSpecialStrings(S[1 .. n]) // 輸入參數 S為一長度 n的字串    L : list for storing special strings, as the output // 儲存特殊字串的清單 L    T : string for temporarily storing special strings // 暫存字串 T    // 系統依序讀取文章中的每個字元,稱為 C    for each character C in S      if C is a special character // 當 C為特殊字元時,便把 C加入 T

電子商務學報 第十七卷 第一期

33March 2015

        add C to T      else if C is a space character // 當 C為空白字元時,        // 便檢查 T是否全為英文或全為數字        if T is composed of alphabets or T is composed of numbers          // 如果是,則將 T加入 L,並清空 T          add T to L; T : null        else // 如果不是,則將 C(此時為空白字元)加入 T          add C to T      else // 當 C不屬於上述情形時,則將 T加入 L,並清空 T        add T to L; T : null    return L

舉例而言,一個字串「今天天氣超棒的 \^0^/~有人要一起出去玩嗎 XD」經過上述的演算法處理後,會得到一個含有「\^0^/~」與「XD」兩個字串的清單。

此外,為了避免過多的雜訊,系統將過濾下列的字串:(1)是用於文章格式的字串,例如以一連串的短橫線繪製而成的分隔線,或是用於製作表格的特殊符號;(2)是長度為 1的標點符號;(3)是以「http://」、「telnet://」或「ftp://」開頭的超連結字串。在過濾上述的字串後,清單中的每個字串便是可能的表情符號或英數符號文。

4.3 表情符號的轉譯

4.3.1 差異特徵產生表情符號通常具有三個特性:(1)表情符號可以在特定的符號上被延展並使用,

如「XD」(大笑)和「^_^」(開心)常被以「XDDD」及「^______^」或是更長的形式表達。(2)一些符號是可以相互替代的;最常見的例子就是用來表現嘴巴或眼睛的「0」(數字零)、「o」(小寫字母 o) 和「O」(大寫字母 O),如「^0^」(高興)也可以用「^o^」或「^O^」這樣的形式表達。(3) 符號可以從原本的形式衍生出其他變化形,如「 」(無言)的變化形就有「_」、「 ”」、「 a」等。

由於這些特性,表情符號可以衍生出各種新的形式。然而,我們在表 2所收集到的並不可能可以完全涵蓋所有形式,是以,如何判別就是一個挑戰。進一步,我們

觀察到由於表情符號有以上述特性,偵測到的疑似表情符號必然與我們在表 2所收集到的形式有相似之處。因此,本研究提出比對兩兩字串,以產生下列四個差異特徵

(Feature),並使用機器學習的方式訓練決策樹,作為表情符號判別的轉譯模型。(1) 餘弦相似度(Cosine Similarity)

基於決策樹與二元語言模型的網路用語轉譯系統

34 March 2015

比較兩個字串的相似度,可以將兩個字串依照各個字元出現的次數轉換為向

量,並計算兩個向量的餘弦函數值。以「 」和「 ”」為例,此兩個字串出現各種字元計有「」(等號)、「 」(空白)、「”」(英文雙引號)。對於「 」我們產生向量 (2, 1, 0)(也就是兩個等號、一個空白、沒有英文雙引號),而「 ”」則產生向量 (2, 1, 1) (也就是兩個等號、一個空白、一個英文雙引號),因此相似度是 0.9129。相似度的最大值為 1,代表兩個字串間使用的字元數目完全相同;而最小值為 0,代表兩個字串間沒有共同使用的字元。兩個向量 A (a1, a2, ⋯, an)和 B (b1, b2, ⋯, bn)的餘弦相似度如第 (2) 式。

cos( , ) | || |A B A BA B

a b a b a ba a a b b

n n

n

= ⋅ =+ + +

+ + + + + +1 1 2 2

12

22 2

12

22

bbn2 (2)

(2) 內積 由於表情符號的可延展性,會使得表情符號間的相似度下降,但是內積值卻

相對提高。以「XD」和「XDDD」為例,前者的向量是 (1, 1),後者則是 (1, 3),相似度是 0.8944,而當「D」的數目越多時,相似度會逐漸下降,但內積卻逐漸增加。因此本研究認為內積值可以輔助餘弦相似度的分類器訓練。兩

個向量 A (a1, a2, ⋯, an)和 B (b1, b2, ⋯, bn)的內積公式如第 (3) 式。

A B a b a b a b a bi ii

n

n n⋅ = = + + +=

∑1

1 1 2 2 (3)

(3) 編輯距離 當兩個字串的餘弦相似度為 1時,並不表示兩個字串完全相同,而可能只是字元之間的順序調換。為了使分類器的訓練能具有順序上的意義,本研究採

用編輯距離作為其中一個差異特徵。由於編輯距離僅計算兩個字串間必須經

過的字元刪除、插入、取代的次數,所以當出現順序調換的情形時,編輯距

離至少增加 2,也就是一次刪除與一次插入。以「0.0」和「.00」為例,雖然相似度為 1,但編輯距離則是 2。編輯距離最小值為 0,此時代表兩個字串完全相同;而最大值為較長字串的長度,代表兩個字串沒有任何共同使用的字

元。

(4) 符號長度 由於表情符號的可延展性,會使得原始的表情符號與延展後的表情符號之間

的編輯距離增加,所以本身較長的表情符號可能會具有較長的編輯距離。過

去的文獻也指出原始字串長度的重要性(NieBen, 2000),字串長度會影響

電子商務學報 第十七卷 第一期

35March 2015

兩個表情符號是否可認定為相同。因此,為了輔助編輯距離的分類器訓練,

本研究加入了待轉譯的表情符號長度做為差異特徵之一。

舉例而言,以表情符號「^____^」(開心)為待轉譯的表情符號,則「^____^」的向量為 (2, 4),表示由兩個「^」與四個「_」構成;而「^_^」(開心)的向量則是 (2, 1),表示由兩個「^」與一個「_」構成,因此兩個表情符號的餘弦相似度為 0.8,內積為 8。從「^____^」變為「^_^」必須刪除三個「_」,所以兩個表情符號間的編輯距離為 3。最後由於「^____^」的長度為 6,便可以得到一組差異特徵值 (0.8, 8, 3, 6)。

4.3.2 決策樹為了轉譯表情符號,本研究使用決策樹來建立轉譯之規則。首先是訓練資料的產

生,我們從語料庫中隨機選擇 200篇文章,並以 4.2節所述的演算法偵測文章中可能的表情符號字串。每個偵測出的可能表情符號都可以與資料庫中的 326筆已知的表情符號(表 2)計算差異特徵值,而使得每個表情符號都可以產生 326組差異特徵值,但是如此一來會使得大量無關的資料干擾決策樹的結果。因此,我們將這些計算出來

的差異特徵值排序並過濾,取出相似度最大的前三名,編輯距離最短的前三名,以及

內積最大的前三名差異特徵值,並採其聯集使得重複的資料不會出現。接著我們以人

工的方式為取出的每一組差異特徵值標記目標值為 0或 1。例如,當「^____^」(開心)為被偵測出的表情符號,其與我們收集的「^_^」(開心)比較後,此組符號被標記為 1,代表「^____^」(開心)是「^_^」(開心)的意思;相對地,其與我們收集的「^_」(眨眼)比較,則此組符號被標記為 0,代表「^____^」(開心)不是「^_」(眨眼)的意思。經過標記後,共計取得 2469組資料。

對於看到一串未知符號 x 時,想與已知的表情符號 y1, y2, ..., yn 比對,我們想建立一套以餘弦相似度、內積、編輯距離、符號長度這四個指標為基準的規則,而機器

學習中的決策樹應可協助我們來找出表情符號轉譯規則。建立決策樹可用的演算方

法有:ID3、CHAID、CART、C4.5等方法,其中 ID3與 CHAID只能處理離散型的數值與名目型資料,C4.5則進一步擴展可處理連續型的數值資料,且比起 CART,更有彈性、可容許每一個節點不只產生兩個分支。本研究的餘弦相似度、內積、編

輯距離、符號長度這四個指標均屬連續型的數值,故採用 C4.5。我們選取 University of Waikato開發的自由軟體的機器學習軟體Weka 3.6,利用其中將 C4.5演算法實作出來的程式 J48。我們將全部的資料加入訓練,並以 10次交叉驗證(10-fold Cross Validation)評估訓練結果(表 3)。其中,準確率(Accuracy)代表在所有的資料中,被正確分類的資料所佔的百分比。決策樹分類結果的準確率為 0.967,表示絕大多數的資料都被正確分類。但是在標記時,被標記為 0的資料遠多於被標記為 1的資

基於決策樹與二元語言模型的網路用語轉譯系統

36 March 2015

料,這些被標記為 0的資料也被正確分類。以本研究使用決策樹分類的主要目的,也就是轉譯表情符號來看,準確率有被高估的可能性存在。因此,精確率(Precision)與召回率(Recall)是相對較重要的兩個指標。精確率是在所有被分類為 1的資料中,目標值為 1的資料所佔的百分比,而召回率則是在所有目標值為 1的資料中,被分類為 1的資料所佔的百分比。決策樹分類結果的精確率為 0.893,召回率為 0.88。也就是說,若本系統採取此模型作為轉譯表情符號的方法,則預期的結果乃是:在所

有被轉譯的表情符號中,有 89.3%的表情符號被正確轉譯,而在所有應該被轉譯的表情符號中,有 88%的表情符號被轉譯。F度量(F-measure)是精確率與召回率的調和平均數,作為同時兼顧兩者的評估方式;本決策樹分類結果的 F度量為 0.886。

經過機器學習所得到的決策樹,部分如圖 2。

表 3 決策樹分類結果

混淆矩陣分類結果 Accuracy 0.967

1 0 Precision 0.893

目標值1 316 43 Recall 0.88

0 38 2072 F-measure 0.886

圖 2 決策樹(部分)

電子商務學報 第十七卷 第一期

37March 2015

以圖 2決策樹的第一個葉節點(Leaf Node)為例來說明,當一筆差異特徵值的餘弦相似度小於等於 0.883883,且編輯距離小於等於 3,而餘弦相似度又小於等於0.690268時,則決策樹模型將回傳 0,代表這筆資料「不是表情符號」。舉例而言,如果在轉譯表情符號「^____^」(開心)時,「^____^」(開心)與我們表 2資料庫中的表情符號「^_^」(開心)經過運算後得出的差異特徵值為 (0.8, 8, 3, 6),而與另一表情符號「^_」(眨眼)的差異特徵值為 (0.7746, 6, 4, 6),則前者會回傳 1,而後者會回傳 0,表示「^____^」(開心)是「^_^」(開心)的意思,而不是「^_」(眨眼)。但是由於決策樹回傳 1的資料可能會超過一筆,所以必須再加上排序的方式,此時系統將從回傳 1的資料中首先選擇相似度較大者,其次為編輯距離較小者,最後是內積值較大者,乃是應對應到表 2的表情符號,並將該表情符號的意義取代,作為轉譯的結果。

4.4 英數符號文的轉譯

英數符號文的用法與表情符號不同;根據本研究定義,英數符號文是以慣用語

的方式出現,在使用上不容易變化,故對於英數符號文採用完全比對的方式轉譯。舉

例而言,如果偵測到字串「OMG」,且此時資料庫中存在與「OMG」完全一樣的資料,則系統會將「OMG」對應的意義(「我的天啊」)取代「OMG」,但是當偵測到的字串並不存在於資料庫時,系統將不會進行轉譯工作。另外,以純數字表現的用

法現在在網路世界已經沒落(周鳳五,2006),而且容易與數量、日期等正規的數字用法混淆,因此對於純數字的字串不予轉譯。

4.5 斷詞系統

第二階段的轉譯目標是以中文和注音符號為主,若是以第一階段的方法偵測,容

易造成斷詞錯誤的情形。再者,特殊用語的用字數量龐大,使得這樣偵測的方法相當

沒效率。為了解決偵測的問題,Liu et al.(2008)認為斷詞系統可以做為輔助偵測的工具。已知的斷詞系統大體上可分成語言學基礎的斷詞系統及非語言學的斷詞系統。

非語言學的斷詞方法因為缺少了詞彙的詞性資訊,所以較適用於僅將句子切段後對詞

彙語義不需深入的應用。語言學類的斷詞系統會依照語言的構成特色或語法,來建立

語言結構樹,再進一步決定合適的單詞長度。此外,在斷詞工具的選擇上亦需考量文

化上的差異。因此繁體字語系文本一般是使用中央研究院的斷詞系統 2,簡體字文本

是使用漢語詞法分析系統(ICTCLAS)或哈爾濱大學語言雲。是以,我們採用台灣學者一般採用的中央研究院中文斷詞系統。我們觀察中央研究院中文斷詞系統的斷詞

結果,認為網路用語主要會以下列兩種情況出現:

2 中文斷詞系統,http://ckipsvr.iis.sinica.edu.tw/

基於決策樹與二元語言模型的網路用語轉譯系統

38 March 2015

第一種情況是由於中文斷詞系統會進行未知詞的偵測,所以未知的字元會被組合

成一個詞,如下例一的「叫獸」和「蘿莉」。

例一:我叫獸的女兒是個可愛的小蘿莉。

原意:我教授的女兒是個可愛的小女孩。

斷詞結果:我 (Nh) 叫獸 (Na) 的 (DE) 女兒 (Na) 是 (SHI) 個 (Nf) 可愛 (VH) 的(DE) 小 (VH) 蘿莉 (Nb) 。(PERIODCATEGORY)

中央研究院的斷詞結果會將斷開的詞以空白區隔,並在每個詞後方以括弧註

記詞類。在上述的結果中,「我」為代名詞 (Nh),「叫獸」為普通名詞 (Na),「個」為量詞 (Nf),「可愛」與「小」均為狀態不及物動詞 (VH),「蘿莉」為專有名稱 (Nb),「的」標示為 DE,「是」標示為 SHI,「句號」標示為PERIODCATEGORY。

第二種情況是未知的字元沒有被組合成一個未知詞,此時每一個字會被單獨斷

開,如下例二的「偶」、「ㄍ」和「ㄊ」。

例二:偶家隔壁的小帥ㄍ說ㄊ以後想當大老闆。

原意:我家隔壁的小帥哥說他以後想當大老闆。

斷詞結果:偶 (D) 家 (Nc) 隔壁 (Nc) 的 (DE) 小 (VH) 帥 (VH) ㄍ (FW) 說 (VE) ㄊ(FW) 以後 (Ng) 想 (VE) 當 (P) 大 (VH) 老闆 (Na) 。(PERIODCATEGORY)

在上述的斷詞結果中,「偶」為副詞 (D),「家」與「隔壁」均為地方詞 (Nc),「小」與「帥」、「大」均為狀態不及物動詞 (VH),「ㄍ」、「ㄊ」為外文標記(FW),「說」、「想」為動作句賓動詞 (VE),「以後」為後置詞 (Ng),「當」為介詞 (P),「老闆」為普通名詞 (Na) ,「句號」標示為 PERIODCATEGORY。

轉譯系統會在轉譯特殊用語、注音文和諧音字前,先將第一階段轉譯後的文章斷

詞,並針對上述兩種情況進行網路用語的轉譯。

4.6 特殊用語的轉譯

本研究將特殊用語視為常用的字串或詞語,採用完全比對的方式處理。根據 4.5節所述的第一種情況,斷詞系統可能將網路用語正確地組合成一個詞,因此,系統將

逐一比對每個詞是否與資料庫中的網路用語相同。舉例而言,「卡哇伊」這個詞代表

「可愛」,因此當偵測到一個詞是「卡哇伊」的時候,系統將以「可愛」取代原文中

的「卡哇伊」。對於 4.5節的第二種情況,斷詞系統可能將每一個字單獨斷開,因此系統會取出連續兩個以上且長度為 1的詞,並將所有的詞合併,再以由上而下的方式比對並重新分割詞語(圖 3),直到每個詞語的長度為 1或為已知的網路用語。最

電子商務學報 第十七卷 第一期

39March 2015

後,再對每個詞逐一比對並轉譯。

TopDownSplit(S[1..n]) // S為一長度為 n的字串    // L為儲存分割後字串的清單,每個元素都是一個字串    L : list for storing split tokens    // 當 S含有網路用語M(位置為 i到 j)時    If S contains an internet slang M from index i to index j      add TopDownSplit (S[1..i]) to L // 將M之前的字串分割並加入 L      add M into L // 將M加入 L      add TopDownSplit (S[j1..n]) to L // 將M之後的字串分割並加入 L    Else // 當 S不含任何網路用語時,將 S的每個字單獨加入 L      add each single character of S into L    Return L

圖 3 Top-down詞語比對與分割示意圖

4.7 注音文的轉譯

一個注音符號可以對應的中文字相當多,容易造成閱讀上的混淆(王貞英,

2010)。雖然在網路用語的資料蒐集之後,減少了對應字的數量,但仍然必須解決對應字數超過一個的情形。以注音符號「ㄅ」為例,已知「ㄅ」在網路用語中可以代

表「掰」、「吧」、「不」、「抱」等四個字,但是當句子中出現注音符號「ㄅ」

時,如果僅知道句子是像「⋯ㄅ⋯」這樣的資訊,仍然無法判別「ㄅ」是代表哪一

個字。然而,如果知道「ㄅ」的前後一個字分別為「才」跟「要」,使句子的資訊變

成「⋯才ㄅ要⋯」,此時「ㄅ」代表「不」的機率便大幅提升。也就是說,只要計算

出「ㄅ」分別代表「掰」、「吧」、「不」、「抱」的機率,便可以知道「ㄅ」是哪

一個字。因此,本研究關心的是注音符號 T分別代表其所有對應字的機率,如第 (4)

基於決策樹與二元語言模型的網路用語轉譯系統

40 March 2015

式。

P T c c CT( ),= ∀ ∈ (4)

集合 CT {c1, ⋯, cn}表示注音符號 T所對應的中文字集合。當 P(T c)有最大值時,代表注音符號 T最有可能是 c這個字,此時系統便以中文字 c取代注音符號T。因此,最佳的對應字 c*是根據第 (5) 式決定。

c P T cc CT

* arg max ( )= =∈

(5)

承上例,在考慮注音符號「ㄅ」的前後一個字分別為「才」跟「要」的情形下,

一般而言,字串「才不要」的機率會比「才掰要」、「才吧要」、「才抱要」來得

高。此時,注音符號「ㄅ」是「不」的機率也應高於其他三者。因此,本研究假設

P(T c)可以用第 (6) 式估計之。

P T c P w cw where w ci i i( ) ( ),= ≈ =− +1 1 (6)

其中 wi-1與 wi1分別代表注音符號 T的前一個字與後一個字。接下來,根據二元的語言模型,一個字串出現的機率是以該字串中每一個字產生

下一個字的機率的積所決定。其中 P(wi-1)是一個常數,在此關係中並不影響 P(T c)的最大值,所以可以將 P(wi-1)約分,如第 (7) 式。

P w cw P w P c w P w c P c w P w ci i i i i i i( ) ( ) ( | ) ( | ) ( | ) ( | )- - - -1 1 1 1 1 1 1+ + += ∝ (7)

本研究依據最大似然估計法(Maximum Likelihood Estimation; MLE)計算P(c|wi-1)與 P(wi1|c)的值,最大似然估計法是以語料庫中所有的文字組合估計機率。舉例而言,「才」的下一個字是「不」的機率(P(不 |才 )),會是「才不」這個字串在語料庫中出現的次數,除以「才」這個字在語料庫中出現的次數,也就是每個

「才」的下一個字是「不」的平均次數。此外,為了避免 0機率的產生,本系統使用加一平滑法(Add-one Smoothing; Laplace Smoothing)作為機率的平滑方法。P(c|wi-1)與 P(wi1|c)的計算如第 (8) 式:

P c wF w cF w P w c

F cwF ci

i

ii

i( | )( )( ) , ( | )

( )( )-

-

-1

1

11

111

11=

++

=+

+++ (8)

其中函數 F表示該文字或字串在語料庫中出現的總次數(Frequency);同理,因為F(wi-1) 1不影響 P(T c)的最大值,故可以將其約分。

最後,可以得到第 (7) 式的轉譯機率模型。

電子商務學報 第十七卷 第一期

41March 2015

c P T cF w c F cw

F cc C c C

i i

T T

* arg max ( ) arg max( ( ) ) ( ( ) )

(= = =+ × +

∈ ∈

− +1 11 1))+1 (9)

當轉譯系統偵測到單獨出現的注音文時,將根據第 (9) 式計算出該注音文的最佳對應字。表 4是以字串「才ㄅ要」為例的二元語言模型計算結果,其中的 wi-1為

「才」,wi1為「要」,因為「才不要」的值最大,因此系統將以「不」取代原文的

「ㄅ」。

表 4 二元語言模型計算結果

對應字 c F(wi-1c) F(cwi+1) F(c)( ( ) ) ( ( ) )

( )-F w c F cw

F ci i1 11 1

1+ × +

++

掰 1 0 342 0.00583

吧 0 1 24431 0.00008

不 231 7670 161930 10.99031

抱 2 0 1587 0.00189

4.8 諧音字的轉譯

諧音字的轉譯方法使用與注音文轉譯方法相同的二元語言模型,但是與注音文轉

譯方法不同的一點在於諧音字有可能是正確的用法,也就是該字並不是網路用語,因

此諧音字的候選字集合會包含該字本身;也就是說,雖然網路用語中的「偶」通常代

表「我」這個字,但也有可能是正常用法的「偶」。因此在計算語言模型時,會計算

P(偶 我 )以及 P(偶 偶 ),如果前者的機率較大,系統將以「我」取代原文中的「偶」,如果後者的機率較大,則系統將不予轉譯。

5. 轉譯系統的建置與評估

5.1 系統概述

依據上述方法,本研究以 .NET Framework 4.0的 C#語言建置轉譯系統。圖 4是轉譯系統的系統畫面,左方的文字方塊是輸入區,右方的文字方塊則是輸出區。在左

方的文字方塊中輸入要轉譯的網路文章,並按下轉譯按鈕後,轉譯後的文章會自動出

現在右方的文字方塊。畫面中範例的資料來源是九十五學年度大學學科能力測驗的國

文科考題。

基於決策樹與二元語言模型的網路用語轉譯系統

42 March 2015

圖 4 轉譯系統畫面

5.2 測試資料來源

本研究蒐集來自台大批踢踢實業坊(ptt.cc)內的 PC_Shopping看板(個人電腦消費板)以及 nb-shopping看板(筆記型電腦消費板)中,發文日期在 2013年 6月30日以前的文章,做為本研究的語料庫(corpus)。PC_Shopping板最早的文章是2007/8/30,而 nb-shopping板最早的文章是 2006/4/25。經過刪除全文行數在 1行以下的文章之後,剩餘的有效資料共計 32751篇文章。測試資料涵蓋了七年的語料,而且是年輕人最常用的批踢踢實業坊,應已具代表性。

5.3 轉譯結果評估

本研究從語料庫的 32751篇文章中抽取 100篇含有網路用語的文章進行轉譯並評估,結果如表 5。評估的單位是用語的數量,其中 TP(True Positive)的定義為「被正確轉譯的網路用語」,FP(False Positive)則定義為「被錯誤轉譯的網路用語」,FN(False Negative)則是「未被轉譯的網路用語」。

電子商務學報 第十七卷 第一期

43March 2015

表 5 轉譯系統的評估結果

分類 TP FP FNPrecision(P)=TP/(TP+FP)

Recall(R)=TP/(TP+FN)

F-measure=2PR/(P+R)

表情符號 168 16 32 0.9130 0.8400 0.8750

英數符號文 13 0 5 1.0000 0.7222 0.8387

注音文 13 1 4 0.9286 0.7647 0.8387

諧音字 11 2 4 0.8462 0.7333 0.7857

特殊用語 23 5 6 0.8214 0.7931 0.8070

總計 228 24 51 0.9048 0.8172 0.8588

5.3.1 表情符號表情符號的模型可以正確轉譯絕大多數的英數符號字串,而少數轉譯錯誤

(FP)的主要原因是一些標點符號的連續使用。一些使用者會以連續的問號「??」取代傳統的一個問號作為問句的結尾。然而「??」與表情符號「?_?」(滿臉疑惑)不僅相似度高且編輯距離短,使得決策樹模型會將兩者認為是相同的表情符號。雖然這

兩者同是為了表達疑問所使用的符號,但若以嚴謹的表情符號轉譯而言,這樣的轉譯

仍是錯誤的。

此外,表情符號與其他符號共同使用的情形是造成表情符號未被轉譯(FN)的主要原因。一些使用者會將一連串的刪節號「⋯」與表情符號共同使用,如「⋯⋯

^_^」應該被分開為「⋯⋯」(刪節號)與「^_^」(開心),但是有另一些表情符號「⋯_⋯」(傷心;流淚)則是以「⋯」代表眼淚。轉譯系統在特殊字元的偵測上並無法準確地將表情符號與其他符號切開,因此在決策樹模型上,前者會因為相似

度不足或編輯距離過長而不被轉譯。

5.3.2 英數符號文由於英數符號文是以完全取代的方式轉譯,且在特殊字元偵測時可以擷取出一

個介於中文字之間完整的英數符號字串,所以不會和包含有英數符號文的其他字串混

淆,也因此在評估時沒有發現錯誤轉譯的情形。然而,和表情符號類似,這樣的方法

無法偵測出與其他符號混合出現的英數符號文,而有較多未被轉譯的情形。

5.3.3 注音文在注音文的轉譯上,除了少數的字是因為語言模型的機率而產生的轉譯錯誤外,

其他單獨出現的注音文都可以被正確轉譯。而注音文未被轉譯的原因主要來自於斷

詞,在進行評估時,未被轉譯的所有案例都源自於一些使用者會誤把中文字「一」打

基於決策樹與二元語言模型的網路用語轉譯系統

44 March 2015

成注音符號「ㄧ」,如「一個」會被打成「ㄧ個」,且在此同時,中央研究院的中文

斷詞系統會將注音符號「ㄧ」與後面的單位詞合併為一個詞語。但由於該注音符號並

未單獨出現,轉譯系統因而未轉譯注音文。

5.3.4 諧音字表 5中顯示,諧音字的轉譯整體的表現比注音文的轉譯為差。轉譯錯誤的原因

與注音文相同,是由於語言模型的機率問題,而未被轉譯的主要原因則是由於該諧音

字已經成為常用語的一部份,使得語料庫中正確用字出現的機率比諧音字出現的機率

低,因此語言模型無法將該諧音字轉譯為正確用字。

5.3.5 特殊用語由於一些特殊用語可能同時具有多個意義,如「閃光」一詞在網路上也有「情

人」的意思。因此在評估時,一些採用原意的用語會被轉譯為特殊用語的意義是造成

錯誤轉譯的主要原因。而特殊用語未被轉譯的主要原因則多是由於資料蒐集不完整,

或是一些特殊用語的用字與資料庫中的用字不同所致。

另外,在網路上有一種以注音文構成特殊用語的用法。這些用法是以中文字配合

注音符號表現,其表面上是為中文字加上錯誤的注音符號,而實際上則是以注音符號

作為暗喻的手法,如:「最近終於有閒(ㄏㄨㄥˊ)錢(ㄅㄠ)可以來更新一下電

腦了。」雖然表面上是為「閒錢」加上錯誤的注音符號「ㄏㄨㄥˊㄅㄠ」,但實際

上則是暗指該作者的「閒錢」來源其實是「紅包」。對於這樣的用語,目前無法被系

統轉譯。

6. 結論與後續研究

本研究所建置的網路用語轉譯系統對於目前已知網路用語分類(表情符號、英數

符號文、注音文、諧音字、特殊用語)均能提出合適的轉譯方法,可以偵測並轉譯約

81%的網路用語,轉譯的精確度約為 90%。這將對中文的文字探勘領域有相當大的貢獻,欲作文字探勘的研究者可先將網路資料先以本研究所提出之系統去做預處理,

如此對文字探勘的正確性將有很大的提升。

本研究對於各種中文網路用語提出全面的處理方式,這在學術上屬於首創,這是

本研究學術方面的貢獻。另方面,在實務上,當今的網路充滿各式的網路用語,企業

或政府在作文字探勘前,已不能如同以往研究者漠視其存在,必須先處理此等用語,

否則所做出來的消費者偏好分析、網路評價監測、民眾輿情分析可能均會偏離新世代

電子商務學報 第十七卷 第一期

45March 2015

人類的真正想法。本研究所提出的方法若能實際落實,將對消費者行為探討、電子商

務、新媒體傳播上有其實務應用上的貢獻。

而本研究發現所建置的系統轉譯錯誤和未被轉譯的原因可以歸納為以下四點:

(1)偵測英數符號字串的方法不能有效分辨標點符號與表情符號。(2)少數的斷詞錯誤將網路用語的一部份與其他字結合為一個詞,使得該網路用語無法被偵測。(3)僅以網路文章為語料庫的機率計算無法完全表現真實情況。(4)特殊用語的多變與演化使資料難以蒐集齊全。此外,一詞多義的特殊用語和文章的上下文(Context),以及該論壇的主題,或是討論環境等因素有關。上述的前兩點可以視為是轉譯系統內部的

文字前處理問題,而後兩點則是資料無法完全反映真實情形的問題。

本研究認為以決策樹來建立分類規則的方式轉譯表情符號,以及用二元語言模

型轉譯注音文與諧音字的方法是一個可行的作法。將決策樹應用於表情符號的比對

上,可以解決表情符號變化的問題。當一個從既有的表情符號變化而成的新表情符號

出現時,系統能夠根據字串比對的資訊找出意義最接近的表情符號。而將語言模型用

於注音文與諧音字的轉譯上,可以根據語料庫計算與該注音文或諧音字正確用法的機

率最高的對應字。本研究未來可以加入其他正規中文的語料庫做為計算語言模型的基

礎,以充分反映注音文和諧音字的正確用法的機率,或是加入詞網以輔助判斷一詞多

義的網路用語,將網路用語的轉譯工作更臻完美,並從網路用語中挖掘出更多資訊。

此外,本研究之網路用語來源的附錄 1可能會有不足,而測試的語料是來自台大批踢踢實業坊(ptt.cc)內的 PC_Shopping看板(個人電腦消費板)以及 nb-shopping看板(筆記型電腦消費板),日後研究者應進一步補足附錄 1未涵蓋的網路用語,以及以本研究所提出的架構去測試台灣其他領域或網站文本。再者,本研究的決策樹採用

C4.5方法、斷詞系統採用中研院斷詞系統,後續研究者可嘗試決策樹的其他分類方法或其他斷詞系統。

而另一研究方向在大陸的簡體世界,大陸的網路用語盛行的種類與台灣有些不

同。台灣的表情符號較中國盛行許多,而且中國沒有注音文;中國的英數符號文較

台灣盛行許多,也就是用連續的英數符號表示一個詞語,通常採用漢語拼音的首字

字母,如MM表示「美眉」(漂亮的女子)。另外,特殊用語如方言、時事、影劇台詞等在兩地皆相當盛行。在台灣也可見到不少中國的網路用語,如「立馬」(意為

「立刻」、「馬上」)等。但中國仍有許多與政治相關,為避免關鍵字過濾而使用的

網路用語,則極少見於台灣;未來研究者,也可對此納入分析研究。最後,網路用語

變化快速,本研究只是起步,後續研究者需持續關注新型態的網路用語,若有新網路

用語分類的產生,必須持續設計新方法、處理可能的轉譯挑戰,方能解決快速的電子

商務發展所衍生的文本分析問題。

基於決策樹與二元語言模型的網路用語轉譯系統

46 March 2015

參考文獻

王貞英(2010)。台灣青少年所使用的流行語之研究。國立清華大學台灣研究教師在職專班語言組未出版碩士論文,台灣,新竹。

周鳳五(2006)。火星文的美麗與哀愁。取自 2012年 11月 18日:http://www.taipei.gov.tw/public/MMO/TRAD/950804_home.ppt

張有軍(2009)。口頭語?書面語?—網路語言對語體二分法的挑戰。US-China Foreign Language,7(11),5-8。

張慧美(2006)。網路語言之語言風格研究。彰化師大國文學誌,13,331-359。Aw, A., Zhang, M., Xiao, J., & Su, J. (2006). A phrase-based statistical model for SMS

text normalization. Proceedings of the COLING/ACL 2006 Main Conference Poster Sessions, Sydney, Australia.

Goutte, C., Cancedda, N., Dymetman, M., & Foster, G. (2009). Learning machine transla-tion. Cambridge: The MIT Press.

Khan, O. A., & Karim, A. (2012). A rule-based model for normalization of SMS text. Proceedings of the 2012 IEEE 24th International Conference on Tools with Artificial Intelligence (ICTAI), Athens, Greece.

Kouloumpis, E., Wilson, T., & Moore, J. (2011). Twitter sentiment analysis: The good the bad and the OMG! Proceedings of the 5th International AAAI Conference on Weblogs and Social Media, Barcelona, Spain.

Levenshtein, V. (1966). Binary codes capable of correcting deletions, insertions, and reversals. Soviet Physics Doklady, 10, 707-710.

Liu, F., Weng, F., Wang, B., & Liu, Y. (2011). Insertion, deletion, or substitution? Normal-izing text messages without pre-categorization nor supervision. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, USA.

Liu, W., Allison, B., & Guthrie, L. (2008). Professor or screaming beast? Detecting words misuse in Chinese. Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC’08), Marrakech, Morocco.

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. New York: Cambridge University Press.

NieBen, S., Och, F. J., Leusch, G., & Ney, H. (2000). An evaluation tool for machine trans-lation: Fast evaluation for MT research. Proceedings of the 2nd Language Resources and Evaluation Conference (LREC), Athens, Greece.

電子商務學報 第十七卷 第一期

47March 2015

Pennell, D. L., & Liu, Y. (2010). Normalization of text messages for text-to-speech. Pro-ceedings of the 2010 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Dallas, Texas, USA.

Pennell, D. L., & Liu, Y. (2011). Toward text message normalization: Modeling abbrevia-tion generation. Proceedings of the 2011 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Prague, Czech.

Schwarm, S., & Ostendorf, M. (2002). Text normalization with varied data sources for con-versational speech language modeling. Proceedings of the 2002 IEEE International Conference on Acoustics Speech and Signal Processing (ICASSP), Orlando, Florida, USA.

Sproat, R., Black, A. W., Chen, S., Kumar, S., Ostendorf, M., & Richards, C. (2001). Normalization of non-standard words. Computer Speech and Language, 15(3), 287-333.

Sasu, L. (2011). A probabilistic model for spelling correction. Bulletin of the Transilvania University of Brasov, 4(2), 141-146.

Wu, W., Zhang, B., & Ostendorf, M. (2010). Automatic generation of personalized annotation tags for Twitter users. Human Language Technologies: the 2010 Annual Conference of the North American Chapter of the ACL, Los Angeles, California, USA.

Yang, S., Zhao, H., Wang, X., & Lu, B. (2012). Spell checking for Chinese. Proceedings of the Eighth International Conference on Language Resources and Evaluation (LREC’12), Istanbul, Turkey.

基於決策樹與二元語言模型的網路用語轉譯系統

48 March 2015

附錄1:網路用語資料來源

火星文,http://www.4thgrader.net/vault/files/LanguageOfMars.doc火星文 - 維基百科,自由的百科全書,http://zh.wikipedia.org/wiki/%E7%81%AB%E6

%98%9F%E6%96%87火星文 icq符號對照表,http://tw.myblog.yahoo.com/blethylan93-claire/article?mid648

8&next4866&lf&fid20台大批踢踢實業坊網頁版,http://www.ptt.cc/index.html臺灣網路語言列表 - 維基百科,自由的百科全書 http://zh.wikipedia.org/wiki/%E5%8F

%B0%E6%B9%BE%E5%9C%B0%E5%8C%BA%E7%BD%91%E7%BB%9C%E8%AF%AD%E8%A8%80%E5%88%97%E8%A1%A8

注音文 - 維基百科,自由的百科全書,http://zh.wikipedia.org/wiki/%E6%B3%A8%E9%9F%B3%E6%96%87

表情符號 - 維基百科,自由的百科全書,http://zh.wikipedia.org/w/index.php?title%E8%A1%A8%E6%83%85%E7%AC%A6%E8%99%9F

常見網路用語簡介,http://l_y_yeung.mysinablog.com/index.php?opViewArticle&articleId1629222

給我大量的火星文符號 - Yahoo!奇摩知識 ,http://tw.knowledge.yahoo.com/question/question?qid1406081415291

網路用語對照表,http://cider.myweb.hinet.net/abc/58.htmChinese Digger:火星文,http://chinesedigger.blogspot.tw/2008/06/mars.html