利用統計方法及中文訓練資料處理台語文詞性標記

17
利利利利利利利利利利利利利利利利利利利利利利 Modeling Taiwanese POS tag ging with statistical meth ods and Mandarin training data 利利利 利利利 利利利 利利利 利利利 2008.9.5

Upload: ungian-iunn

Post on 20-May-2015

914 views

Category:

Technology


2 download

DESCRIPTION

利用統計方法及中文訓練資料處理台語文詞性標記 Modeling Taiwanese POS tagging with statistical methods and Mandarin training data

TRANSCRIPT

Page 1: 利用統計方法及中文訓練資料處理台語文詞性標記

利用統計方法及中文訓練資料處理台語文詞性標記

Modeling Taiwanese POS tagging with statistical methods and Mandarin

training data 楊允言 戴嘉宏 劉杰岳

陳克健 高成炎

2008.9.5

Page 2: 利用統計方法及中文訓練資料處理台語文詞性標記

2

報告大綱1. 研究架構2. 研究目的3. 研究方法4. 結果與分析5. 未來方向

Page 3: 利用統計方法及中文訓練資料處理台語文詞性標記

3

1. 研究架構• 台語文語料庫• 詞頻 /MI 統計• 詞性標記• 兩種書寫型式互轉

(漢字 & 羅馬字)• 語法結構樹

Page 4: 利用統計方法及中文訓練資料處理台語文詞性標記

4

2. 研究目的• 台語文 tagging

– 問題 1 :詞類集中文詞類集

– 問題 2 :缺 trainging data中文的 training data

Page 5: 利用統計方法及中文訓練資料處理台語文詞性標記

5

2. 研究目的 -2

• Input :漢羅 / 羅馬字 段落對齊文本– Lun thak peh-oe-ji khah-ian thak Tiong-k

ok ji, chiu-si koe thak, koh m-sai leng-goa koe-seh …

– 論讀白話字較贏讀中國字,就是會讀,koh m 使另外解說 …

1885 葉牧師 白話字的利益

Page 6: 利用統計方法及中文訓練資料處理台語文詞性標記

6

2. 研究目的 -3

• Output : Tagging 結果– 論 [Lun] (VC) 讀 [thak ] (VC) 白話字 [p

eh-oe-ji ] (Na) 較贏 [khah-ian ] (VJ) 讀 [thak ] (VC) 中國 [Tiong-kok] (Nc) 字 [ji] (Na) , (COMMACATEGORY) 就是[chiu-si ] (Cbb) 會 [koe] (D) 讀 [thak] (VC) , (COMMACATEGORY) koh[koh] (D) m 使 [m-sai ] (D) 另外 [leng-goa ] (Da) 解說 [koe-seh] (VC)

Page 7: 利用統計方法及中文訓練資料處理台語文詞性標記

7

3. 研究方法

Page 8: 利用統計方法及中文訓練資料處理台語文詞性標記

8

3. 研究方法 -2

• 利用台華辭典找出華語對譯詞(一對多)

– 有的找不到• HMM 挑最適當的華語詞

Page 9: 利用統計方法及中文訓練資料處理台語文詞性標記

9

3. 研究方法 -3

• MEMM 分類器挑詞性– 10 個 features– 語詞: wi, wi-1, wi-2 wi-1 , wi+1 ,

wi+1 wi+2

– 詞性: ti-1, ti-2 ti-1

– 構詞: m1, m2 , mn

Page 10: 利用統計方法及中文訓練資料處理台語文詞性標記

10

4. 結果與分析• 挑選 7 篇文章的第一段

– 文類:小說 3 / 散文 3 / 劇本 1– 時期:清 2 / 日 2 / 戰後 3– 837 音節 / 564 詞– 48 個詞性標記錯誤– 正確率 91.49%

Page 11: 利用統計方法及中文訓練資料處理台語文詞性標記

11

4. 結果與分析 -2我 [góa]{ 我 }< 我 >(Nh)

將 [chiong]{ 將 }< 將 >(D)

草帽仔 [chháu-bo-á]{@ 草帽仔 }< 草帽仔 >(Na)

掛 [kòa]{ 帶 ; 掛 ; 戴 }< 帶 >(VC)

ti [ti ]{ 在 }< 在 >(P)

壁頂 [piah-téng ]{ 牆壁上 }< 牆壁上 >(Nc) ,行李 [hêng-lí]{ 行李 }< 行李 >(Na)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

khêng[khêng]{ 收拾 ; 盤點 }< 收拾 >(VC)

leh[leh]{ 咧 }< 咧 >(T) ,

Page 12: 利用統計方法及中文訓練資料處理台語文詞性標記

12

4. 結果與分析 -3年 文類 篇名 錯誤 /

語詞數正確率

1885 散文 白話字的利益 6/109 94.50%

1919 散文 品行的遺傳 8/119 93.28%

1990 散文 老人的價值 7/49 85.71%

1950 劇本 威尼斯的生意人 4/58 93.10%

1890 小說 安樂街 9/77 88.31%

1924 小說 母親的眼淚 9/93 90.32%

1990 小說 岬角上的新娘 5/59 91.53%

Page 13: 利用統計方法及中文訓練資料處理台語文詞性標記

13

4. 結果與分析 -4

錯誤原因 次數 比例 選錯中文詞 13 27.08%

沒有正確的中文詞可選 2 4.17%

未知詞 8 16.67%

人名 4 8.33%

傳播錯誤 4 8.33%

總計 30 62.50%

Page 14: 利用統計方法及中文訓練資料處理台語文詞性標記

14

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

Page 15: 利用統計方法及中文訓練資料處理台語文詞性標記

15

4. 結果與分析 -5

文類 語詞數 標記錯誤 正確率散文 277 21 92.42%

劇本 58 4 93.10%

小說 229 23 89.96%

Page 16: 利用統計方法及中文訓練資料處理台語文詞性標記

16

5. 未來方向• 建立 training data• 中文和台文的差異• 台語詞類集

Page 17: 利用統計方法及中文訓練資料處理台語文詞性標記

17

敬請指教