附加詞類訊息e台語語詞搭配ti教學上e應用

39
附附附附附附 e 附附附附附附 ti 附附附 e 附附 ICTR 2006 – 2006-09-10

Upload: ungian-iunn

Post on 20-May-2015

605 views

Category:

Technology


10 download

DESCRIPTION

附加詞類訊息e台語語詞搭配ti教學上e應用 2006 第三屆台灣羅馬字國際學術研討會

TRANSCRIPT

Page 1: 附加詞類訊息e台語語詞搭配ti教學上e應用

附加詞類訊息 e 台語語詞搭配ti 教學上 e 應用

ICTR 2006 – 2006-09-10

Page 2: 附加詞類訊息e台語語詞搭配ti教學上e應用

作者

• 楊允言 – 大漢技術學院資訊工程系 助理教授

• 劉杰岳– 拋荒台文工作室負責人

• 陳鄭弘堯 – 台語文工作者

• 陳柏中 – 國立清華大學物理系助理教授

Page 3: 附加詞類訊息e台語語詞搭配ti教學上e應用

大綱

• 紹介• 基礎背景• 實驗步數• 實驗結果 • 未來方向

Page 4: 附加詞類訊息e台語語詞搭配ti教學上e應用

紹介:問題

• 語詞搭配 (collocation) 是學習語詞按怎用真好 ê 工具

• 用互訊息 (mutual information) kah 相關度(correlation) 來統計

• 會產生 bōe 少無必要 ê 資料 (noise)

Page 5: 附加詞類訊息e台語語詞搭配ti教學上e應用

紹介:解決方法

• 利用詞類 ê 訊息來篩選 – 自動 ka 無必要 ê 資料 theh 掉– 提升自動台語語詞搭配 ê 品質– 試驗動詞 - 名詞 (V-N) 詞組 kap 形容詞 - 名詞

(A-N) 詞組

Page 6: 附加詞類訊息e台語語詞搭配ti教學上e應用

紹介:實驗結果

• 動詞 - 名詞 (V-N) 詞組 ê 結果比形容詞 - 名詞 (A-N) 詞組 khah 好

• 查詢一個動詞正 pêng ê 名詞 (V-N) iah 是一個名詞倒 pêng ê 動詞 (V-N) ,有學習參考 ê 價值

• Beh 進一步提升品質, iah-koh 有 chiâⁿ-chōe 空課愛做

Page 7: 附加詞類訊息e台語語詞搭配ti教學上e應用

語料庫

• 語料庫 to 是 khng 語言材料 ê 倉庫 • 語料庫語言 beh 復興 ê 重要基礎 • 語料庫 ê 應用真 chōe

• 台文 ê 語料庫一直 kàu 21 世紀 chiah 開始

Page 8: 附加詞類訊息e台語語詞搭配ti教學上e應用

語詞搭配 (collocation)

• 語詞組合做伙 ê 方式 • 語料庫真重要 ê 應用 • 例

– 車單 phah 好 a (O)– 車單摃好 a (X)

• 搭配錯誤:包括語法 kah 慣用語• 語言學習真重要 ê 一部分

Page 9: 附加詞類訊息e台語語詞搭配ti教學上e應用

自動語詞搭配

• 根據語料庫, ka 共同出現而且關係密切 ê語詞 chhē 出來

• 有兩個公式 thang 用:– 互訊息 (mutual information, MI)– 相關度 (correlation , CR)

Page 10: 附加詞類訊息e台語語詞搭配ti教學上e應用

互訊息 (MI) – 紹介

• MI(AB) = - log(P(A) * P(B) / P(AB))– P(A) 是語詞 A ê 機率, P(A) = Freq(A) / N – P(B) 是語詞 B ê 機率 – P(AB) 是詞組 AB ê 機率

• 語料愈大,統計 ê 結果愈有代表性

Page 11: 附加詞類訊息e台語語詞搭配ti教學上e應用

互訊息 (MI) – 1

• 若 AB tiāⁿ-tiāⁿ 成對出現– MI(AB) = - log(P(A) * P(B) / P(AB))– P(A) P(B) P(AB)≒ ≒ , – MI(AB) -log(P(AB))≒ , P(AB) < 1– 是一個 khah 大 ê 正數

Page 12: 附加詞類訊息e台語語詞搭配ti教學上e應用

互訊息 (MI) – 2

• 若 A kah B 無關係(獨立事件)– MI(AB) = - log(P(A) * P(B) / P(AB))– P(AB) P(A)P(B)≒– MI(AB) -log(1)≒ 0≒

Page 13: 附加詞類訊息e台語語詞搭配ti教學上e應用

互訊息 (MI) – 3

• 若語詞 A 出現致使 B khah boe 出現– MI(AB) = - log(P(A) * P(B) / P(AB))– P(AB)<<P(A)P(B) ,– MI(AB) -log(x)≒ , x >> 1– MI(AB) 是負數

Page 14: 附加詞類訊息e台語語詞搭配ti教學上e應用

相關度 (CR) – 紹介

• CR(AB) = n * (n11 × n22 - n12 × n21 )2

/ (n1* × n2* × n*1 × n*2)

– B ~B Σ

– A n11 n12 n1*

– ~A n21 n22 n2*

– Σ n*1 n*2 n

Page 15: 附加詞類訊息e台語語詞搭配ti教學上e應用

自動語詞搭配 – 限制

• phah 字錯誤 ê 情形– 因為錯字 ê 詞頻真低,會致使 MI kah CR ê 分

數變足 kôan– 對策:會 sái 設詞頻 ê 限制

• 限定相 óa ê 兩個語詞 – 無相 óa : phah 兩張車單– 3 個語詞:除了 ... 以外, iah-koh ...

• Be-tang 取代專家 – 對學習者 kah 專家有參考作用

Page 16: 附加詞類訊息e台語語詞搭配ti教學上e應用

自動語詞搭配 – 用詞類改進

• 詞類會 sái 提供真好 ê 線索 • 用詞類 Ka 結果分類整理,對學習 kah 分

析有幫贊

Page 17: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 – 紹介

• 建立資料庫– 台語文語料– 台文華文線頂辭典(簡稱台華辭典)

• ( 漢羅 ê) 台語文語料斷詞 • 建立台華辭典 ê 詞類• 計算兩個相 óa ê 語詞 ê MI kah CR

• 用詞類篩選

Page 18: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 a – 建立資料庫

• 台語文語料– 來源:台語文界 ê 朋友,楊允言負責整理 – 全羅 3,462,367 個音節– 漢羅 5,568,057 個音節

• 台文華文線頂辭典(簡稱台華辭典)– 來源:主要貢獻者是鄭良偉, koh 有台語文界

朋友鬥補充詞條 – 6 萬 2 千外個詞條 – 每一個詞條包括漢羅、全羅、華文對譯

Page 19: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 b - 語料斷詞

• 全羅 ê 語料– 無需要斷詞– 語詞數量: 2,436,599 個

• 漢羅 ê 語料需要– 根據台華辭典斷詞– 「倒頭 siong 大比對」演算法– 語詞數量: 4,051,195 個

Page 20: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 c - 建立台華辭典ê 詞類

• 利用中研院詞庫小組八萬目詞 ê 詞條– 透過台華辭典 ê 華文對譯 – 詞類可能有幾 lo 個,暫時無做處理– kan-na 分大類– 動詞 VH 「狀態不及物述詞」改做形容詞

• 親像「浪漫」、「特別」、「辛苦」、「豐富」、「心酸」、「感動」

Page 21: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 d1 - 計算 MI kah CR

• 計算兩個相 óa ê 語詞 ê MI kah CR

Page 22: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗步數 d2 - 用詞類篩選

• 資料量 chiâⁿ 大• 這 pái實驗 kan-na chhe A-N (形容詞 - 名

詞)、 V-N (動詞 - 名詞)詞組

Page 23: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 – 紹介

• MI kah CR 關連性• A-N V-N 詞組 • 名詞 ê 動詞搭配 kah 動詞 ê 名詞搭配 • 主要問題

Page 24: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 – MI kah CR 關連性 1

• 互訊息 kah 相關度共同詞組數量– 漢羅 ê 部分,詞組至少出現 10-pái– 全羅 ê 部分,詞組至少出現 5-pái

• 漢羅– 頭前 N 個 共同數量 共同比例– 30 16 53.3%– 100 56 56.0%– 500 400 80.0%– 1,000 839 83.9%– 3,000 2,548 84.9%– 5,000 4,396 87.9%

Page 25: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 – MI kah CR 關連性 2

• 全羅– 頭前 N 個 共同數量 共同比例– 30 18 60.0%– 100 70 70.0%– 500 342 68.4%– 1,000 717 71.7%– 3,000 2,295 76.5%

• 漢羅 ê MI kah CR 算出來 ê 結果 khah 一致– 這應該是因為漢羅 ê 語料量 khah choe ,統計出來 ê

結果 khah 有可信度

Page 26: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - A-N 詞組1

• A-N 詞組 ( 漢羅 )– MI 表順序 A-N 詞組– 6 加護 病房– 23 旺 梨– 26 ām 瓜– 28 愛國 獎券– 39 gōng gōng-á– 54 百年 志業– 55 開幕 典禮– 61 刻板 印象– 68 弱 質– 83 lò 腳仔

Page 27: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - A-N 詞組2

• A-N 詞組 ( 全羅 )– MI 表順序 A-N 詞組– 16 gōa-che�k sin-niû– 23 lēng chhian-kim– 33 sòe-hàn âng-lâng– 39 ki-chân bîn-chiòng– 41 pit-gia�p tián-lé– 44 chhâ-thâu ang-á– 52 âng koe-bú– 67 lám sin-miā– 105 tiong-téng ha�k-hāu– 120 hiong-thó. gí-giân

Page 28: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - A-N 詞組3

• A-N 詞組分析– khah oh chhē ,有 ê看起來 chiâⁿ勉強– 台華辭典無收 ê 詞

• 像「旺 梨」、「 ām 瓜」,應該是一個詞• 台華辭典有「王梨」無「旺梨」,有「醃瓜」無

「 ām瓜」• 斷詞系統切做兩個詞

– 自動語詞搭配統計表,對辭典詞條 ê收錄,會tàng 提供一 kóa 建議

Page 29: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - V-N 詞組1

• V-N 詞組 ( 漢羅 )– MI 表順序 V-N 詞組– 20 建置 家後– 31 反攻 大陸– 35 chōaⁿ 農藥– 36 告 小腸– 38 判 死刑– 44 hiâⁿ 燒水– 52 訪 談– 53 抽 餉– 65 儉 腸– 74 khian 炸彈

Page 30: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - V-N 詞組2

• V-N 詞組 ( 全羅 )– MI 表順序 V-N 詞組– 3 kiat-sêng it-thé– 9 phùi chhùi-nōa– 11 kiàn-tì ke-āu– 17 khà tiān-ōe– 18 chián iûⁿ-mn.g– 19 siau-tî chōe-kò– 20 sám hé-hu– 21 phòaⁿ sí-hêng– 22 chhiah phòng-se– 25 chhat chéng-kah

Page 31: 附加詞類訊息e台語語詞搭配ti教學上e應用

A-N V-N 詞組 - V-N 詞組3

• V-N 詞組分析– 全羅 ê 部分真好

• ùi MI 統計表頭前 64 個詞組內底 tō thang揀出 30個

– 漢羅 ê 部分 tō chiâⁿ bái• ùi MI 統計表頭前 203 個詞組內底 chiah揀出 30 個• 主要 ê原因是斷詞• 因為語料內底 ê寫法 kah 辭典無一致

Page 32: 附加詞類訊息e台語語詞搭配ti教學上e應用

名詞 ê 動詞搭配• beh 知影一個名詞頭前會 sái 用什麼動詞 • 查詢 「 V- 舌」

– 詞組 MI– 捲 舌 12.5225– tak 舌 11.5455– 用 舌 4.4675– Pō. 舌 10.7837– 學 舌 4.3861– 相唚 舌 13.9536– chhun 舌 5.2274– 連 舌 4.0452– kā 舌 1.0978– 做 舌 0.7722

Page 33: 附加詞類訊息e台語語詞搭配ti教學上e應用

動詞 ê 名詞搭配• beh 知影一個動詞後壁會用 sái 用什麼名詞 • 查詢「摃 /kòng-N 」

– 詞組 MI– kòng 流 7.6756– 摃 鑼 12.7198– kòng 鑼 10.8676– kòng 鐘 9.0936– 摃 鐘 9.2413– kòng 芳 6.5199– 摃 錘仔 14.9042– 摃 印仔 11.9042– 摃 電報 11.3599– kòng 電報 9.7972

Page 34: 附加詞類訊息e台語語詞搭配ti教學上e應用

名詞 ê 動詞搭配 kah動詞 ê 名詞搭配

• 這種查詢方式,對語言學習應該有真大 ê幫贊

Page 35: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 - 主要問題 1

• 實驗 ê 結果無原來按算 ê hiah-nī 好 • 問題

– 漢羅用字無一致,致使斷詞效果無好– 詞類問題

Page 36: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 - 主要問題 2

• 漢羅用字無一致,致使斷詞效果無好– 台華辭典內無這個詞

• 加詞• 專有名詞辨識• 定量詞處理

– 語料 ê 漢羅寫法 kah 台華辭典內 ê 無 kâng• 真 oh解決• kā所有 ê 寫法 lóng kā lok tī 辭典內底無好

Page 37: 附加詞類訊息e台語語詞搭配ti教學上e應用

實驗結果 - 主要問題 3

• 詞類問題 – 透過華語對譯詞 lia�h, 會 tiòng 無必要 ê 詞類

出來 – 一個詞有至少兩個詞類 mā 是真普遍 ê 情形 –解決方向

• 建立台語詞 ê 詞類 • 確認正確詞類

Page 38: 附加詞類訊息e台語語詞搭配ti教學上e應用

未來方向

• 整理 A-N V-N 以外 ê 詞組– 親像 P-N 、 N-V 、 D-A 、 D-V 、 V-R

• 維護台華辭典– 人工檢查 MI/CR 分數 khah kôan ê 兩個單音節詞

• 改進斷詞系統– 用統計方法提 kôan 正確率 ; 專有名詞、定量詞處理

• 整理台語詞類 • 自動標記詞類

– 利用統計方法解決含糊性問題 • 開發線頂台語語詞搭配查詢系統

Page 39: 附加詞類訊息e台語語詞搭配ti教學上e應用

• 感謝指教