附加詞類訊息e台語語詞搭配ti教學上e應用
DESCRIPTION
附加詞類訊息e台語語詞搭配ti教學上e應用 2006 第三屆台灣羅馬字國際學術研討會TRANSCRIPT
附加詞類訊息 e 台語語詞搭配ti 教學上 e 應用
ICTR 2006 – 2006-09-10
作者
• 楊允言 – 大漢技術學院資訊工程系 助理教授
• 劉杰岳– 拋荒台文工作室負責人
• 陳鄭弘堯 – 台語文工作者
• 陳柏中 – 國立清華大學物理系助理教授
大綱
• 紹介• 基礎背景• 實驗步數• 實驗結果 • 未來方向
紹介:問題
• 語詞搭配 (collocation) 是學習語詞按怎用真好 ê 工具
• 用互訊息 (mutual information) kah 相關度(correlation) 來統計
• 會產生 bōe 少無必要 ê 資料 (noise)
紹介:解決方法
• 利用詞類 ê 訊息來篩選 – 自動 ka 無必要 ê 資料 theh 掉– 提升自動台語語詞搭配 ê 品質– 試驗動詞 - 名詞 (V-N) 詞組 kap 形容詞 - 名詞
(A-N) 詞組
紹介:實驗結果
• 動詞 - 名詞 (V-N) 詞組 ê 結果比形容詞 - 名詞 (A-N) 詞組 khah 好
• 查詢一個動詞正 pêng ê 名詞 (V-N) iah 是一個名詞倒 pêng ê 動詞 (V-N) ,有學習參考 ê 價值
• Beh 進一步提升品質, iah-koh 有 chiâⁿ-chōe 空課愛做
語料庫
• 語料庫 to 是 khng 語言材料 ê 倉庫 • 語料庫語言 beh 復興 ê 重要基礎 • 語料庫 ê 應用真 chōe
• 台文 ê 語料庫一直 kàu 21 世紀 chiah 開始
語詞搭配 (collocation)
• 語詞組合做伙 ê 方式 • 語料庫真重要 ê 應用 • 例
– 車單 phah 好 a (O)– 車單摃好 a (X)
• 搭配錯誤:包括語法 kah 慣用語• 語言學習真重要 ê 一部分
自動語詞搭配
• 根據語料庫, ka 共同出現而且關係密切 ê語詞 chhē 出來
• 有兩個公式 thang 用:– 互訊息 (mutual information, MI)– 相關度 (correlation , CR)
互訊息 (MI) – 紹介
• MI(AB) = - log(P(A) * P(B) / P(AB))– P(A) 是語詞 A ê 機率, P(A) = Freq(A) / N – P(B) 是語詞 B ê 機率 – P(AB) 是詞組 AB ê 機率
• 語料愈大,統計 ê 結果愈有代表性
互訊息 (MI) – 1
• 若 AB tiāⁿ-tiāⁿ 成對出現– MI(AB) = - log(P(A) * P(B) / P(AB))– P(A) P(B) P(AB)≒ ≒ , – MI(AB) -log(P(AB))≒ , P(AB) < 1– 是一個 khah 大 ê 正數
互訊息 (MI) – 2
• 若 A kah B 無關係(獨立事件)– MI(AB) = - log(P(A) * P(B) / P(AB))– P(AB) P(A)P(B)≒– MI(AB) -log(1)≒ 0≒
互訊息 (MI) – 3
• 若語詞 A 出現致使 B khah boe 出現– MI(AB) = - log(P(A) * P(B) / P(AB))– P(AB)<<P(A)P(B) ,– MI(AB) -log(x)≒ , x >> 1– MI(AB) 是負數
相關度 (CR) – 紹介
• CR(AB) = n * (n11 × n22 - n12 × n21 )2
/ (n1* × n2* × n*1 × n*2)
– B ~B Σ
– A n11 n12 n1*
– ~A n21 n22 n2*
– Σ n*1 n*2 n
自動語詞搭配 – 限制
• phah 字錯誤 ê 情形– 因為錯字 ê 詞頻真低,會致使 MI kah CR ê 分
數變足 kôan– 對策:會 sái 設詞頻 ê 限制
• 限定相 óa ê 兩個語詞 – 無相 óa : phah 兩張車單– 3 個語詞:除了 ... 以外, iah-koh ...
• Be-tang 取代專家 – 對學習者 kah 專家有參考作用
自動語詞搭配 – 用詞類改進
• 詞類會 sái 提供真好 ê 線索 • 用詞類 Ka 結果分類整理,對學習 kah 分
析有幫贊
實驗步數 – 紹介
• 建立資料庫– 台語文語料– 台文華文線頂辭典(簡稱台華辭典)
• ( 漢羅 ê) 台語文語料斷詞 • 建立台華辭典 ê 詞類• 計算兩個相 óa ê 語詞 ê MI kah CR
• 用詞類篩選
實驗步數 a – 建立資料庫
• 台語文語料– 來源:台語文界 ê 朋友,楊允言負責整理 – 全羅 3,462,367 個音節– 漢羅 5,568,057 個音節
• 台文華文線頂辭典(簡稱台華辭典)– 來源:主要貢獻者是鄭良偉, koh 有台語文界
朋友鬥補充詞條 – 6 萬 2 千外個詞條 – 每一個詞條包括漢羅、全羅、華文對譯
實驗步數 b - 語料斷詞
• 全羅 ê 語料– 無需要斷詞– 語詞數量: 2,436,599 個
• 漢羅 ê 語料需要– 根據台華辭典斷詞– 「倒頭 siong 大比對」演算法– 語詞數量: 4,051,195 個
實驗步數 c - 建立台華辭典ê 詞類
• 利用中研院詞庫小組八萬目詞 ê 詞條– 透過台華辭典 ê 華文對譯 – 詞類可能有幾 lo 個,暫時無做處理– kan-na 分大類– 動詞 VH 「狀態不及物述詞」改做形容詞
• 親像「浪漫」、「特別」、「辛苦」、「豐富」、「心酸」、「感動」
實驗步數 d1 - 計算 MI kah CR
• 計算兩個相 óa ê 語詞 ê MI kah CR
實驗步數 d2 - 用詞類篩選
• 資料量 chiâⁿ 大• 這 pái實驗 kan-na chhe A-N (形容詞 - 名
詞)、 V-N (動詞 - 名詞)詞組
實驗結果 – 紹介
• MI kah CR 關連性• A-N V-N 詞組 • 名詞 ê 動詞搭配 kah 動詞 ê 名詞搭配 • 主要問題
實驗結果 – MI kah CR 關連性 1
• 互訊息 kah 相關度共同詞組數量– 漢羅 ê 部分,詞組至少出現 10-pái– 全羅 ê 部分,詞組至少出現 5-pái
• 漢羅– 頭前 N 個 共同數量 共同比例– 30 16 53.3%– 100 56 56.0%– 500 400 80.0%– 1,000 839 83.9%– 3,000 2,548 84.9%– 5,000 4,396 87.9%
實驗結果 – MI kah CR 關連性 2
• 全羅– 頭前 N 個 共同數量 共同比例– 30 18 60.0%– 100 70 70.0%– 500 342 68.4%– 1,000 717 71.7%– 3,000 2,295 76.5%
• 漢羅 ê MI kah CR 算出來 ê 結果 khah 一致– 這應該是因為漢羅 ê 語料量 khah choe ,統計出來 ê
結果 khah 有可信度
A-N V-N 詞組 - A-N 詞組1
• A-N 詞組 ( 漢羅 )– MI 表順序 A-N 詞組– 6 加護 病房– 23 旺 梨– 26 ām 瓜– 28 愛國 獎券– 39 gōng gōng-á– 54 百年 志業– 55 開幕 典禮– 61 刻板 印象– 68 弱 質– 83 lò 腳仔
A-N V-N 詞組 - A-N 詞組2
• A-N 詞組 ( 全羅 )– MI 表順序 A-N 詞組– 16 gōa-che�k sin-niû– 23 lēng chhian-kim– 33 sòe-hàn âng-lâng– 39 ki-chân bîn-chiòng– 41 pit-gia�p tián-lé– 44 chhâ-thâu ang-á– 52 âng koe-bú– 67 lám sin-miā– 105 tiong-téng ha�k-hāu– 120 hiong-thó. gí-giân
A-N V-N 詞組 - A-N 詞組3
• A-N 詞組分析– khah oh chhē ,有 ê看起來 chiâⁿ勉強– 台華辭典無收 ê 詞
• 像「旺 梨」、「 ām 瓜」,應該是一個詞• 台華辭典有「王梨」無「旺梨」,有「醃瓜」無
「 ām瓜」• 斷詞系統切做兩個詞
– 自動語詞搭配統計表,對辭典詞條 ê收錄,會tàng 提供一 kóa 建議
A-N V-N 詞組 - V-N 詞組1
• V-N 詞組 ( 漢羅 )– MI 表順序 V-N 詞組– 20 建置 家後– 31 反攻 大陸– 35 chōaⁿ 農藥– 36 告 小腸– 38 判 死刑– 44 hiâⁿ 燒水– 52 訪 談– 53 抽 餉– 65 儉 腸– 74 khian 炸彈
A-N V-N 詞組 - V-N 詞組2
• V-N 詞組 ( 全羅 )– MI 表順序 V-N 詞組– 3 kiat-sêng it-thé– 9 phùi chhùi-nōa– 11 kiàn-tì ke-āu– 17 khà tiān-ōe– 18 chián iûⁿ-mn.g– 19 siau-tî chōe-kò– 20 sám hé-hu– 21 phòaⁿ sí-hêng– 22 chhiah phòng-se– 25 chhat chéng-kah
A-N V-N 詞組 - V-N 詞組3
• V-N 詞組分析– 全羅 ê 部分真好
• ùi MI 統計表頭前 64 個詞組內底 tō thang揀出 30個
– 漢羅 ê 部分 tō chiâⁿ bái• ùi MI 統計表頭前 203 個詞組內底 chiah揀出 30 個• 主要 ê原因是斷詞• 因為語料內底 ê寫法 kah 辭典無一致
名詞 ê 動詞搭配• beh 知影一個名詞頭前會 sái 用什麼動詞 • 查詢 「 V- 舌」
– 詞組 MI– 捲 舌 12.5225– tak 舌 11.5455– 用 舌 4.4675– Pō. 舌 10.7837– 學 舌 4.3861– 相唚 舌 13.9536– chhun 舌 5.2274– 連 舌 4.0452– kā 舌 1.0978– 做 舌 0.7722
動詞 ê 名詞搭配• beh 知影一個動詞後壁會用 sái 用什麼名詞 • 查詢「摃 /kòng-N 」
– 詞組 MI– kòng 流 7.6756– 摃 鑼 12.7198– kòng 鑼 10.8676– kòng 鐘 9.0936– 摃 鐘 9.2413– kòng 芳 6.5199– 摃 錘仔 14.9042– 摃 印仔 11.9042– 摃 電報 11.3599– kòng 電報 9.7972
名詞 ê 動詞搭配 kah動詞 ê 名詞搭配
• 這種查詢方式,對語言學習應該有真大 ê幫贊
實驗結果 - 主要問題 1
• 實驗 ê 結果無原來按算 ê hiah-nī 好 • 問題
– 漢羅用字無一致,致使斷詞效果無好– 詞類問題
實驗結果 - 主要問題 2
• 漢羅用字無一致,致使斷詞效果無好– 台華辭典內無這個詞
• 加詞• 專有名詞辨識• 定量詞處理
– 語料 ê 漢羅寫法 kah 台華辭典內 ê 無 kâng• 真 oh解決• kā所有 ê 寫法 lóng kā lok tī 辭典內底無好
實驗結果 - 主要問題 3
• 詞類問題 – 透過華語對譯詞 lia�h, 會 tiòng 無必要 ê 詞類
出來 – 一個詞有至少兩個詞類 mā 是真普遍 ê 情形 –解決方向
• 建立台語詞 ê 詞類 • 確認正確詞類
未來方向
• 整理 A-N V-N 以外 ê 詞組– 親像 P-N 、 N-V 、 D-A 、 D-V 、 V-R
• 維護台華辭典– 人工檢查 MI/CR 分數 khah kôan ê 兩個單音節詞
• 改進斷詞系統– 用統計方法提 kôan 正確率 ; 專有名詞、定量詞處理
• 整理台語詞類 • 自動標記詞類
– 利用統計方法解決含糊性問題 • 開發線頂台語語詞搭配查詢系統
• 感謝指教