low rank language models for small training sets
DESCRIPTION
Low Rank Language Models for Small Training Sets. 出處 : IEEE Signal Processing Letters 作者 : Hutchinson, B. Ostendorf, M. Fazel, M. 報告人 : 許仕衡 學號 :MA0G0102 報告日期 :2012/1/9. 大綱. 簡介 文獻探討 研究方法 實驗結果 結論. 簡介 (1/2). 語言模組平滑法,且對大型資料集訓練的效能顯著。 - PowerPoint PPT PresentationTRANSCRIPT
Low Rank Language Models for Small Training Sets
出處 : IEEE Signal Processing Letters作者 :Hutchinson, B. Ostendorf, M. Fazel, M.
報告人 : 許仕衡學號 :MA0G0102
報告日期 :2012/1/9
簡介 (1/2)
語言模組平滑法,且對大型資料集訓練的效能顯著。
modified Kneser–Ney 方法,在不同訓練集的來源中,仍可維持一定的效能,儘管其他的方法在大型語言模組中能更有效的訓練。
大型訓練集是有價值的,但在某些情況下,它無法被使用 : 為專門交際的角色或目標訓練一個新的模組。
本文提出了可以精確控制模組複雜性的方法, low rank language models(LRLM) 可以在小範圍的資料集裡提供更好的效能。
簡介 (2/2)
在每個 n-gram 的語言模組隱含定義一個 n 階的聯合機率張量 (joint probability tensor) : 當 n=1 時,稱為 unigram 當 n=2 時,稱為 bigram 當 n=3 時,稱為 trigram
n-gram 的定義,就是這個字是否和前面 n-1個字有關。
文獻探討 (1/5)