Low Rank Language Models for Small Training Sets
出處 : IEEE Signal Processing Letters作者 :Hutchinson, B. Ostendorf, M. Fazel, M.
報告人 : 許仕衡學號 :MA0G0102
報告日期 :2012/1/9
大綱1.簡介2.文獻探討3.研究方法4.實驗結果5.結論
簡介 (1/2)
語言模組平滑法,且對大型資料集訓練的效能顯著。
modified Kneser–Ney 方法,在不同訓練集的來源中,仍可維持一定的效能,儘管其他的方法在大型語言模組中能更有效的訓練。
大型訓練集是有價值的,但在某些情況下,它無法被使用 : 為專門交際的角色或目標訓練一個新的模組。
本文提出了可以精確控制模組複雜性的方法, low rank language models(LRLM) 可以在小範圍的資料集裡提供更好的效能。
簡介 (2/2)
在每個 n-gram 的語言模組隱含定義一個 n 階的聯合機率張量 (joint probability tensor) : 當 n=1 時,稱為 unigram 當 n=2 時,稱為 bigram 當 n=3 時,稱為 trigram
n-gram 的定義,就是這個字是否和前面 n-1個字有關。
文獻探討 (1/5)
說明在條件機率矩陣下,排名平滑下降的現象
文獻探討 (2/5)
文獻探討 (3/5)
定義 n 階的張量 為 :
⊗ : 表示張量的積 : 非負整數的權重值 F : 因子矩陣
有 2 種方法可以估計低排名的張量1. 假設 和 都是 convex ,則以下公式也
為 convex ,但該方法需要 的記憶體空間。
V : 字集數量 : 可行的 set
文獻探討 (4/5)
2. 給予比較高排名約束 :
這種結果在實踐中解決了問題多次被不同和最好的解答使用。
文獻探討 (5/5)
研究方法 (1/5)
LRLM 是代表在 n-gram 張量因素的機率 :
: 非負整數的權重值F(i): 因子矩陣
建造一個使用標準 n-gram Markov assumption 排序
研究方法 (2/5)
研究方法 (3/5)
期望最大化的方式來訓練模組 :1. 給定模型參數,並分配每個元件 給每
個元件 r 。
),...,,( )()(2
)(1
kn
kkk wwwd
2. 給予任務 Υ ,重新計算因子矩陣 F(i),非負元件的權重 λ
回到第一步,一直做到 perplexity 開始增加。
研究方法 (4/5)
上述訓練方法只能找到局部最佳。
為了避免零組件模型,增加一個小數的值量給每個分佈
研究方法 (5/5)
實驗結果 (1/4)
實驗工具 使用 LDC 英語廣播的語音資料,以廣播談話或
talkshows 當作資料庫來源
使用不同的模組,所得到的結果 B2: bigram 標準模組 B3: trigram 標準模組 LR2: bigramLRLM 模組 G3: trigram 一般模組
實驗結果 (2/4)
在不同排名下, LRLM 的 perplexity
一上圖所示,選用 Rank 為 250 混合組件次最佳的。
實驗結果 (3/4)
隨機從 LRLM 混合成分所提取出來的樣本
實驗結果 (4/4)
5. 結論 優化了低排名的目標,使用一個考慮聯合機率分布的低順位張量表示。
替初始化方法找到更好的局部優先。