low rank language models for small training sets

Low Rank Language Models for Small Training Sets

出處 : IEEE Signal Processing Letters作者 :Hutchinson, B. Ostendorf, M. Fazel, M.

報告人 : 許仕衡學號 :MA0G0102

報告日期 :2012/1/9

大綱1.簡介2.文獻探討3.研究方法4.實驗結果5.結論

簡介 (1/2)

語言模組平滑法，且對大型資料集訓練的效能顯著。

modified Kneser–Ney 方法，在不同訓練集的來源中，仍可維持一定的效能，儘管其他的方法在大型語言模組中能更有效的訓練。

大型訓練集是有價值的，但在某些情況下，它無法被使用 : 為專門交際的角色或目標訓練一個新的模組。

本文提出了可以精確控制模組複雜性的方法， low rank language models(LRLM) 可以在小範圍的資料集裡提供更好的效能。

簡介 (2/2)

在每個 n-gram 的語言模組隱含定義一個 n 階的聯合機率張量 (joint probability tensor) : 當 n=1 時，稱為 unigram 當 n=2 時，稱為 bigram 當 n=3 時，稱為 trigram

n-gram 的定義，就是這個字是否和前面 n-1個字有關。

文獻探討 (1/5)

說明在條件機率矩陣下，排名平滑下降的現象

文獻探討 (2/5)

文獻探討 (3/5)

定義 n 階的張量為 :

⊗ : 表示張量的積 : 非負整數的權重值 F : 因子矩陣

有 2 種方法可以估計低排名的張量1. 假設和都是 convex ，則以下公式也

為 convex ，但該方法需要的記憶體空間。

V : 字集數量 : 可行的 set

文獻探討 (4/5)

2. 給予比較高排名約束 :

這種結果在實踐中解決了問題多次被不同和最好的解答使用。

文獻探討 (5/5)

研究方法 (1/5)

LRLM 是代表在 n-gram 張量因素的機率 :

: 非負整數的權重值F(i): 因子矩陣

建造一個使用標準 n-gram Markov assumption 排序

研究方法 (2/5)

研究方法 (3/5)

期望最大化的方式來訓練模組 :1. 給定模型參數，並分配每個元件給每

個元件 r 。

),...,,( )()(2

)(1

kn

kkk wwwd

2. 給予任務 Υ ，重新計算因子矩陣 F(i)，非負元件的權重 λ

回到第一步，一直做到 perplexity 開始增加。

研究方法 (4/5)

上述訓練方法只能找到局部最佳。

為了避免零組件模型，增加一個小數的值量給每個分佈

研究方法 (5/5)

實驗結果 (1/4)

實驗工具使用 LDC 英語廣播的語音資料，以廣播談話或

talkshows 當作資料庫來源

使用不同的模組，所得到的結果 B2: bigram 標準模組 B3: trigram 標準模組 LR2: bigramLRLM 模組 G3: trigram 一般模組

實驗結果 (2/4)

在不同排名下， LRLM 的 perplexity

一上圖所示，選用 Rank 為 250 混合組件次最佳的。

實驗結果 (3/4)

隨機從 LRLM 混合成分所提取出來的樣本

實驗結果 (4/4)

5. 結論優化了低排名的目標，使用一個考慮聯合機率分布的低順位張量表示。

替初始化方法找到更好的局部優先。

low rank language models for small training sets

Documents