low rank language models for small training sets

19
Low Rank Language Models for Small Training Sets 出出 : IEEE Signal Processing Letters 出出 :Hutchinson, B. Ostendorf, M. Fazel, M. 出出出 : 出出出 出出 :MA0G0102 出出出出 :2012/1/9

Upload: david-richards

Post on 01-Jan-2016

21 views

Category:

Documents


1 download

DESCRIPTION

Low Rank Language Models for Small Training Sets. 出處 : IEEE Signal Processing Letters 作者 : Hutchinson, B. Ostendorf, M. Fazel, M. 報告人 : 許仕衡 學號 :MA0G0102 報告日期 :2012/1/9. 大綱. 簡介 文獻探討 研究方法 實驗結果 結論. 簡介 (1/2). 語言模組平滑法,且對大型資料集訓練的效能顯著。 - PowerPoint PPT Presentation

TRANSCRIPT

Low Rank Language Models for Small Training Sets

出處 : IEEE Signal Processing Letters作者 :Hutchinson, B. Ostendorf, M. Fazel, M. 

報告人 : 許仕衡學號 :MA0G0102

報告日期 :2012/1/9

大綱1.簡介2.文獻探討3.研究方法4.實驗結果5.結論

簡介 (1/2)

語言模組平滑法,且對大型資料集訓練的效能顯著。

 modified Kneser–Ney 方法,在不同訓練集的來源中,仍可維持一定的效能,儘管其他的方法在大型語言模組中能更有效的訓練。

大型訓練集是有價值的,但在某些情況下,它無法被使用 : 為專門交際的角色或目標訓練一個新的模組。

本文提出了可以精確控制模組複雜性的方法, low rank language models(LRLM) 可以在小範圍的資料集裡提供更好的效能。

簡介 (2/2)

在每個 n-gram 的語言模組隱含定義一個 n 階的聯合機率張量 (joint probability tensor) : 當 n=1 時,稱為 unigram 當 n=2 時,稱為 bigram 當 n=3 時,稱為 trigram

n-gram 的定義,就是這個字是否和前面 n-1個字有關。

文獻探討 (1/5)

說明在條件機率矩陣下,排名平滑下降的現象

文獻探討 (2/5)

文獻探討 (3/5)

定義 n 階的張量 為 :

⊗ : 表示張量的積 : 非負整數的權重值 F : 因子矩陣

有 2 種方法可以估計低排名的張量1. 假設 和 都是 convex ,則以下公式也

為 convex ,但該方法需要 的記憶體空間。

V : 字集數量 : 可行的 set

文獻探討 (4/5)

2. 給予比較高排名約束 :

這種結果在實踐中解決了問題多次被不同和最好的解答使用。

文獻探討 (5/5)

研究方法 (1/5)

LRLM 是代表在 n-gram 張量因素的機率 :

: 非負整數的權重值F(i): 因子矩陣

建造一個使用標準 n-gram Markov assumption 排序

研究方法 (2/5)

研究方法 (3/5)

期望最大化的方式來訓練模組 :1. 給定模型參數,並分配每個元件 給每

個元件 r 。

),...,,( )()(2

)(1

kn

kkk wwwd

2. 給予任務 Υ ,重新計算因子矩陣 F(i),非負元件的權重 λ

回到第一步,一直做到 perplexity 開始增加。

研究方法 (4/5)

上述訓練方法只能找到局部最佳。

為了避免零組件模型,增加一個小數的值量給每個分佈

研究方法 (5/5)

實驗結果 (1/4)

實驗工具 使用 LDC 英語廣播的語音資料,以廣播談話或

talkshows 當作資料庫來源

使用不同的模組,所得到的結果 B2: bigram 標準模組 B3: trigram 標準模組 LR2: bigramLRLM 模組 G3: trigram 一般模組

實驗結果 (2/4)

在不同排名下, LRLM 的 perplexity

一上圖所示,選用 Rank 為 250 混合組件次最佳的。

實驗結果 (3/4)

隨機從 LRLM 混合成分所提取出來的樣本

實驗結果 (4/4)

5. 結論 優化了低排名的目標,使用一個考慮聯合機率分布的低順位張量表示。

替初始化方法找到更好的局部優先。