segmenting sponteneous japanese using mdl principle

18
最小記述長原理に基づいた 日本語話し言葉の単語分割 東京大学大学院 松原勇介 豊橋技術科学大学 秋葉友良 東京大学/Univ. of Manchester/NaCTeM 辻井潤一 NLP2007 (2007-03-20)

Upload: yusuke-matsubara

Post on 23-Jun-2015

788 views

Category:

Education


2 download

TRANSCRIPT

Page 1: Segmenting Sponteneous Japanese using MDL principle

最小記述長原理に基づいた日本語話し言葉の単語分割

東京大学大学院 松原勇介豊橋技術科学大学 秋葉友良

東京大学/Univ. of Manchester/NaCTeM 辻井潤一

NLP2007 (2007-03-20)

Page 2: Segmenting Sponteneous Japanese using MDL principle

2

本発表の概要N-gram言語モデル向けの教師なし単語分割法を提案

本研究が対象としている単語分割の説明 提案手法の概要 結果:形態素解析による分割を改善すること

に成功

Page 3: Segmenting Sponteneous Japanese using MDL principle

3

背景

単語分割されたコーパス

生コーパ

単語ベースN-gram

言語モデル

音声認識候補の順位付け

文書とクエリの類似度評価

うまい単語分割ができると、言語モデルやその応用システムの性能が向上する

目的: 言語モデル性能の向上

Page 4: Segmenting Sponteneous Japanese using MDL principle

4

ドメインへの特化

ドメイン向けに辞書を補充 そのドメインの単語分割済みコーパスで教師あり学習 そのドメインの生コーパスで言語モデルの性能指標を

最適化する教師なし学習

ドメインに特化した単語分割をする既存手法

N-gram言語モデルの性能はドメインに敏感

Page 5: Segmenting Sponteneous Japanese using MDL principle

5

なぜ教師なし学習か 作業コストが低い

辞書の作成、単語分割済みコーパスが不要 形態素や人間の基準がよいとは限らない

区切りの与え方はドメイン次第 [よろしく][お][願い][し][ます] ? [よ][ろ][し][く][お][願][い][し][ま][す] ? [よろしくお願いします] ?

Page 6: Segmenting Sponteneous Japanese using MDL principle

6

提案手法(学習)

1. 隣接して現れる2単語の対のうち、ある指標(コーパスの記述長)の減少幅が最大の組を連結する

2. 連結されたものを1単語とみなして、同じ手続きを繰り返す

仮の単語分割済みコーパス

(最初は文字分割など)

改良された単語分割済み

コーパス

3. 1.で減少する候補がなくなったら終了4. 連結した単語対を連結した順に出力する

Page 7: Segmenting Sponteneous Japanese using MDL principle

7

何を最適化するか

言語モデルの性能指標そのもの

N=1の場合のみしか実現されていない

この基準のみでは、過学習に陥る

N-gram パープレキシティ

パープレキシティ+辞書の符号長

N=2の場合の実用的な計算が可能になった

指標自身が過学習を防いでいる

N-gram 符号化による記述長(提案)

Page 8: Segmenting Sponteneous Japanese using MDL principle

8

記述長の定義記述長は コーパスの符号長 と 辞書の符号長 の和

− ∑w∈辞書

∑c∈w

log#辞書中の c語彙数

− ∑w1∈辞書

∑w2∈辞書

#w1w2 log#w1w2

#w1

コーパスの符号長

辞書の符号長

Page 9: Segmenting Sponteneous Japanese using MDL principle

9

1ステップあたりの計算量

全単語対に対して、連結後の記述長を再計算する

→ O(延べ単語数x語彙数 2)

素朴な方法

全単語対に対して、記述長の差分を計算する1つの単語対についての差分の計算は O(語彙数) で済む

→ O(延べ単語数+語彙数x語彙数 2)

我々の方法

Page 10: Segmenting Sponteneous Japanese using MDL principle

10

提案手法(適用)基本的には

学習で出力された連結手順をそのまま再現する

ヘルドアウトデータを用いて最適な連結数を決定する

連結手順すべてを適用すると、連結が起こりすぎて言語モデルの性能が悪化

予備実験の結果

Page 11: Segmenting Sponteneous Japanese using MDL principle

11

動作例(初期分割:文字)

Page 12: Segmenting Sponteneous Japanese using MDL principle

12

動作例(10ステップ後)

Page 13: Segmenting Sponteneous Japanese using MDL principle

13

動作例(100ステップ後)

Page 14: Segmenting Sponteneous Japanese using MDL principle

14

動作例(1000ステップ後)

Page 15: Segmenting Sponteneous Japanese using MDL principle

15

実験 対話音声書き起こし文(約25万字)を使用

言語モデルの訓練  ヘルドアウト  評価19 : 1 :  1

次を比較 形態素解析(MeCab)による分割 文字を初期分割にした提案手法 MeCabを初期分割にした提案手法

2-gram言語モデルの文字あたりパープレキシティで性能を評価

Page 16: Segmenting Sponteneous Japanese using MDL principle

16

文字当

たり

パー

プレ

キシ

ティ

提案手法(文字)

提案手法(形態素)

連結数

形態素解析

結果

Page 17: Segmenting Sponteneous Japanese using MDL principle

17

文字当

たり

パー

プレ

キシ

ティ

提案手法(文字)

提案手法(形態素)

連結数

形態素解析

結果 提案手法(形態素)は形態素解析の分割を改善した ヘルドアウトにより最適値をほぼ予測できた

Page 18: Segmenting Sponteneous Japanese using MDL principle

18

まとめ 2-gramパープレキシティを近似的に最適化す

る教師なし単語分割の手法を提案した 文字当たりパープレキシティの観点で形態素解

析による分割を改善した

言語モデルの応用システムの性能の点でも本手法が有効かどうかを調べる

3-gram、およびそれ以上への手法の拡張

今後の課題