signl213

1

内海慶，塚原裕史[email protected]

[email protected]

デンソーアイティーラボラトリ

ベイズ階層言語モデルと Semi-Markov SHDCRF の協調学習による

教師なし形態素解析

mailto:[email protected]

mailto:[email protected]

アジェンダ

1. 研究背景2. 問題設定3. 本研究の提案4. パラメータ推定5. 評価実験6. 実験条件7. 実験結果8. まとめ

2

1. 研究背景 (1/6)

形態素解析は自然言語処理の基盤技術文書分類，固有表現抽出，係り受け解析，文書検索の索引付

け等従来は書き言葉を対象 (Juman, ChaSen, MeCab)

3

1. 研究背景 (2/6)

ブログや SNS, Twitter 等の CGM の増加 CGM 分析の需要

評判や意見の抽出 Twitter のホットトピック検出スパム検出

4

1. 研究背景 (3/6)5

CGM では書き言葉と話し言葉が混在造語等が作られる

http://ameblo.jp/nakagawa-shoko/ しょこたん語

1. 研究背景 (4/6)6

書き言葉で学習した形態素解析で解析ず助動詞 ,*,*,*, 特殊・ヌ , 連用ニ接続 , ぬ , ズ , ズも助詞 , 係助詞 ,*,*,*,*, も , モ , モもも名詞 , 一般 ,*,*,*,*, もも , モモ , モモも助詞 , 係助詞 ,*,*,*,*, も , モ , モぺろぺろ副詞 , 一般 ,*,*,*,*, ぺろぺろ , ペロペロ ,ペロペロぺろぺろ副詞 , 一般 ,*,*,*,*, ぺろぺろ , ペロペロ ,ペロペロマミタスマミタスラブマミタス名詞 , 一般 ,*,*,*,*,*た助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タだい名詞 , 一般 ,*,*,*,*, だい , ダイ , ダイマミタス名詞 , 一般 ,*,*,*,*,*た助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タだい名詞 , 一般 ,*,*,*,*, だい , ダイ , ダイマミタスマミタスマミタスラブマミタス名詞 , 一般 ,*,*,*,*,*…

1. 研究背景 (5/6)7

( 若者言葉を含む ) 話し言葉の特徴変化の早さ

明治前期 - 書生言葉明治後期 - てよだわ言葉 90 年代半ば - ギャル語 2000 年代 - KY 語 , 2 ちゃん語（ネットスラング） , しょこたん

語 , etc. 未知語の問題

常に新しい単語が産まれ続けるアノテーションの難しさ

正解を決めるだけでも一苦労人手で常時アノテーションし続けるのは難しい

1. 研究背景 (6/6)8

教師なし形態素解析の需要大量のデータから自動で分かち書きを獲得したい深い言語処理に繋げるために品詞推定も同時に行いたい

e.g. 係り受け解析，固有表現抽出， etc.

#/ ずもももも / ぺろぺろ / ぺろぺろ / マミタス / マミタス / ラブマミタス / ただいマミタス / ただいマミタス / マミタス / マミタス / ラブマミタス / 愛の神話マミタス / 愛の讃歌 / マミタス / マミタス / マミ

タス / ラブマミタス

教師なし形態素解析によるしょこたんブログの解析結果の例

2. 問題設定 1. 適切な分かち書きの学習

9

Input: ずももももぺろぺろ

ずももももぺろぺろ

ずもももぺろぺろ


もぺろ

可能な分かち書きの中から適切なパスを学習する

2. 問題設定 1. 適切な分かち書きの学習

10

Input: ずももももぺろぺろ

ずももももぺろぺろ



もぺろ

可能な分かち書きの中から適切なパスを学習する

NPYLM[Mochihashi, et al., ACL2009]NPYCRF[ 持橋，他 ., NLP2011]

感動詞感動詞

2. 問題設定2. 適切な品詞の学習

11

ずもももも

名詞名詞

動詞

形容詞

副詞

助詞

動詞

形容詞

副詞

助詞

ぺろぺろ

名詞

形態素に対する適切な品詞と品詞間の遷移を学習する

感動詞感動詞

2. 問題設定2. 適切な品詞の学習

12

ずもももも

名詞名詞

動詞

形容詞

副詞

助詞

動詞

形容詞

副詞

助詞

ぺろぺろ

名詞

形態素に対する適切な品詞と品詞間の遷移を学習する

HMM[Brown et al., CL1992]PYP-HMM[Blunsom, et al., ACL2011]

等， HMM を用いた手法

3. 本研究の提案教師なし・半教師あり形態素解析

13

NPYLM+Semi-Markov SHDCRF 分かち書きと品詞推定を同時に行う

主な貢献潜在クラスを導入した CRF と NPYLM の協調学習の提案分かち書きと品詞推定の同時学習を試みた

NPYLM の構築

テキスト

SHDCRF の更新

NPYLM の更新

品詞を考慮した分かち書きのサンプリングとパラメータ更

新(NPYLM を素性として使用 )

サンプリングされた分かち書きを用いて NPYLM を更新

3. 1　提案手法のアイデア14

分かち書きで獲得した形態素ごとに潜在クラスを割り当てる割り当てられた潜在クラスを形態素の品詞と見なす品詞間の遷移確率も学習するため，文法も獲得できる

3. 2 SHDCRF(1/2)[Shen et al., WWW2011]

15

CRF の入力と出力の間に潜在クラスの層を導入したモデルラベル遷移ではなく潜在クラスの遷移を学習することで，ラベル遷移では見れなかったサブクラスの遷移まで見ることができ

る

3. 2 SHDCRF(2/2)[Shen et al., WWW2011]

16

SHDCRF は元々は検索クエリに対するユーザの意図推定を目的として作られている

入力はセグメンテーション済みを想定しており，そのままでは分かち書きと品詞推定の同時学習には利用できない

分かち書きと品詞推定の同時学習に適用するために，Semi-Markov モデルに拡張する

3. 3 Semi-Markov SHDCRF17

入力文字列 x に対する分かち書き s の条件付き確率

h={h1,h2,…,hM} は潜在クラスの列pΛ(s|h), pΛ(h|x) は次のようにモデル化セグメント列と潜在

クラス列の長さが一致し，かつ入力文字列の長さを超えないための制約

3. 4 NPYLM との協調学習18

SHDCRF の素性関数の 1つとして NPYLM を利用する

NPYLM

入力系列と潜在クラスの間の関係についての素性関数

セグメンテーションと潜在クラスの間の関係についての素性関数

3. 5 マルコフ素性関数の追加19

セグメント素性関数をマルコフ素性関数の和とおく

j: セグメンテーションが与えられた時のセグメントの位置

i: マルコフモデルで見た時の入力系列の位置s(.): セグメントの先頭位置e(.): セグメントの終了位置

3. 6 マルコフ素性関数20

追加したマルコフ素性関数セグメント中の位置情報を考慮

※ 現在の実装では潜在クラスの遷移はマルコフ素性関数では見ていない

φ(先頭 , 文字= ぺ , h= 名詞 ) φ(先頭 , 文字= ぺ , h= 動詞 )φ(終端 , 文字= ろ , h= 名詞 ) φ(終端 , 文字= ろ , h= 動詞 )φ(2, 文字 = ろ , h= 名詞 ) φ(2, 文字= ろ , h= 動詞 )φ(3, 文字= ぺ , h= 名詞 ) φ(3, 文字=ぺ , h= 動詞 )

仮想的にセグメント内のローカルな IOB ラベルを見ることに相当

感動詞

名詞

動詞

形容詞

副詞

助詞

ぺろぺろ

名詞

4. パラメータ推定 (1/3)21

以下の損失関数を最大化

H は条件付きエントロピー

獲得した形態素に対して潜在クラスがスパースに割り当てられるように学習する

4. パラメータ推定 (2/3)22

パラメータの更新には勾配法を使用

4. パラメータ推定 (3/3)23

学習アルゴリズム

文字N-gram だけを最初に学習して基底測度として使用する

品詞付きの分かち書きをサンプリング（最尤のパスを選択）NPYLM の更新のための分かち書きのサンプリングSHDCRF のパラメータ更新NPYLM の更新

5. 評価実験24

使用データ京大コーパス

毎日新聞 1995 年 1月 1日〜 17日までの全記事約２万文毎日新聞 1995 年 1月〜 12月の社説記事約 2万文テストデータ：ランダムで選んだ 1000 文訓練データ：テストデータ以外

しょこたんブログ 2010 年 8月 16日から 2013 年 6月 17日までの約 13000記事

6. 実験条件 (1/2)25

分かち書きの評価1. 教師なし学習

訓練データに付与されている分かち書きを削除し，文字列のみを使用

2. 半教師あり学習ランダムに抽出した 10K 文を教師データ，残りは正解の分かち書

きを削除して使用3. 教師あり学習

訓練データの分かち書きを全て使用品詞推定

人手で付与された品詞と獲得した潜在クラスの対応関係を確認

6. 実験条件 (2/2)26

使用した素性セグメント素性

セグメントの長さ潜在クラスの遷移単語 unigram 確率単語 bigram 確率

マルコフ素性観測文字列の文字 unigram 観測文字列の文字 bigram 観測文字列の文字種 unigram 観測文字列の文字種 bigram ※ 文字種は Unicode の Character

name を使用

NPYLM

7. 実験結果 - 分かち書きの精度27

半教師あり学習が最も高い F値となった．教師なしで獲得した形態素と人間の基準とは異なる

7. 実験結果 - 教師なしの分かち書き28

複合語が獲得されてしまうため，不正解となる事例が多い獲得した複合語の例

教師なし学習で獲得される形態素と人間が決めた形態素との間では乖離が見られた

7. 実験結果 - 品詞推定 (1/3)29

潜在クラスの軸で正規化

普通名詞と殆どの潜在クラスが結びつく

7. 実験結果 - 品詞推定 (2/3)30

正解と一致した形態素の品詞の分布普通名詞 : 106442*: 84384格助詞 : 78642サ変名詞 : 52958接続助詞 : 38623読点 : 36484．．．終助詞 : 321ナ形容詞接頭辞 : 189アルファベット : 3動詞接頭辞 : 2

正しく分かち書きできた形態素の品詞は名詞が多く，偏りがある

7. 実験結果 - 品詞推定 (3/3)31

品詞の軸で正規化

潜在クラスの 7, 8, 9 が名詞と結びつく傾向

他，各品詞ごとに少数の潜在クラスが割り当てられているように見える

しかし，潜在クラスの12 のように殆どの品詞と結びつくクラスも見られ，人間の直感とは一致しない

7. 実験結果 - ブログ記事の分かち書き32

教師なしによるブログ記事の分かち書きの例顔文字や未知語の検出ができている

定量的な評価は正解を決めるのが難しいため今回は行っていない．

8. まとめ33

NPYLM と Semi-Markov SHDCRF の協調学習による教師なし・半教師あり形態素解析を提案

分かち書きと品詞推定の同時学習を実現京大コーパスを用いた評価で効果を示したしょこたんブログを用いた実験で未知語や新語への対応ができる

ことを示した今後の課題

品詞推定精度の向上 e.g. 品詞についても半教師あり学習を行うことで人間の直感と一致

させる高速化

9. 従来研究34

教師なし学習に基づく分かち書き MDL原理に基づく手法

[松原他 , NLP2007], [Argamon et al., ACL2004] ノンパラメトリックベイズ法による形態素解析のための言語モデル学習

[Mochihashi et al., ACL2009]半教師あり学習に基づく分かち書き

NPYLM と CRF を用いた半教師あり形態素解析 [ 持橋他 , NLP2011]教師あり学習に基づく形態素解析

MEMM を用いた能動学習でアノテーションコストを削減 [内元他 , NLP2003]

書き言葉のアノテーション済みコーパスに少量の話し言葉のコーパスを追加して形態素解析の性能を改善[松本他 , 自然言語処理研究会報告 2001]

signl213

Documents