signl213
TRANSCRIPT
1
内海 慶, 塚原 裕史[email protected]
デ ン ソ ーアイ ティ ー ラ ボ ラ ト リ
ベイズ階層言語モデルと Semi-Markov SHDCRF の協調学習による
教師なし形態素解析
アジェンダ
1. 研究背景2. 問題設定3. 本研究の提案4. パラメータ推定5. 評価実験6. 実験条件7. 実験結果8. まとめ
2
1. 研究背景 (1/6)
形態素解析は自然言語処理の基盤技術 文書分類,固有表現抽出,係り受け解析,文書検索の索引付
け等 従来は書き言葉を対象 (Juman, ChaSen, MeCab)
3
1. 研究背景 (2/6)
ブログや SNS, Twitter 等の CGM の増加 CGM 分析の需要
評判や意見の抽出 Twitter のホットトピック検出 スパム検出
4
1. 研究背景 (3/6)5
CGM では書き言葉と話し言葉が混在 造語等が作られる
http://ameblo.jp/nakagawa-shoko/ しょこたん語
1. 研究背景 (4/6)6
書き言葉で学習した形態素解析で解析ず 助動詞 ,*,*,*, 特殊・ヌ , 連用ニ接続 , ぬ , ズ , ズも 助詞 , 係助詞 ,*,*,*,*, も , モ , モもも 名詞 , 一般 ,*,*,*,*, もも , モモ , モモも 助詞 , 係助詞 ,*,*,*,*, も , モ , モぺろぺろ 副詞 , 一般 ,*,*,*,*, ぺろぺろ , ペロペロ ,ペロペロぺろぺろ 副詞 , 一般 ,*,*,*,*, ぺろぺろ , ペロペロ ,ペロペロマミタスマミタスラブマミタス 名詞 , 一般 ,*,*,*,*,*た 助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タだい 名詞 , 一般 ,*,*,*,*, だい , ダイ , ダイマミタス 名詞 , 一般 ,*,*,*,*,*た 助動詞 ,*,*,*, 特殊・タ , 基本形 , た , タ , タだい 名詞 , 一般 ,*,*,*,*, だい , ダイ , ダイマミタスマミタスマミタスラブマミタス名詞 , 一般 ,*,*,*,*,*…
1. 研究背景 (5/6)7
( 若者言葉を含む ) 話し言葉の特徴 変化の早さ
明治前期 - 書生言葉 明治後期 - てよだわ言葉 90 年代半ば - ギャル語 2000 年代 - KY 語 , 2 ちゃん語(ネットスラング) , しょこたん
語 , etc. 未知語の問題
常に新しい単語が産まれ続ける アノテーションの難しさ
正解を決めるだけでも一苦労 人手で常時アノテーションし続けるのは難しい
1. 研究背景 (6/6)8
教師なし形態素解析の需要 大量のデータから自動で分かち書きを獲得したい 深い言語処理に繋げるために品詞推定も同時に行いたい
e.g. 係り受け解析,固有表現抽出, etc.
#/ ず も も も も / ぺ ろ ぺ ろ / ぺ ろ ぺ ろ / マ ミ タ ス / マ ミ タ ス / ラ ブ マ ミ タ ス / た だ い マ ミ タ ス / た だ い マ ミ タ ス / マ ミ タ ス / マ ミ タ ス / ラ ブ マ ミ タ ス / 愛 の 神 話 マ ミ タ ス / 愛 の 讃 歌 / マ ミ タ ス / マ ミ タ ス / マ ミ
タ ス / ラ ブ マ ミ タ ス
教師なし形態素解析によるしょこたんブログの解析結果の例
2. 問題設定 1. 適切な分かち書きの学習
9
Input: ず も も も も ぺ ろ ぺ ろ
ずもももも ぺろぺろ
ず も も も ぺ ろ ぺ ろ
ずも もも ぺろ ぺろ
もぺろ
可能な分かち書きの中から適切なパスを学習する
2. 問題設定 1. 適切な分かち書きの学習
10
Input: ず も も も も ぺ ろ ぺ ろ
ずもももも ぺろぺろ
ず も も も ぺ ろ ぺ ろ
ずも もも ぺろ ぺろ
もぺろ
可能な分かち書きの中から適切なパスを学習する
NPYLM[Mochihashi, et al., ACL2009]NPYCRF[ 持橋,他 ., NLP2011]
感動詞 感動詞
2. 問題設定2. 適切な品詞の学習
11
ずもももも
名詞 名詞
動詞
形容詞
副詞
助詞
動詞
形容詞
副詞
助詞
ぺろぺろ
名詞
形態素に対する適切な品詞と品詞間の遷移を学習する
感動詞 感動詞
2. 問題設定2. 適切な品詞の学習
12
ずもももも
名詞 名詞
動詞
形容詞
副詞
助詞
動詞
形容詞
副詞
助詞
ぺろぺろ
名詞
形態素に対する適切な品詞と品詞間の遷移を学習する
HMM[Brown et al., CL1992]PYP-HMM[Blunsom, et al., ACL2011]
等, HMM を用いた手法
3. 本研究の提案教師なし・半教師あり形態素解析
13
NPYLM+Semi-Markov SHDCRF 分かち書きと品詞推定を同時に行う
主な貢献 潜在クラスを導入した CRF と NPYLM の協調学習の提案 分かち書きと品詞推定の同時学習を試みた
NPYLM の構築
テキスト
SHDCRF の更新
NPYLM の更新
品詞を考慮した分かち書きのサンプリングとパラメータ更
新(NPYLM を素性として使用 )
サンプリングされた分かち書きを用いて NPYLM を更新
3. 1 提案手法のアイデア14
分かち書きで獲得した形態素ごとに潜在クラスを割り当てる割り当てられた潜在クラスを形態素の品詞と見なす品詞間の遷移確率も学習するため,文法も獲得できる
3. 2 SHDCRF(1/2)[Shen et al., WWW2011]
15
CRF の入力と出力の間に潜在クラスの層を導入したモデルラベル遷移ではなく潜在クラスの遷移を学習することで,ラベル遷移では見れなかったサブクラスの遷移まで見ることができ
る
3. 2 SHDCRF(2/2)[Shen et al., WWW2011]
16
SHDCRF は元々は検索クエリに対するユーザの意図推定を目的として作られている
入力はセグメンテーション済みを想定しており,そのままでは分かち書きと品詞推定の同時学習には利用できない
分かち書きと品詞推定の同時学習に適用するために,Semi-Markov モデルに拡張する
3. 3 Semi-Markov SHDCRF17
入力文字列 x に対する分かち書き s の条件付き確率
h={h1,h2,…,hM} は潜在クラスの列pΛ(s|h), pΛ(h|x) は次のようにモデル化セグメント列と潜在
クラス列の長さが一致し,かつ入力文字列の長さを超えないための制約
3. 4 NPYLM との協調学習18
SHDCRF の素性関数の 1つとして NPYLM を利用する
NPYLM
入力系列と潜在クラスの間の関係についての素性関数
セグメンテーションと潜在クラスの間の関係についての素性関数
3. 5 マルコフ素性関数の追加19
セグメント素性関数をマルコフ素性関数の和とおく
j: セグメンテーションが与えられた時のセグメントの位置
i: マルコフモデルで見た時の入力系列の位置s(.): セグメントの先頭位置e(.): セグメントの終了位置
3. 6 マルコフ素性関数20
追加したマルコフ素性関数 セグメント中の位置情報を考慮
※ 現在の実装では潜在クラスの遷移はマルコフ素性関数では見ていない
φ(先頭 , 文字= ぺ , h= 名詞 ) φ(先頭 , 文字= ぺ , h= 動詞 )φ(終端 , 文字= ろ , h= 名詞 ) φ(終端 , 文字= ろ , h= 動詞 )φ(2, 文字 = ろ , h= 名詞 ) φ(2, 文字= ろ , h= 動詞 )φ(3, 文字= ぺ , h= 名詞 ) φ(3, 文字=ぺ , h= 動詞 )
仮想的にセグメント内のローカルな IOB ラベルを見ることに相当
感動詞
名詞
動詞
形容詞
副詞
助詞
ぺろぺろ
名詞
4. パラメータ推定 (1/3)21
以下の損失関数を最大化
H は条件付きエントロピー
獲得した形態素に対して潜在クラスがスパースに割り当てられるように学習する
4. パラメータ推定 (2/3)22
パラメータの更新には勾配法を使用
4. パラメータ推定 (3/3)23
学習アルゴリズム
文字N-gram だけを最初に学習して基底測度として使用する
品詞付きの分かち書きをサンプリング(最尤のパスを選択)NPYLM の更新のための分かち書きのサンプリングSHDCRF のパラメータ更新NPYLM の更新
5. 評価実験24
使用データ 京大コーパス
毎日新聞 1995 年 1月 1日〜 17日までの全記事約2万文 毎日新聞 1995 年 1月〜 12月の社説記事約 2万文 テストデータ:ランダムで選んだ 1000 文 訓練データ:テストデータ以外
しょこたんブログ 2010 年 8月 16日から 2013 年 6月 17日までの約 13000記事
6. 実験条件 (1/2)25
分かち書きの評価1. 教師なし学習
訓練データに付与されている分かち書きを削除し,文字列のみを使用
2. 半教師あり学習 ランダムに抽出した 10K 文を教師データ,残りは正解の分かち書
きを削除して使用3. 教師あり学習
訓練データの分かち書きを全て使用 品詞推定
人手で付与された品詞と獲得した潜在クラスの対応関係を確認
6. 実験条件 (2/2)26
使用した素性 セグメント素性
セグメントの長さ 潜在クラスの遷移 単語 unigram 確率 単語 bigram 確率
マルコフ素性 観測文字列の文字 unigram 観測文字列の文字 bigram 観測文字列の文字種 unigram 観測文字列の文字種 bigram ※ 文字種は Unicode の Character
name を使用
NPYLM
7. 実験結果 - 分かち書きの精度27
半教師あり学習が最も高い F値となった.教師なしで獲得した形態素と人間の基準とは異なる
7. 実験結果 - 教師なしの分かち書き28
複合語が獲得されてしまうため,不正解となる事例が多い 獲得した複合語の例
教師なし学習で獲得される形態素と人間が決めた形態素との間では乖離が見られた
7. 実験結果 - 品詞推定 (1/3)29
潜在クラスの軸で正規化
普通名詞と殆どの潜在クラスが結びつく
7. 実験結果 - 品詞推定 (2/3)30
正解と一致した形態素の品詞の分布普通名詞 : 106442*: 84384格助詞 : 78642サ変名詞 : 52958接続助詞 : 38623読点 : 36484...終助詞 : 321ナ形容詞接頭辞 : 189アルファベット : 3動詞接頭辞 : 2
正しく分かち書きできた形態素の品詞は名詞が多く,偏りがある
7. 実験結果 - 品詞推定 (3/3)31
品詞の軸で正規化
潜在クラスの 7, 8, 9 が名詞と結びつく傾向
他,各品詞ごとに少数の潜在クラスが割り当てられているように見える
しかし,潜在クラスの12 のように殆どの品詞と結びつくクラスも見られ,人間の直感とは一致しない
7. 実験結果 - ブログ記事の分かち書き32
教師なしによるブログ記事の分かち書きの例顔文字や未知語の検出ができている
定量的な評価は正解を決めるのが難しいため今回は行っていない.
8. まとめ33
NPYLM と Semi-Markov SHDCRF の協調学習による教師なし・半教師あり形態素解析を提案
分かち書きと品詞推定の同時学習を実現 京大コーパスを用いた評価で効果を示した しょこたんブログを用いた実験で未知語や新語への対応ができる
ことを示した今後の課題
品詞推定精度の向上 e.g. 品詞についても半教師あり学習を行うことで人間の直感と一致
させる 高速化
9. 従来研究34
教師なし学習に基づく分かち書き MDL原理に基づく手法
[松原 他 , NLP2007], [Argamon et al., ACL2004] ノンパラメトリックベイズ法による形態素解析のための言語モデル学習
[Mochihashi et al., ACL2009]半教師あり学習に基づく分かち書き
NPYLM と CRF を用いた半教師あり形態素解析 [ 持橋 他 , NLP2011]教師あり学習に基づく形態素解析
MEMM を用いた能動学習でアノテーションコストを削減 [内元 他 , NLP2003]
書き言葉のアノテーション済みコーパスに少量の話し言葉のコーパスを追加して形態素解析の性能を改善[松本 他 , 自然言語処理研究会報告 2001]