acl 2014 読み会
DESCRIPTION
首都大小町研究室で行われたACL2014論文読み会のためのスライドTRANSCRIPT
ACL 2014 読み会
首都大学東京 システムデザイン研究科小町研究室 チョウ インチェン 修士1年 趙 寅 琛
2014/8/01
Two Knives Cut Better Than One: Chinese Word Segmentation with Dual Decomposition
二つのナイフでよりよく切れる:双対分解による中国語の単語分割
http://nlp.stanford.edu/pubs/cws_wang_acl14.pdf
論文紹介
日本語、中国語、タイ語などの言語はスペースで区切されていない
単語分割という前処理をしなければならない
中国語の単語分割には曖昧性が生じやすい 才能 → 才|能(才能) (…れば…できる)( talent ) ( just able )
単語分割
先行研究
単語に基づくモデル( Word-based Models )
文字に基づくモデル( Character-based Models )
双対分解による単語分割:二つのモデルを結合する
CRF : Conditional Random Fields
文字に基づくモデル
y :ラベル列x :入力文字列Z :正規化係数θ :フィーチャ重みf :フィーチャ関数(結果的に二値関数のことが多い) 入力文字列と yt-→yt+1 ラベルの遷移より計算される
ラベル:単語の開始なのか、それとも中間・末尾なのか 才 能
( START )( NOTSTART )
ビタビアルゴリズムにより確率が最も高いラベル列を探し出す
参考文献 Peng, Fuchun, Fangfang Feng and Andrew McCallum. 2004. Chinese segmentation and new word detection using conditional random fields. In COLING 2004.
文字に基づくモデル
パーセプトロン
単語に基づくモデル
y :単語列x :入力文字列Gen(x) :文字列xに対するすべて可能な分割結果α :重みベクトルΦ(y) :フィーチャベクトル
また確率が最も高い分割結果を探し出せばいい
Gen(x) の処理は手に負えないのでビーム探索法を用いて計算量を減らす
参考文献Yue Zhang and Stephen Clark. 2007. Chinese segmentation with a word-based perceptron algorithm. In Proceedings of ACL.
単語に基づくモデル
二つのモデルを結合しましょう
二つのモデルによる出力を一致させるという条件付けの最大化問題になる
条件付け最適化問題を解くにはラグランジュ未定乗数法を使う
モデルの結合
ラグランジュ関数を以下のように作る:
ここで、 i は単語の位置U 未定乗数のベクトル (u1, u2… ui … )
yc と yw 近ければ近いほど U→ 0 ので、
は以下のように書き直せる
モデルの結合
双対分解法の推論により変形すると
二つのより簡単な最大化問題になる
参考文献 Alexander M. Rush and Michael Collins. 2012. A tutorial on dual decomposition and Lagrangian relaxation for inference in natural language processing. JAIR, 45:305–362.
双対分解 (Dual Decomposition)
DD アルゴリズム
DD アルゴリズム
分解された二つの最大化問題
yc と yw は一致してくるなら、最終の結果として返される
DD アルゴリズム一致していない場合は、未定乗数 ui を更新 :
αt は t 時点での学習率 αt =1/NN は観測された「 t 回回した」という事件の回数
DD アルゴリズム
まずは未定乗数 ui を 0 に初期化する
収束するまで t 回回すただし、イテレーションの上限 T を超えてしまたら中止させ、強制に yc と yw 一致させてあげる
…………
SIGHANという中国語の言語処理ワークショプ
SIGHAN2003と2005のベークオフのデータに基づいて実験を行った
l2 正規化パラメータ λ =3パーセプトロンのイテーレション回数: 10ビームサイズ: 200DD アルゴリズムのイテーレション上限 T=100学習率 αt = 0.1
実験とその結果
四つのグループ(台湾中央研究院、北京大学、香港城市大学、マイクロソフト) それぞれの実験結果
実験とその結果
R: 再現率 P: 適合率 F1:R と P の調和平均 ROOV: 辞書外( Out-Of-Vocabulary ) の再現率C(consistency): 一貫性
実験とその結果ほかの研究者が提案した手法との比較
ディスカッション
横軸:収束するまでのイテレーション回数t
縦軸: 「t回回した」という事件の頻度
99.1% のケースは100 回以内に収束した
人の名前など厄介な対象でも対応できる
中国語文: 田雅各|的|创作 英語文: Tian Yage |’ s | creation 日本語文: 田雅各|の|創作 CRF : 田雅各的|创作 (分割不足) PCPT : 田雅|各|的|创作 (分割過剰) DD : 田雅各|的|创作 (正解)
ディスカッション
ディスカッション
同じ漢字が連続出てきて、曖昧性いっぱいでも心配いらない
中国語文: 享受|一点|点心 英語文: Enjoy | a bit of | dessert 日本語文: デザートを|少し|味わう CRF : 享受|一点点|心(心を少しだけ味わう) PCPT : 享受|一点点|心 DD : 享受|一点|点心 (正解)
まとめ
この論文は双対分解による中国語単語分割の手法を提案した従来の手法より精度が高い、一貫性が良い
何より実現方法は複雑ではない、さらに新たなモデルを構築し、データをリートレーニング必要はない
中国語単語分割のみならず、ほかの研究にも非常に役に立ちそうである