acl 2014 読み会

23
ACL 2014 読読読 読読読読読読 読読読読読読読読読読読 読読読読読 読読読 読読読読読 読読 読 読 読 2014/8/01

Upload: xzhaoxx

Post on 24-May-2015

188 views

Category:

Education


2 download

DESCRIPTION

首都大小町研究室で行われたACL2014論文読み会のためのスライド

TRANSCRIPT

Page 1: ACL 2014 読み会

ACL 2014 読み会

首都大学東京 システムデザイン研究科小町研究室          チョウ インチェン  修士1年   趙   寅 琛

2014/8/01

Page 2: ACL 2014 読み会

Two Knives Cut Better Than One:   Chinese Word Segmentation with Dual Decomposition

二つのナイフでよりよく切れる:双対分解による中国語の単語分割

http://nlp.stanford.edu/pubs/cws_wang_acl14.pdf

論文紹介

Page 3: ACL 2014 読み会

日本語、中国語、タイ語などの言語はスペースで区切されていない

単語分割という前処理をしなければならない

中国語の単語分割には曖昧性が生じやすい 才能   →   才|能(才能)    (…れば…できる)( talent )   ( just able )

単語分割

Page 4: ACL 2014 読み会

先行研究

単語に基づくモデル( Word-based Models )

文字に基づくモデル( Character-based Models )

双対分解による単語分割:二つのモデルを結合する

Page 5: ACL 2014 読み会

CRF : Conditional Random Fields

文字に基づくモデル

y :ラベル列x :入力文字列Z :正規化係数θ :フィーチャ重みf :フィーチャ関数(結果的に二値関数のことが多い)  入力文字列と yt-→yt+1 ラベルの遷移より計算される

Page 6: ACL 2014 読み会

ラベル:単語の開始なのか、それとも中間・末尾なのか        才  能

      ( START )( NOTSTART )

ビタビアルゴリズムにより確率が最も高いラベル列を探し出す

参考文献 Peng, Fuchun, Fangfang Feng and Andrew McCallum. 2004. Chinese segmentation and new word detection using conditional random fields. In COLING 2004.

文字に基づくモデル

Page 7: ACL 2014 読み会

パーセプトロン

単語に基づくモデル

y :単語列x :入力文字列Gen(x) :文字列xに対するすべて可能な分割結果α :重みベクトルΦ(y) :フィーチャベクトル 

Page 8: ACL 2014 読み会

また確率が最も高い分割結果を探し出せばいい

Gen(x) の処理は手に負えないのでビーム探索法を用いて計算量を減らす

参考文献Yue Zhang and Stephen Clark. 2007. Chinese segmentation   with a word-based perceptron algorithm.   In Proceedings of ACL.

単語に基づくモデル

Page 9: ACL 2014 読み会

二つのモデルを結合しましょう

Page 10: ACL 2014 読み会

二つのモデルによる出力を一致させるという条件付けの最大化問題になる

条件付け最適化問題を解くにはラグランジュ未定乗数法を使う

モデルの結合

Page 11: ACL 2014 読み会

ラグランジュ関数を以下のように作る:

  ここで、 i は単語の位置U 未定乗数のベクトル (u1, u2… ui … )

yc と yw  近ければ近いほど  U→ 0 ので、

は以下のように書き直せる

モデルの結合

Page 12: ACL 2014 読み会

双対分解法の推論により変形すると

  二つのより簡単な最大化問題になる

参考文献 Alexander M. Rush and Michael Collins. 2012. A tutorial on dual decomposition and Lagrangian relaxation for inference in natural language processing.   JAIR, 45:305–362.

双対分解 (Dual Decomposition)

Page 13: ACL 2014 読み会

DD アルゴリズム

Page 14: ACL 2014 読み会

DD アルゴリズム

分解された二つの最大化問題

yc と yw  は一致してくるなら、最終の結果として返される

Page 15: ACL 2014 読み会

DD アルゴリズム一致していない場合は、未定乗数 ui を更新 :

αt は t 時点での学習率  αt   =1/NN は観測された「 t 回回した」という事件の回数

Page 16: ACL 2014 読み会

DD アルゴリズム

まずは未定乗数 ui を 0 に初期化する

収束するまで t 回回すただし、イテレーションの上限 T を超えてしまたら中止させ、強制に yc と yw  一致させてあげる

…………

Page 17: ACL 2014 読み会

SIGHANという中国語の言語処理ワークショプ

SIGHAN2003と2005のベークオフのデータに基づいて実験を行った

l2 正規化パラメータ λ =3パーセプトロンのイテーレション回数:  10ビームサイズ:  200DD アルゴリズムのイテーレション上限 T=100学習率  αt = 0.1

実験とその結果

Page 18: ACL 2014 読み会

    四つのグループ(台湾中央研究院、北京大学、香港城市大学、マイクロソフト) それぞれの実験結果

実験とその結果

R: 再現率    P: 適合率     F1:R と P の調和平均 ROOV:  辞書外( Out-Of-Vocabulary ) の再現率C(consistency):  一貫性

Page 19: ACL 2014 読み会

実験とその結果ほかの研究者が提案した手法との比較

Page 20: ACL 2014 読み会

ディスカッション

横軸:収束するまでのイテレーション回数t

縦軸: 「t回回した」という事件の頻度

99.1% のケースは100 回以内に収束した

Page 21: ACL 2014 読み会

人の名前など厄介な対象でも対応できる

   中国語文:  田雅各|的|创作  英語文:   Tian Yage |’ s | creation  日本語文: 田雅各|の|創作      CRF : 田雅各的|创作   (分割不足)   PCPT : 田雅|各|的|创作 (分割過剰) DD : 田雅各|的|创作  (正解)

ディスカッション

Page 22: ACL 2014 読み会

ディスカッション

同じ漢字が連続出てきて、曖昧性いっぱいでも心配いらない

   中国語文:  享受|一点|点心  英語文:   Enjoy | a bit of | dessert  日本語文: デザートを|少し|味わう      CRF : 享受|一点点|心(心を少しだけ味わう)   PCPT :   享受|一点点|心  DD :  享受|一点|点心 (正解)

Page 23: ACL 2014 読み会

まとめ

この論文は双対分解による中国語単語分割の手法を提案した従来の手法より精度が高い、一貫性が良い

何より実現方法は複雑ではない、さらに新たなモデルを構築し、データをリートレーニング必要はない

中国語単語分割のみならず、ほかの研究にも非常に役に立ちそうである