coling読み会 2014
TRANSCRIPT
Adapting taggers to Twitter
with not-so-distant supervision
(Plank et al.) COLING 2014読み会 (2014/11/05)
小町研 M1平田亜衣 1
Abstract
遠距離学習(半教師ありと教師なし学習)を用いたツイッターへのPOSとNERの適用.
特に良いnot-so-distant supervisionの一番良いソースとしてウェブサイトのリンクを用いた.
TwitterにおけるPOS taggingとNERにおいてstate-
of-the-artの研究を大きく改善した.
POS tagging:89.76% accuracy, 8% error reduction
NER:F1=79.4%, 10% error reduction
2
1,Introduction
Twitterから自動で情報抽出する研究が多くなされている.
しかし,Hovy et al. (2014)ではこれまで提案されたモデルは各々サンプルにオーバーフィッティングしていて,twitterデータ以外での評価はとても下がることを示した.
これはtwitterでドリフトしているためであったりEisenstein (2013),単純にtwitterが異質であったり,小さなサンプルにバイアスがかかっていたりするためである.
この論文では,ラベル付けされていないtweetからの学習を追加することによって,少なくともこのバイアスを正すことができるという仮説を立て,検証していく.
3
この論文ではラベル付けされてないデータからの学習を助けるための遠距離教師あり学習を提案する.
我々のアイデアは,遠距離教師あり学習としてtweetに付随するURLのウェブサイトの言語情報を使う.
リンクされているウェブサイトを学習の時のみに使うが,テストの段階では必要としない.
我々の半教師ありの手法は他に存在するアプローチよりも違ったtweetのデータに対して頑健にPOSタグ付けとNERモデルを学習することができる.
4
5
ベースラインとpredict()
functionの扱いが違うだけの4つのシステムで実験する.
2, Tagging with not-so-
distant supervision
tweet(x)とtweet内のリンク先ウェブサイト(w)
狙いはラベル付けされていないtweetの小さなpoolでタグ系列の推測によってモデルのバイアスを修正し,数回のモデルの再学習によって徐々にモデルのバイアスを正しくすることである.
ベースラインと4つのpredict()
SELF-TRAINING baseline
一般的なラベル付けされていないtwitterデータへの推測.predict()のvのみでwを考慮しないもの.
WEB
ウェブサイトからの情報を追加する.tweetとそれと一致するウェブサイト両方で出現したすべての単語に対して,ウェブサイトで当てはまるタグを付与する.
例
(1)でタグ付けをすると”Supplier”がadjective(形容詞)と判断される.(間違い)
(2)だと右の単語(“Project”)と同じで,noun(名詞)だと判断される.(正解)
6
DICT
辞書(Wikitionary)のみを使うもの.
DICT<WEB
辞書の情報とwebの情報が衝突した時に,webの情報を使うもの.
WEB<DICT
逆に辞書の情報を使うもの.
7
3, Experiments
3.1 Model
CRF(features proposed by Gimpel et al. 2011)
Twitterコーパスから抽出したBrown word cluster
プールサイズ:1000
500や2000のサイズでの実験では同じような結果になった.
development dataでの反復回数:i
websiteへのNER
品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011)
NERシステム:Stanford NER system (Finkel et al.,
2005)
Stanford NER taggerでのタグ付けと,各iteration
でタグ付けし直すよりもoff-lineでのタグ付けをした方がわずかに良い結果となった.
8
3.2 Data
unsupervised domain adaptation(DA)
ラベル付けされたニュース記事データのみ
semi-supervised DA
twitterデータとニュース記事
training data
POS
WSJ newswire
in-domain training POS data comes from Gimpel et al. (2011)
NER
CoNLL2003datasetsofannotated newswire from the Reuters corpus.
in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN)
9
out-of-domainin-domain
3.2 Data
Unlabeled data
TwitterAPIでtweet-websiteのペアを200k収集.
websiteに1文以上含まれているか,ストップワード以外の単語が少なくとも1語以上含まれているかなどの制限をかけたもの.
out-of-vocabulary(OOV) rate
10
4,Result
4.1 POS results
11
4,Result
4.1 POS results
12
OOV rateが低いため,高い値が出る.
これら提案手法では,既存のシステ(Owoputi
et al., 2013)の87.5%の精度よりも良い結果が得られた
Learning with URLs
Note, again, that they do not require the test data
to contain URLs.
13
4.2 NER results 14