coling読み会 2014

Adapting taggers to Twitter

with not-so-distant supervision

(Plank et al.) COLING 2014読み会 (2014/11/05)

小町研 M1平田亜衣 1

Abstract

遠距離学習(半教師ありと教師なし学習)を用いたツイッターへのPOSとNERの適用．

特に良いnot-so-distant supervisionの一番良いソースとしてウェブサイトのリンクを用いた．

TwitterにおけるPOS taggingとNERにおいてstate-

of-the-artの研究を大きく改善した．

POS tagging：89.76% accuracy, 8% error reduction

NER：F1=79.4%, 10% error reduction

2

1,Introduction

Twitterから自動で情報抽出する研究が多くなされている．

しかし，Hovy et al. (2014)ではこれまで提案されたモデルは各々サンプルにオーバーフィッティングしていて，twitterデータ以外での評価はとても下がることを示した．

これはtwitterでドリフトしているためであったりEisenstein (2013)，単純にtwitterが異質であったり，小さなサンプルにバイアスがかかっていたりするためである．

この論文では，ラベル付けされていないtweetからの学習を追加することによって，少なくともこのバイアスを正すことができるという仮説を立て，検証していく．

3

この論文ではラベル付けされてないデータからの学習を助けるための遠距離教師あり学習を提案する．

我々のアイデアは，遠距離教師あり学習としてtweetに付随するURLのウェブサイトの言語情報を使う．

リンクされているウェブサイトを学習の時のみに使うが，テストの段階では必要としない．

我々の半教師ありの手法は他に存在するアプローチよりも違ったtweetのデータに対して頑健にPOSタグ付けとNERモデルを学習することができる．

4

5

ベースラインとpredict()

functionの扱いが違うだけの4つのシステムで実験する．

2, Tagging with not-so-

distant supervision

tweet(x)とtweet内のリンク先ウェブサイト(w)

狙いはラベル付けされていないtweetの小さなpoolでタグ系列の推測によってモデルのバイアスを修正し，数回のモデルの再学習によって徐々にモデルのバイアスを正しくすることである．

ベースラインと4つのpredict()

SELF-TRAINING baseline

一般的なラベル付けされていないtwitterデータへの推測．predict()のvのみでwを考慮しないもの．

WEB

ウェブサイトからの情報を追加する．tweetとそれと一致するウェブサイト両方で出現したすべての単語に対して，ウェブサイトで当てはまるタグを付与する．

例

(1)でタグ付けをすると”Supplier”がadjective(形容詞)と判断される．(間違い)

(2)だと右の単語(“Project”)と同じで，noun(名詞)だと判断される．(正解)

6

DICT

辞書(Wikitionary)のみを使うもの．

DICT<WEB

辞書の情報とwebの情報が衝突した時に，webの情報を使うもの．

WEB<DICT

逆に辞書の情報を使うもの．

7

3, Experiments

3.1 Model

CRF(features proposed by Gimpel et al. 2011)

Twitterコーパスから抽出したBrown word cluster

プールサイズ：1000

500や2000のサイズでの実験では同じような結果になった．

development dataでの反復回数：i

websiteへのNER

品詞タグ付け：LAPOS tagger (Tsuruoka et al., 2011)

NERシステム：Stanford NER system (Finkel et al.,

2005)

Stanford NER taggerでのタグ付けと，各iteration

でタグ付けし直すよりもoff-lineでのタグ付けをした方がわずかに良い結果となった．

8

3.2 Data

unsupervised domain adaptation(DA)

ラベル付けされたニュース記事データのみ

semi-supervised DA

twitterデータとニュース記事

training data

POS

WSJ newswire

in-domain training POS data comes from Gimpel et al. (2011)

NER

CoNLL2003datasetsofannotated newswire from the Reuters corpus.

in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN)

9

out-of-domainin-domain

3.2 Data

Unlabeled data

TwitterAPIでtweet-websiteのペアを200k収集．

websiteに1文以上含まれているか，ストップワード以外の単語が少なくとも1語以上含まれているかなどの制限をかけたもの．

out-of-vocabulary(OOV) rate

10

4,Result

4.1 POS results

11

4,Result

4.1 POS results

12

OOV rateが低いため，高い値が出る．

これら提案手法では，既存のシステ(Owoputi

et al., 2013)の87.5%の精度よりも良い結果が得られた

Learning with URLs

Note, again, that they do not require the test data

to contain URLs.

13

4.2 NER results 14

coling読み会 2014

Technology