coling読み会 2014

14
Adapting taggers to Twitter with not-so-distant supervision (Plank et al.) COLING 2014 読み会 (2014/11/05) 小町研 M1 平田 亜衣 1

Upload: ai0614

Post on 11-Jul-2015

158 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: Coling読み会 2014

Adapting taggers to Twitter

with not-so-distant supervision

(Plank et al.) COLING 2014読み会 (2014/11/05)

小町研 M1平田亜衣 1

Page 2: Coling読み会 2014

Abstract

遠距離学習(半教師ありと教師なし学習)を用いたツイッターへのPOSとNERの適用.

特に良いnot-so-distant supervisionの一番良いソースとしてウェブサイトのリンクを用いた.

TwitterにおけるPOS taggingとNERにおいてstate-

of-the-artの研究を大きく改善した.

POS tagging:89.76% accuracy, 8% error reduction

NER:F1=79.4%, 10% error reduction

2

Page 3: Coling読み会 2014

1,Introduction

Twitterから自動で情報抽出する研究が多くなされている.

しかし,Hovy et al. (2014)ではこれまで提案されたモデルは各々サンプルにオーバーフィッティングしていて,twitterデータ以外での評価はとても下がることを示した.

これはtwitterでドリフトしているためであったりEisenstein (2013),単純にtwitterが異質であったり,小さなサンプルにバイアスがかかっていたりするためである.

この論文では,ラベル付けされていないtweetからの学習を追加することによって,少なくともこのバイアスを正すことができるという仮説を立て,検証していく.

3

Page 4: Coling読み会 2014

この論文ではラベル付けされてないデータからの学習を助けるための遠距離教師あり学習を提案する.

我々のアイデアは,遠距離教師あり学習としてtweetに付随するURLのウェブサイトの言語情報を使う.

リンクされているウェブサイトを学習の時のみに使うが,テストの段階では必要としない.

我々の半教師ありの手法は他に存在するアプローチよりも違ったtweetのデータに対して頑健にPOSタグ付けとNERモデルを学習することができる.

4

Page 5: Coling読み会 2014

5

ベースラインとpredict()

functionの扱いが違うだけの4つのシステムで実験する.

2, Tagging with not-so-

distant supervision

tweet(x)とtweet内のリンク先ウェブサイト(w)

狙いはラベル付けされていないtweetの小さなpoolでタグ系列の推測によってモデルのバイアスを修正し,数回のモデルの再学習によって徐々にモデルのバイアスを正しくすることである.

Page 6: Coling読み会 2014

ベースラインと4つのpredict()

SELF-TRAINING baseline

一般的なラベル付けされていないtwitterデータへの推測.predict()のvのみでwを考慮しないもの.

WEB

ウェブサイトからの情報を追加する.tweetとそれと一致するウェブサイト両方で出現したすべての単語に対して,ウェブサイトで当てはまるタグを付与する.

(1)でタグ付けをすると”Supplier”がadjective(形容詞)と判断される.(間違い)

(2)だと右の単語(“Project”)と同じで,noun(名詞)だと判断される.(正解)

6

Page 7: Coling読み会 2014

DICT

辞書(Wikitionary)のみを使うもの.

DICT<WEB

辞書の情報とwebの情報が衝突した時に,webの情報を使うもの.

WEB<DICT

逆に辞書の情報を使うもの.

7

Page 8: Coling読み会 2014

3, Experiments

3.1 Model

CRF(features proposed by Gimpel et al. 2011)

Twitterコーパスから抽出したBrown word cluster

プールサイズ:1000

500や2000のサイズでの実験では同じような結果になった.

development dataでの反復回数:i

websiteへのNER

品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011)

NERシステム:Stanford NER system (Finkel et al.,

2005)

Stanford NER taggerでのタグ付けと,各iteration

でタグ付けし直すよりもoff-lineでのタグ付けをした方がわずかに良い結果となった.

8

Page 9: Coling読み会 2014

3.2 Data

unsupervised domain adaptation(DA)

ラベル付けされたニュース記事データのみ

semi-supervised DA

twitterデータとニュース記事

training data

POS

WSJ newswire

in-domain training POS data comes from Gimpel et al. (2011)

NER

CoNLL2003datasetsofannotated newswire from the Reuters corpus.

in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN)

9

out-of-domainin-domain

Page 10: Coling読み会 2014

3.2 Data

Unlabeled data

TwitterAPIでtweet-websiteのペアを200k収集.

websiteに1文以上含まれているか,ストップワード以外の単語が少なくとも1語以上含まれているかなどの制限をかけたもの.

out-of-vocabulary(OOV) rate

10

Page 11: Coling読み会 2014

4,Result

4.1 POS results

11

Page 12: Coling読み会 2014

4,Result

4.1 POS results

12

OOV rateが低いため,高い値が出る.

これら提案手法では,既存のシステ(Owoputi

et al., 2013)の87.5%の精度よりも良い結果が得られた

Page 13: Coling読み会 2014

Learning with URLs

Note, again, that they do not require the test data

to contain URLs.

13

Page 14: Coling読み会 2014

4.2 NER results 14