unsupervised prediction of acceptability judgementssasano/acl2015suzukake/slides/01.pdfunsupervised...

16
Unsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin ACL2015読み会@すずかけ台 紹介者: 笹野(東工大)

Upload: others

Post on 26-Mar-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

Unsupervised Prediction of Acceptability Judgements

Jey Han Lau, Alexander Clark, Shalom Lappin

ACL2015読み会@すずかけ台

紹介者: 笹野(東工大)

Page 2: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

What is Acceptability Judgement?

• Probability of a sentence– 文の生成確率

– 長い文や、珍しい語を含む文は低い値

• Acceptability– Native speakerが正しい文として容認できる度合

– 文の長さや語の希少性にあまり依存しない

Probability:小Acceptability:大

Probability:大Acceptability:小無色を緑色が眠る。

NLP業界で耳にする珍しい苗字の世帯数を某サイトで調べてみたら、真嘉比が4世帯で最小で、他にも井佐原、颯々野、篠埜、宇津呂、馬緤、萩行、持橋あたりが20世帯以下だった。

2

Page 3: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

1. 大規模コーパスから確率言語モデルを学習

– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用

– BNC中の書き言葉文約1億語(BNC‐100M)で訓練

2. 確率を容認度スコアに変換

– 5つの 2. Acceptability Measures で変換

– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価

Methodology

3

1. 大規模コーパスから確率言語モデルを学習

– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用

– BNC中の書き言葉文約1億語(BNC‐100M)で訓練

2. 確率を容認度スコアに変換

– 5つの 2. Acceptability Measures で変換

– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価

Page 4: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

1. Dataset for Assessment1. Google翻訳でBritish National Corpus (BNC)、および、

Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳(= round trip MT)

2. 手順1で生成された2500文をAmazon Mechanical Turkを用い下記の3方式でアノテーション

1. 2段階評価(unnatural, natural)2. 4段階評価([extremely, somewhat]+[unnatural, natural])3. Sliding scale (extremely unnatural ~ extremely natural)

– 文ごとに複数の母語話者による評価値を算術平均

– 3方式で得られたデータ間には強い相関

– 以降、『2. 4段階評価』の結果を評価データとして使用

4

1. Google翻訳でBritish National Corpus (BNC)、および、Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳(= round trip MT)

2. 手順1で生成された2500文をAmazon Mechanical Turkを用い下記の3方式でアノテーション

1. 2段階評価(unnatural, natural)2. 4段階評価([extremely, somewhat]+[unnatural, natural])3. Sliding scale (extremely unnatural ~ extremely natural)

– 文ごとに複数の母語話者による評価値を算術平均

– 3方式で得られたデータ間には強い相関

– 以降、『2. 4段階評価』の結果を評価データとして使用

Page 5: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

2. Acceptability Measures

対数確率(baseline)

: モデルが出力する の確率

: unigramによる の確率

文長で正規化

Unigram確率で正規化(除算)

Unigram確率で正規化(減算)

を文長で正規化

(Syntactic Log‐Odds Ratio)5

Unigram確率で正規化(除算)

を文長で正規化

(Syntactic Log‐Odds Ratio)

Page 6: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

• Training 2‐gram,        3‐gram, and 4‐gram 

• with Kneser‐Ney interpolation 

6

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

Page 7: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • 2nd order BHMM 

[Goldwater &  Griffiths ‘07]

7

Page 8: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

• Add another layer to BHMM• Use phrase classes to drive 

word class 8

Page 9: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

9

HMM [Griffiths+’04] • LDA‐HMM [Griffiths+’04] • Combines syntactic and 

semantic dependencies• LDA [Blei+’03]

Page 10: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

10

• Extend [Goldwater+’09] and [Newman+’12], which uses DP, to segment word classes

• Idea: A well‐formed sentence contains predictable patterns of word class chunks

• Input: Word classes induced by 2T‐BHMM

Page 11: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • Recurrent neural 

network [Mikolov’12]• Keeps previous context

11

Page 12: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

3. Unsupervised Models

1. Lexical  ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

(supervised)             • Stanford Parser (supervised)             [Klein and Manning‘03]

• Trained mainly on WSJ• The scores are arbitrary 

values for ranking parse tree

12

Page 13: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

Experimental Results

13

[cf. Human Judge: 0.67]

[cf. Human Judge: 0.74]

Page 14: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加

Comparison with a Supervised System

• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用

– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)

• Comparison with [Heilman et al.’14]– Deep parserを利用(Link Grammar Parser, HPSG parser (PET))

– 英語学習者のエッセイから成るデータ(GUG)で実験

4‐gram×

SVR with RBF kernelで学習

14

学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加

• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用

– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)

• Comparison with [Heilman et al.’14]– Deep parserを利用(Link Grammar Parser, HPSG parser (PET))

– 英語学習者のエッセイから成るデータ(GUG)で実験

4‐gram×

SVR with RBF kernelで学習

Page 15: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

Influence of Sentence Length and Lexical Frequency

15

Page 16: Unsupervised Prediction of Acceptability Judgementssasano/acl2015suzukake/slides/01.pdfUnsupervised Prediction of Acceptability Judgements Jey Han Lau, Alexander Clark, Shalom Lappin

Summary• Task: Unsupervised prediction of acceptability

– 文の生成確率を文長、語の出現頻度を考慮し変換• 教師なし言語モデル: ~10手法( ‐gram, BHMM, RNNLM, etc.) • ProbabilityからAcceptabilityへの変換: 5手法 (=~50尺度)

– Crowdsourcingを用いて作ったデータとの相関で評価

• Conclusion: (https://github.com/jhlau/acceptability_prediction)

– BNC: 0.53 [⇔ 0.67], ENWIKI: 0.57 [⇔0.74] ([]: human judge)

– 教師なし確率モデル: RNNLM >> Two‐Tier BHMM > …– 容認度への変換方法:  >  >> …

16