unsupervised prediction of acceptability judgementssasano/acl2015suzukake/slides/01.pdfunsupervised...

Unsupervised Prediction of Acceptability Judgements

Jey Han Lau, Alexander Clark, Shalom Lappin

ACL2015読み会＠すずかけ台

紹介者: 笹野（東工大）

What is Acceptability Judgement?

• Probability of a sentence– 文の生成確率

– 長い文や、珍しい語を含む文は低い値

• Acceptability– Native speakerが正しい文として容認できる度合

– 文の長さや語の希少性にあまり依存しない

Probability:小Acceptability:大

Probability:大Acceptability:小無色を緑色が眠る。

ＮＬＰ業界で耳にする珍しい苗字の世帯数を某サイトで調べてみたら、真嘉比が４世帯で最小で、他にも井佐原、颯々野、篠埜、宇津呂、馬緤、萩行、持橋あたりが２０世帯以下だった。

2

1. 大規模コーパスから確率言語モデルを学習

– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用

– BNC中の書き言葉文約１億語（BNC‐100M）で訓練

2. 確率を容認度スコアに変換

– ５つの 2. Acceptability Measures で変換

– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価

Methodology

3

1. 大規模コーパスから確率言語モデルを学習

– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用

– BNC中の書き言葉文約１億語（BNC‐100M）で訓練

2. 確率を容認度スコアに変換

– ５つの 2. Acceptability Measures で変換

– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価

1. Dataset for Assessment1. Google翻訳でBritish National Corpus (BNC)、および、

Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳（= round trip MT）

2. 手順１で生成された2500文をAmazon Mechanical Turkを用い下記の３方式でアノテーション

1. ２段階評価（unnatural, natural）2. ４段階評価（[extremely, somewhat]＋[unnatural, natural]）3. Sliding scale (extremely unnatural ~ extremely natural）

– 文ごとに複数の母語話者による評価値を算術平均

– ３方式で得られたデータ間には強い相関

– 以降、『2. ４段階評価』の結果を評価データとして使用

4

1. Google翻訳でBritish National Corpus (BNC)、および、Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳（= round trip MT）

2. 手順１で生成された2500文をAmazon Mechanical Turkを用い下記の３方式でアノテーション

1. ２段階評価（unnatural, natural）2. ４段階評価（[extremely, somewhat]＋[unnatural, natural]）3. Sliding scale (extremely unnatural ~ extremely natural）

– 文ごとに複数の母語話者による評価値を算術平均

– ３方式で得られたデータ間には強い相関

– 以降、『2. ４段階評価』の結果を評価データとして使用

2. Acceptability Measures

対数確率（baseline）

: モデルが出力するの確率

: unigramによるの確率

文長で正規化

Unigram確率で正規化（除算）

Unigram確率で正規化（減算）

を文長で正規化

（Syntactic Log‐Odds Ratio）5

Unigram確率で正規化（除算）

を文長で正規化

（Syntactic Log‐Odds Ratio）

3. Unsupervised Models

1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)

• Training 2‐gram, 3‐gram, and 4‐gram

• with Kneser‐Ney interpolation

6



1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • 2nd order BHMM

[Goldwater & Griffiths ‘07]

7



• Add another layer to BHMM• Use phrase classes to drive

word class 8



9

HMM [Griffiths+’04] • LDA‐HMM [Griffiths+’04] • Combines syntactic and

semantic dependencies• LDA [Blei+’03]



10

• Extend [Goldwater+’09] and [Newman+’12], which uses DP, to segment word classes

• Idea: A well‐formed sentence contains predictable patterns of word class chunks

• Input: Word classes induced by 2T‐BHMM


1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • Recurrent neural

network [Mikolov’12]• Keeps previous context

11



(supervised) • Stanford Parser (supervised) [Klein and Manning‘03]

• Trained mainly on WSJ• The scores are arbitrary

values for ranking parse tree

12

Experimental Results

13

[cf. Human Judge: 0.67]

[cf. Human Judge: 0.74]

学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加

Comparison with a Supervised System

• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR（RBF Kernel）を適用

– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)

• Comparison with [Heilman et al.’14]– Deep parserを利用（Link Grammar Parser, HPSG parser (PET)）

– 英語学習者のエッセイから成るデータ(GUG)で実験

4‐gram×

SVR with RBF kernelで学習

14

学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加

• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR（RBF Kernel）を適用

– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)

• Comparison with [Heilman et al.’14]– Deep parserを利用（Link Grammar Parser, HPSG parser (PET)）

– 英語学習者のエッセイから成るデータ(GUG)で実験

4‐gram×

SVR with RBF kernelで学習

Influence of Sentence Length and Lexical Frequency

15

Summary• Task: Unsupervised prediction of acceptability

– 文の生成確率を文長、語の出現頻度を考慮し変換• 教師なし言語モデル: ~10手法( ‐gram, BHMM, RNNLM, etc.) • ProbabilityからAcceptabilityへの変換: 5手法（=~50尺度）

– Crowdsourcingを用いて作ったデータとの相関で評価

• Conclusion: (https://github.com/jhlau/acceptability_prediction)

– BNC: 0.53 [⇔ 0.67], ENWIKI: 0.57 [⇔0.74] ([]: human judge)

– 教師なし確率モデル: RNNLM >> Two‐Tier BHMM > …– 容認度への変換方法: > >> …

16

unsupervised prediction of acceptability judgementssasano/acl2015suzukake/slides/01.pdfunsupervised...

Documents