unsupervised prediction of acceptability judgementssasano/acl2015suzukake/slides/01.pdfunsupervised...
TRANSCRIPT
Unsupervised Prediction of Acceptability Judgements
Jey Han Lau, Alexander Clark, Shalom Lappin
ACL2015読み会@すずかけ台
紹介者: 笹野(東工大)
What is Acceptability Judgement?
• Probability of a sentence– 文の生成確率
– 長い文や、珍しい語を含む文は低い値
• Acceptability– Native speakerが正しい文として容認できる度合
– 文の長さや語の希少性にあまり依存しない
Probability:小Acceptability:大
Probability:大Acceptability:小無色を緑色が眠る。
NLP業界で耳にする珍しい苗字の世帯数を某サイトで調べてみたら、真嘉比が4世帯で最小で、他にも井佐原、颯々野、篠埜、宇津呂、馬緤、萩行、持橋あたりが20世帯以下だった。
2
1. 大規模コーパスから確率言語モデルを学習
– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用
– BNC中の書き言葉文約1億語(BNC‐100M)で訓練
2. 確率を容認度スコアに変換
– 5つの 2. Acceptability Measures で変換
– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価
Methodology
3
1. 大規模コーパスから確率言語モデルを学習
– ‐gramをはじめ、Bayesianやニューラルネットベース等の 3. Unsupervised Models を使用
– BNC中の書き言葉文約1億語(BNC‐100M)で訓練
2. 確率を容認度スコアに変換
– 5つの 2. Acceptability Measures で変換
– 人手により作成した 1. Dataset for AssessmentとのPearson correlation coefficientで評価
1. Dataset for Assessment1. Google翻訳でBritish National Corpus (BNC)、および、
Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳(= round trip MT)
2. 手順1で生成された2500文をAmazon Mechanical Turkを用い下記の3方式でアノテーション
1. 2段階評価(unnatural, natural)2. 4段階評価([extremely, somewhat]+[unnatural, natural])3. Sliding scale (extremely unnatural ~ extremely natural)
– 文ごとに複数の母語話者による評価値を算術平均
– 3方式で得られたデータ間には強い相関
– 以降、『2. 4段階評価』の結果を評価データとして使用
4
1. Google翻訳でBritish National Corpus (BNC)、および、Wikipedia (ENWIKI)をノルウェー語、スペイン語、日本語、中国語に翻訳し、それを英語に再翻訳(= round trip MT)
2. 手順1で生成された2500文をAmazon Mechanical Turkを用い下記の3方式でアノテーション
1. 2段階評価(unnatural, natural)2. 4段階評価([extremely, somewhat]+[unnatural, natural])3. Sliding scale (extremely unnatural ~ extremely natural)
– 文ごとに複数の母語話者による評価値を算術平均
– 3方式で得られたデータ間には強い相関
– 以降、『2. 4段階評価』の結果を評価データとして使用
2. Acceptability Measures
対数確率(baseline)
: モデルが出力する の確率
: unigramによる の確率
文長で正規化
Unigram確率で正規化(除算)
Unigram確率で正規化(減算)
を文長で正規化
(Syntactic Log‐Odds Ratio)5
Unigram確率で正規化(除算)
を文長で正規化
(Syntactic Log‐Odds Ratio)
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
• Training 2‐gram, 3‐gram, and 4‐gram
• with Kneser‐Ney interpolation
6
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • 2nd order BHMM
[Goldwater & Griffiths ‘07]
7
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
• Add another layer to BHMM• Use phrase classes to drive
word class 8
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
9
HMM [Griffiths+’04] • LDA‐HMM [Griffiths+’04] • Combines syntactic and
semantic dependencies• LDA [Blei+’03]
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
10
• Extend [Goldwater+’09] and [Newman+’12], which uses DP, to segment word classes
• Idea: A well‐formed sentence contains predictable patterns of word class chunks
• Input: Word classes induced by 2T‐BHMM
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised) • Recurrent neural
network [Mikolov’12]• Keeps previous context
11
3. Unsupervised Models
1. Lexical ‐gram Model2. Bayesian HMM3. LDAHMM and LDA4. Two‐Tier BHMM5. Bayesian Chunker6. RNN Language Model7. PCFG Parser (Supervised)
(supervised) • Stanford Parser (supervised) [Klein and Manning‘03]
• Trained mainly on WSJ• The scores are arbitrary
values for ranking parse tree
12
Experimental Results
13
[cf. Human Judge: 0.67]
[cf. Human Judge: 0.74]
学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加
Comparison with a Supervised System
• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用
– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)
• Comparison with [Heilman et al.’14]– Deep parserを利用(Link Grammar Parser, HPSG parser (PET))
– 英語学習者のエッセイから成るデータ(GUG)で実験
4‐gram×
SVR with RBF kernelで学習
14
学習者のエッセイなのでSpellingミスが多い⇒Spelling素性を追加
• 教師あり条件でも実験 on BNC & ENWIKI – unsupervised modelsの出力を素性にSVR(RBF Kernel)を適用
– BNC: 0.64 (⇔0.53), ENWIKI: 0.69 (⇔0.57)
• Comparison with [Heilman et al.’14]– Deep parserを利用(Link Grammar Parser, HPSG parser (PET))
– 英語学習者のエッセイから成るデータ(GUG)で実験
4‐gram×
SVR with RBF kernelで学習
Influence of Sentence Length and Lexical Frequency
15
Summary• Task: Unsupervised prediction of acceptability
– 文の生成確率を文長、語の出現頻度を考慮し変換• 教師なし言語モデル: ~10手法( ‐gram, BHMM, RNNLM, etc.) • ProbabilityからAcceptabilityへの変換: 5手法 (=~50尺度)
– Crowdsourcingを用いて作ったデータとの相関で評価
• Conclusion: (https://github.com/jhlau/acceptability_prediction)
– BNC: 0.53 [⇔ 0.67], ENWIKI: 0.57 [⇔0.74] ([]: human judge)
– 教師なし確率モデル: RNNLM >> Two‐Tier BHMM > …– 容認度への変換方法: > >> …
16