論文紹介 : inducing lexical style properties for paraphrase and genre differentiation

11
Inducing Lexical Style Proper5es for Paraphrase and Genre Differen5a5on Ellie Pavlick, Ani Nenkova; Proceedings of the 2015 Conference of the North American Chapter of the Associa>on for Computa>onal Linguis>cs: Human Language Technologies プレゼンテーション:野口真人 1

Upload: swenbe

Post on 08-Aug-2015

33 views

Category:

Science


2 download

TRANSCRIPT

Page 1: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

Inducing  Lexical  Style  Proper5es  for  Paraphrase  and  Genre  Differen5a5on

Ellie  Pavlick, Ani  Nenkova;  Proceedings  of  the  2015  Conference  of    the  North  American  Chapter  of  the  Associa>on    for  Computa>onal  Linguis>cs:  Human  Language  Technologies  

 プレゼンテーション:野口真人  

1  

Page 2: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

Inducing  Lexical  Style  Proper5es  for  Paraphrase  and  Genre  Differen5a5on

¡ どのような問題を解いたのか  ¡ 語彙的なスタイルの特徴を導く  ¡ スタイルを意識した言い換えのために  ¡ 文のジャンル分けを行うために  

¡ どうやって解いたのか  ¡ コーパスから単語・句の  Formal  さ・  Complex  さ を計算

する  ¡ 求めた単語・句のスコアから文の Formal  さ・  Complex  

さ を計算する  

2  

Page 3: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

¡ Formal  さ・  Complex  さ を以下のように定義する  ¡ Formal:上司と話すとき使う語  Casual:友人と話すとき使う語  ¡ Complex:母語話者が使う語  Simple:非母語話者が使う語  

3  Formal な語・  Complex  な語とは

Page 4: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

Formal  さ・  Complex  さ の計算

¡ スコア計算のために以下のコーパスを使用する  ¡ Formal  さ(300,000文ずつ)  ¡  Formal:Europarl  corpus  of  parliamentary  proceedings    ¡  Casual:Switchboard  corpus  of  informal  telephone  conversa>ons    

¡ Complex  さ(500,000文ずつ)  ¡  Complex:English  Wikipedia    ¡  Simple:Simple  English  Wikipedia  

¡ 混合コーパス(ALL)での出現数に対する参照コーパス(REF)での出現数のログ比率で単語・句のスコアを算出  

4  

 Formal  内の  w  の数    +  Casual・Formal  両方内の  w  の数

Formal  内の  w  の数  

Page 5: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

句のスコアの評価

¡ 句のFormal  さ・  Complex  さ のスコアを人の判断と比較する  ¡ 1000の句をコーパスから無作為抽出し MTurk  で評価してもらい,

その順位付けを行う(7人の評価者)  ¡ Formal  さ・  Complex  さ を0〜100で評価する    

¡ 人の評価と提案手法のスコアの相関関係を求める  ¡ 以下の表のようになった  ¡ 人間の評価と相関性があることがわかった

5  

Spearman  ρ Formality   Complexity    

アノテータ間 0.654   0.657   人間とスコア間 0.655 0.443

Page 6: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

利用法

¡ 得られたスタイル(Formal  さ・  Complex  さ)の対応付けを以下のタスクに利用  ¡ スタイルの違いを考慮した言い換えペアの取得  ¡ ジャンルの違いを特徴付ける  

¡ スタイルの違いを考慮した言い換えペア  ¡ 以下の2つのフレーズは意味は同じだがスタイルが明らかに違う  

¡ Paraphrase  Database  (PPDB)  から言い換えのペアを抜き出し,それぞれのスタイルを求める  

6  

“I  believe  that  we  have...”     “I  think  we  got...”      

Formal Casual

Page 7: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

例)  “money”  の言い換えとそのスタイル 7  

a  fortuneより  Formal  で  Simple

Page 8: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

言い換えペアの評価

¡ 言い換えペアのスタイル判定の良さを評価する  ¡ 3000の言い換えペアをPPDBから無作為抽出し MTurk  で最も Formal  な単語・最も Complex  な単語を判定してもらう  

 例)  a  fortune  と  money  はどちらがより  Formalか?  ¡ 提案手法で得たものと人が判断したものを比較する  

¡ 精度は以下のようになった  ¡ Top  x  %:ペア内のスコアの差が大きいもの x  %の精度  ¡ 精度は非常に高かった  

8  

Page 9: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

文・ジャンルごとのスコア

¡ MASC  コーパスから18のジャンルについて900の文を集める  ¡ face-­‐to-­‐face    ¡ blogs    ¡ technical  wri>ng    ¡ …  

¡ それぞれのジャンル・文においてFormal  さ・  Complex  さのスコアを求め,その順位付けを行う  ¡ 文のスコアは,文内の全ての単語スコアの平均とする  ¡ ジャンルのスコアは,そのジャンルに属する全ての文のスコアの

平均とする

9  

Page 10: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

文・ジャンルのスコアの評価

Spearman  ρ Formality     Complexity    

Sent.     Genre     Sent.     Genre    アノテータ間 0.47   -­‐ 0.48   -­‐

人間とスコア間 0.44 0.77 0.43 0.80  

10  

¡ 人の評価と提案手法のスコアの相関関係を求める  ¡ 以下の表のようになった  ¡ 人間の評価と非常に高い相関性があることがわかった

ジャンルによって,Formal  さ・  Complex  さが  特徴づけられている  

Page 11: 論文紹介 : Inducing lexical style properties for paraphrase and genre differentiation

終わりに

¡ 提案手法では,単語・句のきめ細かいスタイルを学ぶ簡単で効果的な方法を示した  ¡ Formal  さ,  Complex さ について  

¡ これを利用した2つのタスクに関して良い結果を示した  ¡ 言い換えペアの文体上のスタイルの判定  ¡ ジャンル間の違いを特徴づけた

11