論文紹介 : inducing lexical style properties for paraphrase and genre differentiation
TRANSCRIPT
Inducing Lexical Style Proper5es for Paraphrase and Genre Differen5a5on
Ellie Pavlick, Ani Nenkova; Proceedings of the 2015 Conference of the North American Chapter of the Associa>on for Computa>onal Linguis>cs: Human Language Technologies
プレゼンテーション:野口真人
1
Inducing Lexical Style Proper5es for Paraphrase and Genre Differen5a5on
¡ どのような問題を解いたのか ¡ 語彙的なスタイルの特徴を導く ¡ スタイルを意識した言い換えのために ¡ 文のジャンル分けを行うために
¡ どうやって解いたのか ¡ コーパスから単語・句の Formal さ・ Complex さ を計算
する ¡ 求めた単語・句のスコアから文の Formal さ・ Complex
さ を計算する
2
¡ Formal さ・ Complex さ を以下のように定義する ¡ Formal:上司と話すとき使う語 Casual:友人と話すとき使う語 ¡ Complex:母語話者が使う語 Simple:非母語話者が使う語
3 Formal な語・ Complex な語とは
Formal さ・ Complex さ の計算
¡ スコア計算のために以下のコーパスを使用する ¡ Formal さ(300,000文ずつ) ¡ Formal:Europarl corpus of parliamentary proceedings ¡ Casual:Switchboard corpus of informal telephone conversa>ons
¡ Complex さ(500,000文ずつ) ¡ Complex:English Wikipedia ¡ Simple:Simple English Wikipedia
¡ 混合コーパス(ALL)での出現数に対する参照コーパス(REF)での出現数のログ比率で単語・句のスコアを算出
4
Formal 内の w の数 + Casual・Formal 両方内の w の数
Formal 内の w の数
句のスコアの評価
¡ 句のFormal さ・ Complex さ のスコアを人の判断と比較する ¡ 1000の句をコーパスから無作為抽出し MTurk で評価してもらい,
その順位付けを行う(7人の評価者) ¡ Formal さ・ Complex さ を0〜100で評価する
¡ 人の評価と提案手法のスコアの相関関係を求める ¡ 以下の表のようになった ¡ 人間の評価と相関性があることがわかった
5
Spearman ρ Formality Complexity
アノテータ間 0.654 0.657 人間とスコア間 0.655 0.443
利用法
¡ 得られたスタイル(Formal さ・ Complex さ)の対応付けを以下のタスクに利用 ¡ スタイルの違いを考慮した言い換えペアの取得 ¡ ジャンルの違いを特徴付ける
¡ スタイルの違いを考慮した言い換えペア ¡ 以下の2つのフレーズは意味は同じだがスタイルが明らかに違う
¡ Paraphrase Database (PPDB) から言い換えのペアを抜き出し,それぞれのスタイルを求める
6
“I believe that we have...” “I think we got...”
Formal Casual
例) “money” の言い換えとそのスタイル 7
a fortuneより Formal で Simple
言い換えペアの評価
¡ 言い換えペアのスタイル判定の良さを評価する ¡ 3000の言い換えペアをPPDBから無作為抽出し MTurk で最も Formal な単語・最も Complex な単語を判定してもらう
例) a fortune と money はどちらがより Formalか? ¡ 提案手法で得たものと人が判断したものを比較する
¡ 精度は以下のようになった ¡ Top x %:ペア内のスコアの差が大きいもの x %の精度 ¡ 精度は非常に高かった
8
文・ジャンルごとのスコア
¡ MASC コーパスから18のジャンルについて900の文を集める ¡ face-‐to-‐face ¡ blogs ¡ technical wri>ng ¡ …
¡ それぞれのジャンル・文においてFormal さ・ Complex さのスコアを求め,その順位付けを行う ¡ 文のスコアは,文内の全ての単語スコアの平均とする ¡ ジャンルのスコアは,そのジャンルに属する全ての文のスコアの
平均とする
9
文・ジャンルのスコアの評価
Spearman ρ Formality Complexity
Sent. Genre Sent. Genre アノテータ間 0.47 -‐ 0.48 -‐
人間とスコア間 0.44 0.77 0.43 0.80
10
¡ 人の評価と提案手法のスコアの相関関係を求める ¡ 以下の表のようになった ¡ 人間の評価と非常に高い相関性があることがわかった
ジャンルによって,Formal さ・ Complex さが 特徴づけられている
終わりに
¡ 提案手法では,単語・句のきめ細かいスタイルを学ぶ簡単で効果的な方法を示した ¡ Formal さ, Complex さ について
¡ これを利用した2つのタスクに関して良い結果を示した ¡ 言い換えペアの文体上のスタイルの判定 ¡ ジャンル間の違いを特徴づけた
11