learning a lexical simplifier using wikipedia
TRANSCRIPT
Learning a Lexical Simplifier Using Wikipedia
Colby Horn, Cathryn Manduca, David Kauchak In Proceedings of the 52nd Annual Meeting
of the Association for Computational Linguistics, pp.458–463, 2014.
プレゼンテーション:野口真人
1
Learning a Lexical Simplifier Using Wikipedia
どういう問題を解いたのか English WikipediaとSimple English Wikipediaから、語彙の平易化対を獲得してそれを適用する
どうやって解いたのか 1. 平易化の規則リストを学ぶ
w → c1, c2, ... , cm
2. SVMを用いて最適な平易語を選択する
どのような結果を達成したか
precision : 76%, changed : 86%
2
テキストの意味を保持しながら、文法などの複雑さを減らす
テキスト平易化のためには幅広い変換規則が必要 語彙の言い換え 文法の変化 文の分割 語の削除・付加
今回は、語彙の平易化のみに制限して考える
3
テキストの平易化
語彙の平易化変換規則に則り、ある単語や句を似た意味の平易語に置き換える
二つの主な課題 変換規則を一般化するのが難しい 網羅性を高めるためにはたくさんの規則が必要
変換規則がすべての文に適用できるわけではない 原文の意味を保持するため 文法性・局所のまとまりを保持するため
4
語彙の平易化規則の獲得語彙を平易化するための規則を学習する
w → c1, c2, ... , cm
例 : established
established → started, made, ...
5
English Wikipedia(normal)
Simple English Wikipedia (simple)
normal
simple
語彙の平易化規則の学習137K対の対応付けされたEnglish WikipediaとSimple English Wikipediaの文を利用
GIZA++で単語アライメントをとる
アライメントのエラーがある場合平易化対を削除 normalの単語がストップリストにある場合
2つの品詞が異なる場合 固有名詞がある場合
形態的な変化を規則に追加(一般化のため)
6
平易化の実現のために平易化の規則を適用するとき、最適な平易化候補を選ばなくてはならない 例 : established
established → started, made, started, settled
The ACL was established in 1962.
The researcher established a new paperwriting routine.
最適な平易化候補をSMV-rankで求める
7
ランキング問題ラベル付けされたデータとSVM-rankを利用
SVM-rank : ランキング問題を2値分類問題として解く
平易化がされない場合も考える
元の規則 : w → c1, c2, ... , cm
新しい規則 : w → c1, c2, ... , cm, w
wのランクが最高の場合は変換が行われない
8
素性-その1
候補の確率 P(ci | w)
normalに単語wが出たときciが対応する確率
出現頻度 c自体の出現数をみる
Simple English Wikipediaとgoogle n-gramから
9
素性-その2
言語モデル Simple English Wikipediaから
English Wikipediaから
上2つの線形結合( λ = 0.5で )
google n-gram
文脈頻度 文脈の前後1語または2語を文脈窓として、文脈における頻度をgoogle n-gramで求める
10
データAmazon's Mechanical Turkでラベル付きデータを得る
アノテーションやNLPタスクの評価に広く用いられる
他で行われている人手で行われるアノテーションと同じくらいの信頼性がある
Simple English Wikipediaから500の文を選択
それぞれの文を50人に平易化してもらう
→ 計25000のアノテーション
11
データ収集の例
12
比較手法rank-simplify : 今回の手法
frequency 素性に基づいたSVM-rank手法の利点を調べる
ランキングはSimple English Wikipedia内での出現頻度で行う
平易化規則はrank-simplifyと同じ
rank-Biran 平易化規則の獲得手法の利点を調べる
平易化規則はSimple English WikipediaとEnglish
Wikipediaの分布類似度から求める
ランキングの手法はrank-simplifyと同じ
13
評価方法Amazon's Mechanical Turkで収集した500のラベル付きデータ
10分割交差検定で値を算出
precision : システムが変換した単語が、誰かの
アノテーションと一致する割合
changed : 人間がアノテーションした単語のうち
システムが変換を行った割合
(適切な変換でなくて良い)
14
実験結果
frequency : 網羅性はあるが精度が低い
rank-Biran : 精度はあるが網羅性は低い
rank-simplify : 14478語の平易化規則を学習
rank-Biran : 3598語しか平易化規則を学習できない
rank-simplifyは精度・網羅性ともに高い
提案手法平易化規則が異なるランキングが異なる
15
終わりにEnglish WikipediaとSimple English Wikipedia
を用いた語彙の平易化を行った
語彙の平易化規則をGIZA++でアライメントをとり、さらに一般化した 高い網羅性を実現
素性に基づくSVM-rankを用いた手法
高い精度を実現
16