論文紹介:語釈文を用いた小学生のための語彙平易化

13
語釈文を用いた 小学生のための語彙平易化 梶原智之, 山本和英 情報処理学会論文誌,Vol.56, No.3, pp.983-992, 2015. プレゼンテーション:野口真人 1

Upload: swenbe

Post on 08-Aug-2015

28 views

Category:

Science


4 download

TRANSCRIPT

語釈文を用いた 小学生のための語彙平易化

梶原智之, 山本和英 情報処理学会論文誌,Vol.56, No.3, pp.983-992, 2015.

プレゼンテーション:野口真人

1

語釈文を用いた小学生のための語彙平易化

� どのような問題を解いたのか ◦ 難解語を平易語に換言する

� どうやって解いたのか ◦ 国語辞典の語釈文から言い換えを獲得する ◦ 従来の手法では語釈文の文尾のみから獲得していたが,提案手法では語釈文全体を見る

� どのような結果を達成したか ◦ 従来手法より,換言候補の収集において20ポイント増加した ◦  70%の正解率で適切な換言を選択できた

2

関連研究

�  Webから換言可能な表現を自動的に獲得する方法はいくつかある(品質は不十分) ◦ パラレルコーパスから獲得する �  課題 : アライメントの精度・コーパスの量 ◦ シソーラスを用いる手法 ◦ 国語辞典を用いる手法 �  一般的に語釈文は見出し語より平易なため

� 国語辞典を用いた平易語の獲得 ◦ 名詞の語釈文の類似度を用いて,見出し語同士の換言を行う(藤田 2000,美野 2010) �  得られる語が平易とは限らない ◦ 語釈文の最終文節を平易語として獲得(鍛治 2003) ◦ 語釈文の最も後ろに現れる見出し語と同じ品詞を平易語として獲得(梶原 2013)

3

従来手法の問題点

� 従来手法では語釈文の文尾から言い換え候補を抽出していた

� 言い換えは必ず語釈文の文尾にあるわけではない

4

今回の手法 �  従来手法

1)  入力文から難解語を検出 2)  難解語を見出し語として国語辞典から語釈文を抽出 3)  語釈文を形態素解析 4)  難解語と同じ品詞のうち最も文末近くに出現する語を抽出

5)  収集した語から平易語(学習基本語彙に含まれるもの)のみを残す

�  提案手法 1)  入力文から難解語を検出 2)  難解語を見出し語として国語辞典から語釈文を抽出 3)  語釈文を形態素解析 4)  難解語と同じ品詞をすべて収集 5)  収集した語から平易語(学習基本語彙に含まれるもの)のみを残す

5

手法の比較(図) 6

換言候補の選択方法-その1 �  収集した語の中から適切な換言を選択する

①  シソーラスに基づく語の類似度を用いる ◦  日本語Wordnetを使い類似度の高い単語を選択 ◦  類似度が1位のものが複数の場合ランダムに選択

②  語釈文中の出現頻度を用いる手法 ◦  より多くの国語辞典から収集される単語を選択

③  共起頻度を用いる手法 ◦  入力文中の内容語とよく共起する平易語を選択  

7

換言候補の選択方法-その2 ④  自己相互情報量を用いる手法 ◦  共起頻度から単語単体の出現頻度を差し引いて測る

⑤  単語 3-gram 頻度を用いる手法 ◦  コーパス中での単語 3-gram 出現頻度を用いる

⑥  共起頻度ベクトルの類似度を用いる手法 ◦  難解語と獲得された語がどれだけ似た文脈で出現するか

8

実験

�  毎日新聞2000年度版から難解語が1語だけ含まれる文を抽出(14,344文)

�  50回以上出現する221語のうち,69語は換言対象から除いた152種類の難解語を言い換える ◦  152種類の難解語は延べ72,153回出現している

�  1種類の難解語毎に無作為抽出した1文を評価 �  使用した辞書は三種類 ◦  EDR 日本語単語辞書 ◦  チャレンジ小学国語辞典 ◦  三省堂国語辞典

�  共起頻度などはWeb日本語Nグラムコーパスを用いた ◦  ⑤のみ 3-gram データから ◦  その他は 7-gram データから

9

実験評価-その1 � 評価方法 ◦ 評価は日本語を母語とする工学系大学院生3人が行う ◦  3人中2人以上が換言可能とすれば正解とする

� 換言候補の収集 ◦  20ポイントの向上が見られた

10

実験評価-その2 � 言い換え候補の選択 ◦ 提案手法で獲得できた128の難解語の候補を選択 ◦ ランダムに選択した場合は30%の正解率 ◦ シソーラスに基づく類似度の正解率が高かった �  文脈を考慮しても効果は限定的

11

選択指標の組み合わせ

� 6つの評価方法を組み合わせて評価を行った

� 過半数を超えない場合にWordNet指標を優先することで,正解率が上がった

12

おわりに

� 以下のことを主張した ◦ 換言候補は語釈文の末尾に限定せず,語釈文の全体から広く収集すべき ◦ 適切な換言を選択する際に,文脈を考慮しても効果は限定的で,シソーラスに基づく類似度を優先するのが良い

� シソーラスと他の指標を組み合わせる方法で,選択の正解率を70%まで上げることができた

13