読解支援@2015 07-24

15
Text simplifica.on for children. Jan De Belder, MarieFrancine Moens. In Proceedings of the SIGIR Workshop on Accessible Search Systems, pp.19–26, 2010. プレゼンテーション 関沢祐樹 2015/07/24 1

Upload: sekizawayuuki

Post on 15-Aug-2015

72 views

Category:

Education


1 download

TRANSCRIPT

Page 1: 読解支援@2015 07-24

Text  simplifica.on  for  children.    

Jan  De  Belder,  Marie-­‐Francine  Moens.      

 In  Proceedings  of  the  SIGIR  Workshop  on  Accessible  Search  Systems,  pp.19–26,  2010.

プレゼンテーション  関沢祐樹

2015/07/24 1

Page 2: 読解支援@2015 07-24

概要

•  対象:テキスト平易化    •  目的  – 子供が理解しやすいテキストへの自動変換  

•  難しいテキストを入力、 簡単なテキストを出力  •  文分割、語彙平易化をする  

•  結果  – 難易度の減少に成功  – 理想ほどは落ちなかった

2015/07/24 2

Page 3: 読解支援@2015 07-24

はじめに

•  インターネットには大量の情報  – しかし、子供が読むレベルの情報はごくわずか  

•  従来のテキスト簡単化  – アノテーションデータが必要  – 文単位で難易度を考慮  

•  文書全体の難易度は考慮しない  – 子供に読みやすくするため、簡単すぎても  ×  

•  ほどよく難易度を下げたい  

2015/07/24 3

Page 4: 読解支援@2015 07-24

関連研究

•  テキスト自動平易化  – 文を短くする  – 解析結果や、規則を用いる  

•  語彙平易化  – ある単語を上位語、出現頻度によって置換  

• WordNet  を使用  

– 語義曖昧性により、意味の通らなくなることもある  

2015/07/24 4

Page 5: 読解支援@2015 07-24

提案手法

•  3つの要素で構成  

1.  語彙平易化  

2.  文法平易化  

3.  平易化の最適選択  

2015/07/24 5

Page 6: 読解支援@2015 07-24

1.語彙平易化

•  語義曖昧性解消を用いた単語の置換  – WordNet と 言語モデルで実現

2015/07/24 6

Page 7: 読解支援@2015 07-24

1.語彙平易化

2015/07/24 7

WordNet  からなる  同意語のリスト

言語モデル  からなる  置換可能な単語

Page 8: 読解支援@2015 07-24

1.語彙平易化

2015/07/24 8

共通する  単語のみ  とってくる

言い換え  らしさを頻度で  スコア付け

最も頻度の高い  単語を出力

Page 9: 読解支援@2015 07-24

2.文法平易化

•  実際に使った4つの文法  1.  同格                                                                            John,  a  taxi  driver,  won  the  lo=ery.  2.  関係節                                                                    The  boy,  who  had  a  ball,  was  tall.  3.  接頭辞による従属節 Although  it  is  raining,  the  sun  is  shining.  4.  挿入辞による同格、従属    I  bought  a  wallet  but  I  lost  it.    

•  これらの文法を簡単化した文全てを保持し、どれを採用するかを次に述べる  

2015/07/24 9

Page 10: 読解支援@2015 07-24

平易化の最適選択

•  最適な言い換え  –  平均文長、文数の差、語彙数の差を用いる  

•  テキストの難易度  – 総文数、総単語数の線形和  

•  これらの情報を用いる

2015/07/24 10

Page 11: 読解支援@2015 07-24

実験設定

•  使用データ  –  English  Wikipedia  &  Simple  English  Wikipedia  –  100記事使用  

•  評価に50、残りを開発に割り当て  

 –  Literacyworks  :  ニュース記事と、その簡約版のセット  

•  50記事を評価に使用  

合計100記事を評価に用いる  

2015/07/24 11

Page 12: 読解支援@2015 07-24

実験1:語彙平易化

•  それぞれ180の平易化をランダムに選択  •  ベースライン:WordNetのみを用いる  –  同意語のなかで頻度最大の単語に置換  

•  提案手法:ベースラインに言語モデルを追加  •  評価:Amazon’s  Mechanical  Turk  –  置換が正しいかを3人の多数決  –  単語の適合率で評価

2015/07/24 12

#"! �������� ����

��������� ���� ����

������������� �� ����

Page 13: 読解支援@2015 07-24

実験2:文法平易化

•  実験1の100記事を使用  •  平易化前後の文が正しい英語かを  0  or  1  で判定  •  評価環境は実験1とほぼ同じ (正解率で評価)    

エラーが  多い

2015/07/24 13

� ����� ����� ����� �����

�� ����� ����� ����� �����

����� ��� � ��� �

����,�� ����� ����� ������ �����

)%)�$ ������ ����� ������� �����

�"#"&! "� �")!'��+*%'#(

Page 14: 読解支援@2015 07-24

実験2:文法平易化

•  各データの詳細、及び簡単化の割合  

•  共に、20%未満であった

2015/07/24 14

Page 15: 読解支援@2015 07-24

まとめ

•  テキスト平易化  – 子供に読みやすくしたい  

•  提案手法  – 言語モデルを用いて、語彙平易化の精度向上  – 解析による文法構造の簡単化はエラーが多い  

子供が読みやすいほどへの難易度の減少に失敗

2015/07/24 15