文献紹介:新聞記事中の難解語を平易な表現へ変換する手法の提案

16
芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一. 新聞記事中の難解語を平易な表現へ変換する手法の提案. 自然言語処理, 20(2), pp.105-132, 2013. Presented by 梶原 智之

Upload: tomoyuki-kajiwara

Post on 06-Aug-2015

59 views

Category:

Science


2 download

TRANSCRIPT

芋野美紗子, 吉村枝里子, 土屋誠司, 渡部広一. 新聞記事中の難解語を平易な表現へ変換する手法の提案.

自然言語処理, 20(2), pp.105-132, 2013.

Presented by 梶原  智之

� � どんな問題を解いたのか

�  人間-ロボット間で会話を実現したい �  会話テンプレートに新聞記事から獲得した表現を埋め込む �  新聞記事に出現する堅い表現を馴染み深い表現に言い換える

� どうやって解いたのか �  1-to-1と1-to-Nの変換を組み合わせた語彙平易化の手法を提案 �  国語辞典などから言い換えを獲得し単語親密度を上げる変換を行う

� 何が明らかになったのか �  具体物を表す語は1-to-Nの変換を行い文で表現すると平易になる �  提案手法で、75.7%の精度で平易な表現に、

81.1%の精度で意味を保持した表現に変換することができる 2

新聞記事中の難解語を平易な表現へ変換する手法の提案

� � 挨拶、質問応答、提案、雑談などの 会話が可能なロボットを実現したい

� 情報の多さ、入手の手軽さ、話題の更新速度などの 観点から、新聞記事が会話のリソースとして適当

� 新聞記事を用いた会話の実現方法 � 会話テンプレートに、新聞記事の表現を埋め込む

� 問題点:表現の堅さが会話に不自然 � 新聞の「貸与する」、会話では「貸す」が自然 � 新聞の「落下した」、会話では「落ちた」が自然 3

背景

� � 人間はどのように平易な表現への変換を行うか?

� まず別の1語に言い換えることを検討する � 同義語や類義語を持たない語を変換したいときは、 文(N個の語)による「説明」を検討する

� 計算機でも同様に、次の2つを組み合わせる � 1-to-1の変換(同義語や類義語への言い換え) � 1-to-Nの変換(説明文への言い換え)

� 難解な表現とは?平易な表現とは? � 単語親密度の低い語は難解 � 単語親密度の高い語は平易(馴染み深い)

4

基本的なアイディア

5

提案手法の概要

� � 人間の連想能力を模倣し、柔軟な意味理解を行う機構

� 語や文の類似性を計ることができる � 元の語と変換候補語の意味的な近さを考慮する

� 概念ベース � 語の意味定義

� 関連度計算方式 � 語と語の間の関連性を定量的に表現 � 複数の変換候補語の中から も近い意味の語を選択

� EMDを用いた記事関連度計算方式 � 距離尺度 Earth Mover’s Distance を用いた多義性解消

6

語概念連想

� � 概念(A):国語辞典の見出し � 属性(a ):見出し語の定義文に使われる自立後群 � 重み(w):属性の重要度

概念A = {(a1, w1), (a2, w2), … , (am, wm)}

7

概念ベース

概念 属性

医者 (医師, 0.34) (患者, 0.11) (病院, 0.08) ・・・

病院 (医院, 0.25) (手術, 0.18) (施設, 0.04) ・・・

患者 (病人, 0.52) (看病, 0.21) (治療, 0.12) ・・・

・・・ ・・・ ・・・ ・・・ ・・・

� � 2つの概念間の関連度を定量的に表現

� 概念A = {(a1, u1), (a2, u2), … , (aL, uL)} � 概念B = {(b1, v1), (b2, v2), … , (bM, vM)}( L ≦ M )

� a1=bx1となるように概念Bを並び替え(L以降は無視) � 概念B = {(bx1, vx1), (bx2, vx2), … , (bxL, vxL)}

� このときの概念Aと概念Bの関連度DoA(A, B)は、

8

関連度計算方式

� �  重  み  :tf-idf �  距  離  :disA1B1 = 1 - DoM(WordA1, WordB1) � コスト:costA1B1 = disA1B1 × WordB1の重み �  EMD :costA1B1 + costA2B2 + costA2B3

9

EMDを用いた 記事関連度計算方式

10

語の変換処理の流れ

� � 基準:一般的な会話で使われる単語であるか否か

� 日本語話し言葉コーパスと新聞記事から2,000語ずつ � 新聞記事の単語親密度の平均:5.74 � 話し言葉の単語親密度の平均:6.05

� 確率密度関数を用いて、難解語の閾値を決定 � 新聞記事における単語親密度のデータ群と、話し言葉コーパスにおける単語親密度のデータ群が、お互いにできるだけ他方の分布に属さないような値を取れば、難解語を判別する閾値になる

� 閾値:5.82 11

難解語の判別

� � 変換候補語:関係語辞書から得られる同義語・類義語 � 関係語辞書:国語辞典の定義文から見出し語の同義語       や類義語を自動的に抽出した辞書

12

1-to-1変換

単語 同義語 類義語

懸念 心配 不安

付近 近所 周辺

協議 会議 相談

関係語辞書の例

� � 国語辞典の見出し語と定義文を用いた1-to-N変換 � 多義性の解消 → 不要語の削除 → 格重複の排除

13

1-to-N変換

すなわち, 転じて, など, こと, さま, ある, 〜の異名, 〜の別名, 〜の古名, 〜の謙譲語, 〜の尊敬語, 〜の丁寧語, あるいは, もしくは, または

不要語の一覧

� � 対象:朝日新聞50記事(1,567語、うち難解語249語) � 被験者:著者および共著者を除く3名 � 実験1:変換前後の記事を被験者に見せ、     分かりやすい方を選択させる � ○:変換後が分かりやすい � ✕ :変換前が分かりやすい

� 実験2:変換後の記事を見せ、意味的な欠損や     違和感がないか評価 � ○:意味が保持され、違和感もない � △:何らかの違和感を感じる � ✕ :意味が違っていたり、日本語表現としておかしい

14

提案手法の評価

� 実験1:平易性 実験2:意味保持性

15

提案手法の評価

16

提案手法の評価

元の記事文 提案手法 1語変換のみ

送還してほしい送り返してほしい

(平易性○, 意味保持性○)−

(変換されず)

状態を維持している状態を保ち続けている

(平易性○, 意味保持性○)状態を持っている

(平易性○, 意味保持性✕)

元の記事文 提案手法 N語変換のみ

双方の運転手から両方の運転手から

(平易性○, 意味保持性○)

関係しているあちらと こちらの運転手から

(平易性○, 意味保持性△)

国内で初めて承認され国内で初めて認められ

(平易性○, 意味保持性○)

国内で初めてその事柄が 正当であると判断され

(平易性✕, 意味保持性○)