文献紹介:格フレームの対応付けに基づく用言の言い換え

15
鍜治伸裕, 河原大輔, 黒橋禎夫, 佐藤理史. 格フレームの対応付けに基づく用言の言い換え. 自然言語処理, 10(4), pp.65-81, 2003. Presented by 梶原 智之

Upload: tomoyuki-kajiwara

Post on 18-Jul-2015

112 views

Category:

Science


2 download

TRANSCRIPT

Page 1: 文献紹介:格フレームの対応付けに基づく用言の言い換え

鍜治伸裕, 河原大輔, 黒橋禎夫, 佐藤理史. 格フレームの対応付けに基づく用言の言い換え.

自然言語処理, 10(4), pp.65-81, 2003.

Presented by 梶原  智之

Page 2: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � どういう問題を解いたのか

� テキスト平易化のために用言を平易に言い換える � 1. 多義性の解消 2. 同等句の決定 3. 格助詞の変換

� どうやって解いたのか � 1.1 見出し語格フレームと主辞格フレームを対応付ける � 1.2 入力文と類似する見出し語格フレームを選択する � 2. 主辞直前項を同等句に含める場合と含めない場合と

で、1.1の類似度がより高い場合を同等句とする � 3. 主辞格フレームの格助詞を用いる

2

格フレームの対応付けに基づく用言の言い換え

Page 3: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 【要求】強く求めること � 工事の中止を要求した → 工事の中止を強く求めた

� 仮定:見出し語が用言であれば、その定義文は用言    を主辞とする形で記述されており、なおかつ    主辞は定義文の末尾に位置する

� 国語辞典の用言の見出しを定義文主辞に言い換える

3

国語辞典による言い換え

Page 4: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 国語辞典の定義文:少数の平易な語彙で記述される

� テキストで使用される語彙のサイズを減らし、 同義異表記問題の解決に寄与できる

� ノンネイティブなどの話者でも理解できる語 のみを使った表現へと言い換える、テキスト 平易化アプリケーションの開発につながる

� 同義異表記問題の解決� 【激怒】激しく怒ること 激怒 → 怒る � 【立腹】怒ること    立腹 → 怒る

4

国語辞典による言い換え

Page 5: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 多義性の解消

� 【しのぐ】(1) 耐え忍ぶこと, (2) 優れていること � 苦境をしのぐ → 苦境を耐え忍ぶ

� 同等句の決定 � 【体得】知識やわざを身につけること � 技術を体得する → 技術を身につける

� 格助詞の変換 � 【下回る】ある数や量より少なくなる � 前年を下回る → 前年より少なくなる 5

用言の言い換えの難しさ

Page 6: 文献紹介:格フレームの対応付けに基づく用言の言い換え

6

格フレームの対応付けに基づく用言の言い換え

Page 7: 文献紹介:格フレームの対応付けに基づく用言の言い換え

7

格フレームの対応付け

Page 8: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 主辞直前項が、ガ格・ヲ格・ニ格の場合

� 直前項の格助詞が主辞直前項と同じ  & 下表の制約を満たす

� 主辞直前項が、ガ格・ヲ格・ニ格以外の場合 � 主辞格フレームと定義文に共通して現れる ガ格・ヲ格・ニ格の項の類似度の平均 > 0.8のとき対応付け

� 項の類似度:日本語語彙大系の意味属性間の距離 8

定義文を用いた 主辞格フレームの絞り込み

主辞直前項のタイプ 格要素への制約 具体例

格要素が単語一つ 全く同じ 【挑む】戦いをしかける

格要素が並列構造 類似度が0.8以上 【侵犯】よその国の領土や権利などを、…

格要素が一般概念語 同じ意味属性 【参集】人々が集まってくること

Page 9: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 定義文に与えられている例文と見出し語格フレームに共通のガ格・ヲ格・ニ格の項の類似度の平均 > 0.8

� 項の類似度 = max{ ExSim(edef, e) | e∈C } �  edef:例文がとる格要素 �  e:見出し語格フレームの項Cに含まれる用例

� ExSim(e1, e2) = maxx∈s1, y∈s2 sim(x, y) � sim(x, y) = 2D / (Dx + Dy), D = max{Dz | x⊂z, y⊂z}

�  s1:用例e1が日本語語彙大系の中で持つ意味属性集合 � Dx:意味属性xの階層の深さ �  x⊂z:zはxの上位意味属性 9

例文を用いた語義の絞り込み

Page 10: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� F1:C11, C12, …C1l,…C1m  C:項、1からlまでが � F2:C21, C22, …C2l,…C2n  共通項(格助詞が同じ項)

10

類似度計算による対応付け

Similarity(F1,F2 ) =C1i C2i ⋅ArgSim(C1i,C2i )i=1

l∑

C1i C2ii=1

l∑

×C1ii=1

l∑

C1ii=1

m∑

×C2ii=1

l∑

C2ii=1

n∑

ArgSim(C1i,C2i ) =e1 ⋅max{ExSim(e1,e2 ) | e2 ∈C2i}e1∈C1i

∑e1e1∈C1i

用例パターンに含まれる用例の類似度 項の一致度

Page 11: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 国語辞典:例解小学国語辞典(1997) � 格フレーム:毎日新聞と日経新聞の計20年分から構築 � 実験対象:新明解国語辞典に含まれる例文      220文に含まれる用言 � ただし、例解小学国語辞典の定義文に頻出する 上位2,000形態素は、十分平易なので言い換えない

� 評価方法 � 多義性解消・同等句の抽出・表層格の変換を 著者らがチェック → 全てOKなら正しい言い換え

11

実験設定

Page 12: 文献紹介:格フレームの対応付けに基づく用言の言い換え

12

実験結果

曖昧性がある用言を含む文 成功 失敗 精度

ベースライン(先頭の定義文) 60 55 52%提案手法 82 33 71%

曖昧性がある用言を含む文 成功 失敗 精度

ベースライン 147 73 66%提案手法 170 50 77%

Page 13: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� 【攻略】1.敵の陣地や城をうばうこと     2.敵を攻めて、負かすこと   横綱を攻略する → 横綱を負かす

【遠ざける】1.遠くへはなれさせる       2.つきあわなくする   悪友を遠ざける → 悪友とつきあわなくする

【鳴り響く】1.鳴る音が、広く聞こえる       2.評判が知れ渡る   ベルが鳴り響く → ベルの音が広く聞こえる 13

成功例

Page 14: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 失敗したところ

� 格フレームの用例不足 � 格フレームの不適切なクラスタリング

� 多義性解消について � よくある教師有りの手法では、タスク設定が 変わると変わるとコーパスの再利用が難しい

� 提案手法は、教師無しの手法であり、さらに ベースラインの52%から71%に精度が向上した

14

考察

Page 15: 文献紹介:格フレームの対応付けに基づく用言の言い換え

� � 鍜治  伸裕

� https://sites.google.com/site/nbkaji/

� 河原  大輔, 黒橋  禎夫 � http://nlp.ist.i.kyoto-u.ac.jp/

� 佐藤  理史 � http://sslab.nuee.nagoya-u.ac.jp/

著者情報

15