文献紹介:格フレームの対応付けに基づく用言の言い換え
TRANSCRIPT
鍜治伸裕, 河原大輔, 黒橋禎夫, 佐藤理史. 格フレームの対応付けに基づく用言の言い換え.
自然言語処理, 10(4), pp.65-81, 2003.
Presented by 梶原 智之
� � どういう問題を解いたのか
� テキスト平易化のために用言を平易に言い換える � 1. 多義性の解消 2. 同等句の決定 3. 格助詞の変換
� どうやって解いたのか � 1.1 見出し語格フレームと主辞格フレームを対応付ける � 1.2 入力文と類似する見出し語格フレームを選択する � 2. 主辞直前項を同等句に含める場合と含めない場合と
で、1.1の類似度がより高い場合を同等句とする � 3. 主辞格フレームの格助詞を用いる
2
格フレームの対応付けに基づく用言の言い換え
� � 【要求】強く求めること � 工事の中止を要求した → 工事の中止を強く求めた
� 仮定:見出し語が用言であれば、その定義文は用言 を主辞とする形で記述されており、なおかつ 主辞は定義文の末尾に位置する
� 国語辞典の用言の見出しを定義文主辞に言い換える
3
国語辞典による言い換え
� � 国語辞典の定義文:少数の平易な語彙で記述される
� テキストで使用される語彙のサイズを減らし、 同義異表記問題の解決に寄与できる
� ノンネイティブなどの話者でも理解できる語 のみを使った表現へと言い換える、テキスト 平易化アプリケーションの開発につながる
� 同義異表記問題の解決� 【激怒】激しく怒ること 激怒 → 怒る � 【立腹】怒ること 立腹 → 怒る
4
国語辞典による言い換え
� � 多義性の解消
� 【しのぐ】(1) 耐え忍ぶこと, (2) 優れていること � 苦境をしのぐ → 苦境を耐え忍ぶ
� 同等句の決定 � 【体得】知識やわざを身につけること � 技術を体得する → 技術を身につける
� 格助詞の変換 � 【下回る】ある数や量より少なくなる � 前年を下回る → 前年より少なくなる 5
用言の言い換えの難しさ
�
6
格フレームの対応付けに基づく用言の言い換え
�
7
格フレームの対応付け
� � 主辞直前項が、ガ格・ヲ格・ニ格の場合
� 直前項の格助詞が主辞直前項と同じ & 下表の制約を満たす
� 主辞直前項が、ガ格・ヲ格・ニ格以外の場合 � 主辞格フレームと定義文に共通して現れる ガ格・ヲ格・ニ格の項の類似度の平均 > 0.8のとき対応付け
� 項の類似度:日本語語彙大系の意味属性間の距離 8
定義文を用いた 主辞格フレームの絞り込み
主辞直前項のタイプ 格要素への制約 具体例
格要素が単語一つ 全く同じ 【挑む】戦いをしかける
格要素が並列構造 類似度が0.8以上 【侵犯】よその国の領土や権利などを、…
格要素が一般概念語 同じ意味属性 【参集】人々が集まってくること
� � 定義文に与えられている例文と見出し語格フレームに共通のガ格・ヲ格・ニ格の項の類似度の平均 > 0.8
� 項の類似度 = max{ ExSim(edef, e) | e∈C } � edef:例文がとる格要素 � e:見出し語格フレームの項Cに含まれる用例
� ExSim(e1, e2) = maxx∈s1, y∈s2 sim(x, y) � sim(x, y) = 2D / (Dx + Dy), D = max{Dz | x⊂z, y⊂z}
� s1:用例e1が日本語語彙大系の中で持つ意味属性集合 � Dx:意味属性xの階層の深さ � x⊂z:zはxの上位意味属性 9
例文を用いた語義の絞り込み
�
� F1:C11, C12, …C1l,…C1m C:項、1からlまでが � F2:C21, C22, …C2l,…C2n 共通項(格助詞が同じ項)
10
類似度計算による対応付け
Similarity(F1,F2 ) =C1i C2i ⋅ArgSim(C1i,C2i )i=1
l∑
C1i C2ii=1
l∑
×C1ii=1
l∑
C1ii=1
m∑
×C2ii=1
l∑
C2ii=1
n∑
ArgSim(C1i,C2i ) =e1 ⋅max{ExSim(e1,e2 ) | e2 ∈C2i}e1∈C1i
∑e1e1∈C1i
∑
用例パターンに含まれる用例の類似度 項の一致度
� � 国語辞典:例解小学国語辞典(1997) � 格フレーム:毎日新聞と日経新聞の計20年分から構築 � 実験対象:新明解国語辞典に含まれる例文 220文に含まれる用言 � ただし、例解小学国語辞典の定義文に頻出する 上位2,000形態素は、十分平易なので言い換えない
� 評価方法 � 多義性解消・同等句の抽出・表層格の変換を 著者らがチェック → 全てOKなら正しい言い換え
11
実験設定
�
12
実験結果
曖昧性がある用言を含む文 成功 失敗 精度
ベースライン(先頭の定義文) 60 55 52%提案手法 82 33 71%
曖昧性がある用言を含む文 成功 失敗 精度
ベースライン 147 73 66%提案手法 170 50 77%
� 【攻略】1.敵の陣地や城をうばうこと 2.敵を攻めて、負かすこと 横綱を攻略する → 横綱を負かす
【遠ざける】1.遠くへはなれさせる 2.つきあわなくする 悪友を遠ざける → 悪友とつきあわなくする
【鳴り響く】1.鳴る音が、広く聞こえる 2.評判が知れ渡る ベルが鳴り響く → ベルの音が広く聞こえる 13
成功例
� � 失敗したところ
� 格フレームの用例不足 � 格フレームの不適切なクラスタリング
� 多義性解消について � よくある教師有りの手法では、タスク設定が 変わると変わるとコーパスの再利用が難しい
� 提案手法は、教師無しの手法であり、さらに ベースラインの52%から71%に精度が向上した
14
考察
� � 鍜治 伸裕
� https://sites.google.com/site/nbkaji/
� 河原 大輔, 黒橋 禎夫 � http://nlp.ist.i.kyoto-u.ac.jp/
� 佐藤 理史 � http://sslab.nuee.nagoya-u.ac.jp/
著者情報
15