第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築...

18
ー文献紹介ー 用言と直前の格要素の組を単位とする 格フレームの自動構築 河原 大輔(京都大学大学院情報学研究科)、黒橋 禎夫(東京大学大学院情報理工学系研究科 ) 自然言語処理, Vol.9 , No.1, pp.3-19, 2002 キーワード 格フレーム、生コーパス、クラスタリング、格解析 長岡技術科学大学 自然言語処理研究室 高橋寛治

Upload: takahashi-kanji

Post on 04-Jul-2015

154 views

Category:

Education


4 download

DESCRIPTION

用言と直前の格要素の組を単位とする格フレームの自動構築

TRANSCRIPT

Page 1: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

ー文献紹介ー

用言と直前の格要素の組を単位とする格フレームの自動構築

河原 大輔(京都大学大学院情報学研究科)、黒橋 禎夫(東京大学大学院情報理工学系研究科 )自然言語処理, Vol.9 , No.1, pp.3-19, 2002

キーワード格フレーム、生コーパス、クラスタリング、格解析

長岡技術科学大学 自然言語処理研究室 高橋寛治

Page 2: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

概要●提案

●生コーパスから格フレームを自動的に構築する方法の提案

●やったこと●用言と直前の格要素の組を単位として用例収集●意味ごとにクラスタリングを行う●格フレームの自動構築

Page 3: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

格フレームの必要性●日本語は単純な係り受け解析を行っただけでは文の解析として十分と言えない

●語順の入れ替わり、格要素の省略、表層格の非表示など●例 「ドイツ語も話す先生」

●「ドイツ語」と「話す」、「先生」と「話す」の関係は、係り受け構造を解析しただけでは分からない。

●格フレームで解決

Page 4: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

はじめに●カバレージの大きな実用的な格フレーム辞書を人手で作るのが困難

●格フレーム辞書をコーパスから自動学習する方法を考える

Page 5: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用言とその直前の各要素の組●「友達になる」●「病気になる」●「荷物を積む」●「経験を積む」

Page 6: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

格フレーム辞書自動構築の過程1. 用例(用言・各要素間の関係)を取り出す

・コーパスのテキストに対して、KNPで構文解析を行い、信頼できる用例を取り出す。

2. 用例パターン(抽出した関係を用言と直前の格要素の組ごとにまとめる)

3. シソーラスを用いて、用例パターンのクラスタリングを行う

Page 7: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

データ処理についての議論・用例をそのまま利用車に 荷物を 積むトラックに 物資を 積むデータスパースネスが問題

・用例を二項関係に分割車に 荷物を 積む車に 経験を 積む用言の用法の多様性の問題

・用例を直接クラスタリング従業員が 荷物を 積む従業員が 経験を 積む用法が異なるが、ガ格でクラスタリングされる可能性

Page 8: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用例の収集●コーパスを構文解析した結果から、用例の収集を行う(確信度の高い係り受けを抽出)1.格要素の条件

取り扱う格の設定、格用例の汎化

2.用言の条件動詞、形容詞、名詞+判定詞

3.確信度の高い係り受けの抽出

Page 9: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用例格フレームの生成●用言の用法を決定する重要な各要素は用言の直前にくることが多い          ↓

●用言とその直前の格要素の組を単位としてまとめる

Page 10: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用例格フレームの生成●用例パターンは、1つの用言について、直前の格要素の数だけ存在する

従業員:が 車:に  荷物:を 積む {トラック、飛行機}:に  物資:を 積む

●ほとんど用法が同じ用例パターンをマージするために、用例パターンのクラスタリングを行う

Page 11: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用例パターン間の類似度●クラスタリングは、類似度を用いる

日本語語彙大系のシソーラスを用いる

←意味属性の類似度

↑頻度

Page 12: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

クラスタリングの手順1.直前の格の出現頻度で足切り2.直前の格が同じ用例パターンをクラスタリング3.直前の格を限定しない用例パターンのクラスタリング4.残りの用例パターンのふりわけ

Page 13: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

用例パターンの意味属性の固定●用例パターン間の類似度は、用例パターンの直前格要素の意味属性が大きく影響●例

●(手、顔)<動物(部分)> を合わせる●(手、焦点)<論理・意味等> を合わせる

●意味的におかしい組が作られる(手、顔、焦点)

Page 14: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

意味の曖昧性の解消●例

●類似度の高い用例パターンの意味属性を利用●声:<声>、怒声:<声>で固定し、類似度の再計算を行う

名詞:意味属性 名詞:意味属性 類似度

声:<声> 怒声:<声> 0.90声:<単位> 機:<単位> 0.78声:<声> 質問:<質問> 0.69怒声:<声> 質問:<質問> 0.68

Page 15: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

作成した格フレーム辞書●もととなるコーパス

●毎日新聞約9年分の460万文から構築●結果

●71,000個の用言について格フレームが構築●用言あたりの平均格フレーム数は1.9個

Page 16: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

構築した格フレームの例用言 格 用例

買う1 ガ格 【主体:<数量>人、乗客、幹部、筋、男性、資産家…】

ヲ格 株、円、土地、もの、ドル、切符、車、もの、家…

デ格 【場所:店、駅】、<数量>円、金、価格、会社

買う2 ガ格 対応、厚生、絵はがき、蓄財、シーン、工作、禁止…

ヲ格 怒り、ひんしゅく、失笑、反感、恨み、不興…

… … …

Page 17: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

解析実験●得られた格フレーム辞書の静的な評価は難しい

●格解析を通して評価する

●毎日新聞の記事200文をテストセット●格解析の方法は(Kurohashi and Nagao 1994)●ベースラインの精度を大きく上回る

Page 18: 第5回文献紹介 用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

おわりに●用言とその直前の格要素の組を単位として、生コーパスから用例を収集●それらのクラスタリングを行うことで、格フレーム辞書を自動的に構築する手法を提案●得られた辞書で格解析を行った結果、高い精度で行うことができた