事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

24
事事事事事事事事事事事事事事事 事事事事事事事事事事事事事事 事事事 事事事事事 2007 事 4 事 25 事 事事事事事 事事事 (D1)

Upload: driscoll-duke

Post on 01-Jan-2016

49 views

Category:

Documents


1 download

DESCRIPTION

事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成. 松本研 研究会発表 2007 年 4 月 25 日 奈良先端大(D1)小町守. 事態性名詞の項構造解析の目標. 意味の同じ表現の認識 「 原子爆弾によって 破壊された ドーム 」 「 ドームが 原子爆弾によって 破壊された 」 「 原子爆弾が ドームを 破壊した 」 「 原子爆弾による ドームの 破壊 」. 主節. 能動態. 名詞化. 事態性名詞の項構造解析が必要. 全て「 原子爆弾が ドームを 破壊した 」という事態を指す. 事態の認識はテキスト要約・機械翻訳に役立つ. 事態性名詞の項構造解析. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

事態性名詞の項構造解析に向けた述語項構造に関する資源の作成

松本研 研究会発表2007 年 4 月 25 日

奈良先端大(D1)小町守

Page 2: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

2

事態性名詞の項構造解析の目標

意味の同じ表現の認識 「原子爆弾によって破壊されたドーム」 「ドームが原子爆弾によって破壊された」 「原子爆弾がドームを破壊した」 「原子爆弾によるドームの破壊」

全て「原子爆弾がドームを破壊した」という事態を指す

主節能動態

名詞化

事態の認識はテキスト要約・機械翻訳に役立つ

事態性名詞の項構造解析が必要

Page 3: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

3

事態性名詞の項構造解析

リスク管理の必要性が強く叫ばれているが、市場の実態が把握できていないため打つ手がないのが実情。 BIS が昨年春から調査の手法について検討していた。

管理(する) [ ガ : 【文外】 , ヲ : リスク ]

【文外】ヲ ガ

項構造=誰が、何を、どうする

調査(する) [ ガ :BIS, ヲ :実態 ]

事態性名詞=行為・状態・出来事を指す名詞

種類 例サ変名詞 管理動詞由来の名詞 動き事態を示す名詞 運動会

Page 4: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

4

事態性名詞の項構造解析のタスク設定

1. 名詞の事態性判別

2. 事態性名詞の項同定

公衆電話で電話をすることがめっきり減った。

文中の名詞に事態性があるかどうか判別

事態性のある名詞の項を同定

モノとしての電話 「 X ガ Y ニ電話する」というコト(事態)

モノかコトか?

誰ガ何ニどうする?

Page 5: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

5

目次

はじめに動詞と格要素の共起モデルの有効性述語項構造解析モデルを利用した項同定関連研究まとめ今後の予定

Page 6: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

6

述語・事態タグと項の出現位置の分布

事態性名詞は述語と比べて文間に項が現れる割合が多い [ 飯田ら , 2007]

述語のヲ格・ニ格は 9 割が係り受け 事態性名詞のヲ格・ニ格は約半数が同一文節内

文内 文間 文外同一文節 係り受け その他 総数 総数

ガ 7%(0%) 23%(42%) 25%(31%) 18%(12%) 27%(15%)

ヲ 50%(0%) 31%(84%) 10%(13%) 8%(3%) 0%(0%)

ニ 43%(3%) 22%(88%) 24%(7%) 10%(3%) 0%(0%)

NAIST テキストコーパス中の述語・事態タグと項の分布(括弧内が述語)

係り受け以外の情報を用いた項同定 共起・構文情報

Page 7: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

7

PLSI を用いた共起スコアの計算

Probabilistic Latent Semantic Indexing [Hoffman, 1999] を用い、名詞 n が格助詞 c を介して動詞 v に係っているときの共起確率を求める [ 藤田ら , 2004]

P( v,c,n ) = P( v,cz∈Z

∑ | z)P(n | z)P(z)

PMI( v,c ,n) = logP( v,c,n )

P( v,c )P(n)

上司が推薦する が推薦する 上司

隠れクラス z 次元まで圧縮

共起スコア= <v,c> と n の間の相互情報量

Page 8: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

8

事態性名詞の項同定

項らしさを判定する分類器入力 : 項と文内の項以外の名詞をペアにして入力

出力 : どちらがより項らしいか日本政府による民間支援が活性化する。

政府 , 民間政府 , 活性

日本 , 政府

政府 , 民間民間 , 活性

日本 , 民間

支援(する)

Page 9: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

9

項と項以外の名詞の共起スコアの比較

項の共起スコ

項以外の名詞の共起スコア

どのような事例が含まれているのか?

全体の 71.2% が第 2 ・第 4 象限

第 2 ・第 4 象限の事例は共起スコアの高い方が

項とした場合精度 90.0%→共起のみでも分類可能

第 1 ・第 3 象限の事例は共起スコアだけでは

決められない

Page 10: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

10

述語項構造解析モデルを利用した実験目的 : 共起スコアだけでは項同定できない事例にどのような問題があるか分析

方法 : 述語項構造解析 [Iida et al., 2006] の素性を用いて SVM による分類器を作成、第 1 象限で分類を誤った事例を人手で分類

対象 : NAIST テキストコーパス 1.2β から新聞記事 1 日分( 137 記事)を訓練データ・別の 1 日分( 150 記事)をテストデータに使用

Page 11: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

11

実験結果

素性 誤り個数全ての素性を用いた場合

287(9.1%)

−語彙素性 303(9.7%)

−共起素性 320(10.2%)

−意味素性 294(9.4%)

−構文素性 376(12.0%)

−位置素性 290(9.3%)

共起素性のみを用いる 1,696(44.2%)第一象限の項同定には構文素性と共起素性が有効

新聞記事 1 日分を対象に第 1 象限のデータを用いて実験(総数 3,132 )

Page 12: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

12

正しく解析できた事例

インタファクス通信は五日夕、現地ロシア軍の高官の発言として「首都総攻撃ではないが、戦闘は続いている」と伝えた。

Page 13: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

13

誤り分析(1)

構文情報を正しく扱えていない( 62/112 )「 X ガ Y ニ迫られる」の「 X ガ」はY(事態性名詞)のガ格と一致

述語と項を共有するような事態性名詞の出現パターンが存在

ドイツは……エリツィン政権に対する支援を続けるべきかどうか苦しい選択に迫られている。

第一象限で誤った事例のうち項のほうが共起スコアが低い事例

Page 14: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

14

誤り分析(2)係り受け関係にある項の間違い

「の→ガ」「に対する→ニ」という格の交替ロシアのチェチェン共和国に対する武力介入……

誤りのタイプ 数 例動詞と項を共有 19 X ガ Y ニ迫られる格の交替がある 13 チェチェン共和国に対する武力介

入複合名詞内の項 12 安保理はガリ提案を検討連体節内の項 6 相手は経験の浅い柴田A の B の形の項 6 育英は初出場の三本木農を破り遠く離れた係り受け

6

Page 15: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

15

動詞と項を共有する事態性名詞

「 WG が耐震性能の違いに検討を加える」 →WG が耐震性能の違いを検討する

精度の高いパターンで項をフィルターできる

Page 16: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

16

事態性名詞と述語の項共有の統計

NAIST テキストコーパスの 27,665 事態性名詞中 6,015 事例( 21.7% )が動詞と項を共有 S が E を V する( 65.4% )

「 S が E を行う」 :各自が検討を行う→各自が検討する S が E に V する( 13.9% )

「 S が E に入る」 :彼が作業に入る→彼が作業する S が N に E を V する( 6.3% )

「 S が N に E を作る」 :母が自分に料理を作る→母が料理する

Page 17: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

17

述語パターンの辞書作成作業の流れ

「 X に合わせる」( X=希望・要望・変化・…) 出現していない格を補う

「 A が B を X に合わせる」(たとえば A=彼、 B= スタイル)

補った格で例文が言えるかチェック述語ガ : 「彼が希望する」「彼を希望する」「彼に希望する」

述語ヲ : 「スタイルが合わせる」「スタイルを希望する」「スタイルに希望する」

言えるパターンを辞書に登録「 X に合わせる」 : 述語ガ→事態性名詞ガ

Page 18: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

18

述語パターンの辞書の作成

対象 : Web 5億文解析済みデータ作業日数 : 2 人の作業者さんに合計 1週間作成済みパターン

見てもらったパターン : 事態性名詞が述語に係っているパターンのうち、頻度の高いもの上位 2,000個

対応がついたパターン : 1,120個精度は 0.80(693/866)再現率は 0.12(693/6,015)

Page 19: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

19

トーナメントモデルで項同定精度評価トーナメントモデル [Iida et al., 2005] で項同定(素性・データセットは前の実験と同じ)

辞書の述語パターンにマッチしたらトーナメントせずに事態性名詞の項を決定素性 ガ ヲ ニ

ベースライン 60.5 79.7 73.0

+ パターン辞書 61.9 79.7 76.2

+ 共起 65.5 80.9 76.2

+ パターン辞書 + 共起

66.7 80.9 79.4

トーナメントモデルでの各項の同定精度

Page 20: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

20

誤り分析

武双山が貴乃花の連勝を止めた。正 : 貴乃花が連勝する誤 : 武双山が連勝する

「 X を止める : 述語ガ→事態性名詞ガ」にマッチしてしまう辞書の精度を上げる近場に候補がある場合は近場の候補を選択するモデルにする

Page 21: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

21

関連研究

事態性名詞の項構造解析のコーパス NomBank [Meyers et al., 2004]

PropBank [Palmer et al., 2005] に従って英語のコーパス Penn TreeBank にタグづけ

文内の項に限定京都テキストコーパス Version 4.0 [黒橋 , 200

5]京都テキストコーパス全体の 1/8 にタグづけ文を超えた項もタグ付与している格助詞相当の表層格を網羅している

Page 22: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

22

関連研究( 2 )

事態性名詞の項構造解析 NomBank に対する意味役割付与 [Jiang and N

g, 2006]基本素性は述語の意味役割付与モデルを用いる事態性名詞の素性も追加( Support verb )

名詞句の関係解析名詞の格フレーム辞書の構築 [笹野ら , 2005]

一般的な日本語の名詞間の関係解析(事態性名詞の項構造を包含)

事態性判別問題を扱っていない

Page 23: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

23

まとめ

事態性名詞の項構造解析の問題設定

事態性名詞の項同定に向けた動詞と格要素の共起モデルと構文情報の有効性を分析

述語と項を共有する事態性名詞を分析し、述語のパターンに関するリソースを作成

Page 24: 事態性名詞の項構造解析に向けた 述語項構造に関する資源の作成

24

今後の予定

共起モデルの効果的な使用方法の検討

共参照解析を行い、文間・文外の解析モデルを作成(特にガ格は文間・文外に全体の 4 割)

精度の高い述語パターンを利用して Web 5億文から新たな事態性名詞を獲得