nlp2012

25
C1-3 Wikipediaのエントリ構造と編集距 離を用いた専門用語抽出の試み 金沢大学 中山 祐輝 2012/03/14() NLP2012

Upload: yuki-nakayama

Post on 07-Jul-2015

348 views

Category:

Technology


0 download

DESCRIPTION

試しにアップロード。 NLP2012で発表(pdf版)。 修士論文執筆の傍らでやってた趣味的研究。 あわよくば,発展させて論文化できたらいいな( ´∀`)

TRANSCRIPT

Page 1: NLP2012

C1-3

Wikipediaのエントリ構造と編集距離を用いた専門用語抽出の試み

金沢大学

中山 祐輝

2012/03/14(水)

NLP2012

Page 2: NLP2012

はじめに:専門用語の自動抽出の必要性

• 最新の辞書を構築する時間コストを削減

• 専門用語を指標とするアプリケーション(情報理解支援システム)

– Y. Nishihara et al. 2005

• 出現頻度と難しさを指標としている

– M. Nakatani et al. 2009

• 出現頻度

• 専門用語自動抽出の技術が求められている

2

Page 3: NLP2012

従来の専門用語自動抽出手法

• 対象コーパスを解析

– FLR[中川:03],C-value[Frantzi et al.:2000],UC

• 対象コーパスと異なる分野のコーパスを解析

– MDP[久保:10] ,Wikipediaを用いた手法[中谷:2008]

• 対象分野のコーパスの出現頻度や出現パターン解析する手法が主流である

– 一般名詞が抽出されやすくなり,精度が低下する

– 出現頻度が低い用語も含まれ,再現率が低下する

3

Page 4: NLP2012

本発表の目的

• 適合率低下の問題

– ある用語がどのようなカテゴリに属しているかは考慮されていない

– ある用語のカテゴリ情報を考慮すればよいのでは

• 再現率低下の問題

– 扱われにくい専門用語が含まれている

– 他の専門用語と文字列で類似しているのでは

4

Wikipediaのエントリ構造(カテゴリ,リダイレクト)と編集距離を用いて専門用語抽出を試みる

既存の手法と比較し,改善点を見つける

Page 5: NLP2012

比較対象の従来手法:FLR

• 複合名詞CN(例.ネットワークアドレス)のスコア付けを行う

– 単名詞に分割(ネットワーク,アドレス)

– 左右に連接する用語の種類と出現頻度を統計量

5

ネットワーク

Ethernet(2)

IP(3)

アドホック(1)

コンピュータ(4)

トポロジー(2)

ドメイン(2)

プロトコル(1)

アドレス

MAC(4)

IP(5)

空間(1)

割り当て(2)

左連接 右連接

Page 6: NLP2012

提案手法の流れ

• ある専門分野qのコーパス中に出現する専門用語を抽出する

6

分野qのカテゴリ内の記事におけるアンカーテキスト集合Wqを抽出

対象コーパスとTqの類似度計算

分野qのカテゴリグラフを構築,リ

ダイレクトにより専門用語候補集合Tqを抽出

専門分野q

の専門用語

適合率向上

再現率向上

Page 7: NLP2012

適合率の向上:アンカーテキスト集合Wq

• カテゴリ集合Cqの記事集合Aq内のアンカーテキスト集合Wqはqの専門用語が多く含まれる

7

カテゴリ集合Cq

記事集合Aq

C1

C2

Cn

・・・

q

・・・

t1

t2

t3

t4

アンカーテキスト集合Wq

Page 8: NLP2012

適合率の向上:カテゴリグラフの構築

• Wqの用語の属するカテゴリがカテゴリグラフGq内のノードであるかを判別

– カテゴリグラフ:qをルートノードとするカテゴリ情報を階層化したもの(depth:深さ3と設定)

– エントリ情報はWik-IE[森:09]を利用 8

Category: コンピュータ

ネットワーク

C1

C8 C5

C3 C2

C6 C4 C7

アンカー

テキスト集合Wq

2002年(カテゴリ:2002年)

旅行代理店

(カテゴリ:旅行,…)

阪神淡路大震災

(カテゴリ:日本の地震,…)

IPアドレス

(カテゴリ:インターネットのプロトコル)

専門用語

候補集合Tq

カテゴリグラフGq

depth

crate≧α

Page 9: NLP2012

適合率の向上:リダイレクト機能

• ある記事が参照されたときに,別の記事に対して転送するための機能

–同義語や類義語などに設定される

–表記の揺らぎに対応できる

9

専門用語

候補集合Tq

LAN Local Area

Network redirect!!

新規登録

Page 10: NLP2012

提案手法の流れ

• ある専門分野qのコーパス中に出現する専門用語を抽出する

10

分野qのカテゴリ内の記事におけるアンカーテキスト集合Wqを抽出

対象コーパスとTqの類似度計算

分野qのカテゴリグラフを構築,リ

ダイレクトにより専門用語候補集合Tqを抽出

専門分野q

の専門用語

適合率向上

再現率向上

Page 11: NLP2012

再現率向上:専門用語候補集合Tqの問題点

• 対象コーパスと専門用語候補集合Tqの比較

– 適合率の高い用語集合

• 分野qのコーパスにも同一の用語が含まれている

• コーパスに出現する全ての専門用語がTqに含まれているとは限らない

– Wikipediaの網羅性,表記の揺らぎ

11

複合名詞

集合

専門用語を抽出したいコーパス

専門用語

候補集合Tq

形態素解析 比較

しかし

Page 12: NLP2012

再現率向上:専門用語に類似する用語

• コーパスに出現する全ての専門用語がTqに含まれているとは限らない

• Tq内の用語と文字列で類似している用語は出現するのでは

• Tqに類似している複合名詞を専門用語なのでは 12

・IEEE802.3ae

・HTTPS

・無線LANスイッチ

対象分野コーパス

複合名詞集合Nq

・IEEE802.11

・HTTP

・無線LANアクセスポイント

専門用語

候補集合Tq

類似

Page 13: NLP2012

再現率向上:編集距離に基づく類似度計算

• 文字単位のリストW=w1,w2,w3,…,wn

• W1,i∈Nq, W2,j∈Tqに対する用語間の距離Dist(W1,i, W2,j)

• W1,i =IPv6,W2,j=IP電話の場合

13

Page 14: NLP2012

再現率向上:複合名詞のスコア付け

• W1,i∈Nqに専門用語性としてのスコアを付加する

– 全てのW2,j∈Tqに対してDist(W1,i, W2,j)を計算

– スコアが低いほど分野qの専門用語候補となる

– N=10と設定

14

… …

Dist(W1,i, W2,j)

距離が近いtop NのDist(W1,i, W2,j)の

平均値をW1,iのスコアとする

Page 15: NLP2012

評価実験:正解用語の作成1

• 専門用語を抽出する対象コーパス

– IT用語辞典「e-words」

• コンピュータネットワーク

• プログラミング

• 正解集合の作成

–用語の見出しのうち語義文に出現する用語の集合

15

見出し

語義文

Page 16: NLP2012

正解用語

集合

評価実験:正解用語の作成2

16

• 見出しの部分一致用語も正解用語とする

– 見出し語に「UTP」が含まれているとき

• UTPケーブルも正解用語とする

複合名詞

集合

形態素解析

見出しに

ある用語か?

見出し

語義文

照合

Page 17: NLP2012

評価実験:評価方法

• スコア順にソートしたときのn(n:1~N)語までのF値

17

… スコア

複合名詞

集合

提案手法,FLR

でスコア付け

提案手法

FLR 正解用語集合に含まれる

正解用語集合に含まれない スコア

1 2 3 N-2 N-1 N …

スコア順にソート

Page 18: NLP2012

実験結果

18

• 提案手法はFLRよりも優れた精度

– コーパスの規模が大きくなるとFLRは精度がよくなる

Page 19: NLP2012

実験結果:スコア上位の用語

• ジャンル:コンピュータネットワーク

19

提案手法 FLR

従来手法より比べ適合率・再現率が向上

Page 20: NLP2012

実験結果:スコア上位の用語

• ジャンル:プログラミング

20

提案手法 FLR

Page 21: NLP2012

考察:他手法の性能

• FLR

– 出現頻度がベースとなっている

– ストップワードを登録する必要がある

• アンカーテキスト集合Wqの適合率・再現率

– ジャンル:ネットワーク

• 再現率=1072/1759=60.94[%]

• 適合率=1072/4000=26.80[%]

– ジャンル:プログラミング

• 再現率=353/380=92.89[%]

• 適合率=353/3525=10.01[%]

21

Page 22: NLP2012

考察:パラメータ変動に対する精度

• スコア付けでtop Nの平均値がα以下の用語を専門用語とみなした場合

• N個の平均値をとることでF値が上がっている 22

α recall(N=1) precision(N=1) recall(N=10) precision(N=10) recall(N=20) precision(N=20) recall(N=50) precision(N=50)

100 0.9454 0.4140 0.8738 0.4826 0.7970 0.4902 0.5253 0.4534

200 0.9528 0.4131 0.8931 0.4819 0.8374 0.4933 0.6282 0.4870

300 0.9534 0.4133 0.9016 0.4790 0.8601 0.4938 0.6720 0.4933

400 0.9534 0.4133 0.9096 0.4778 0.8738 0.4920 0.7453 0.5085

500 0.9534 0.4133 0.9193 0.4752 0.8835 0.4907 0.7817 0.4987

600 0.9534 0.4133 0.9255 0.4716 0.8943 0.4822 0.8175 0.4991

700 0.9534 0.4133 0.9323 0.4618 0.9096 0.4778 0.8516 0.4937

800 0.9534 0.4133 0.9375 0.4555 0.9255 0.4716 0.8835 0.4907

900 0.9534 0.4133 0.9483 0.4315 0.9375 0.4540 0.9193 0.4752

999 1.0000 0.2860 1.0000 0.2950 1.0000 0.2860 1.0000 0.2860

Page 23: NLP2012

考察:提案手法の有効性

• 提案手法

– Wikipediaから得られたカテゴリが知識としてある

⇒適合率の向上につながった

⇒ストップワードを事前に登録する必要がない

– 正解用語数が大きいコーパスは再現率が向上した

23

Page 24: NLP2012

考察:提案手法の改善点

• 複合名詞を切り出して正解用語とした

–正解用語に登録されていれば切り出せる

• 用語:CLR)

–正解用語に登録されていれば切り出せる

• IPマスカレード機能

–切り出し方法を模索する必要がある

• 処理時間

– Wikipediaを用いた手法[中谷:2008]

• クエリqの専門用語を数秒程度で抽出できる

–提案手法

• 数百万件のレコードを扱うためデータベースのアクセスがボトルネック

24

専門用語候補

CLR IPアドレス

Page 25: NLP2012

おわりに

• 提案手法

–語彙のカテゴリを考慮する

–出現頻度に依存しにくい

• 今後の展望

–改善点を克服する

– コーパスの種類を変える・規模の拡大

• ブログ・レビュー等の記事からの抽出

• NTCIRのTMRECテストコレクション

25

Wikipediaのエントリ構造(カテゴリ,リダイレクト)と編集距離を用いて専門用語抽出を試みる