超大規模ウェブコーパスを用いた分布類似度計算

超大規模ウェブコーパスを用いた分布類似度計算09/03/05京都大学柴田知秀　黒橋禎夫

背景• 大規模コーパスを利用することにより言語処理の精度が向上– スペル訂正 (100 億語 ) [Lin and R.Curran 06]– 言語モデルの機械翻訳での利用 (2 兆語 ) [Brants et

al. 07]• 分布類似度計算で大規模コーパスの利用– 6,400 万語 [Lin98]– 20 億語 [Curran04]– 4,000 万 Web ページ [ 相澤 08]

• 本研究ではウェブ 1 億ページ (250 億語 ) を利用

概要• 大規模コーパスを利用することによって分布類似度計算の精度が向上するか– どれくらいの規模があれば十分か

• 曖昧性のある係り受けを除外することによる効果• 複合名詞の類似度計算• どのコンテキストが有効か

目次• 分布類似度– コンテキスト抽出– 分布類似度計算

• 実験– 類似度尺度– 曖昧性のある係り受けの除外– 複合名詞の類似時計算– どのコンテキストが有効か

分布類似度• 意味の似た語は似たコンテキストで出現

[Firth57] 医師医者～の診察 8225 495

～に相談 4374 1359

～の許可 1474 254

～が増える 354 134

～を志す 277 173

～の不養生 0 25

類義語類似度主治医 0.437

ドクター 0.395

医者 0.382

教員 0.374

カウンセラー

0.368

獣医 0.350「医師」の類義語0.382

コンテキスト抽出• 3 つ組 (w, r, w’) を抽出– ある語 w が他の語 w’ と関係 r で出現している– 関係 r として係り受け関係がもっともよい

[Lin98], [Curran04]• 例 : 医者が診察する → ( 医者 , ガ , 診察 )

– (r,w’) の組を語 w の共起要素と呼ぶ• r として以下の格要素を考える– ガ , ヲ , ニ , カラ , ト , ヘ , マデ , ヨリ , ノ

曖昧性のある係り受けを除外• 格フレーム構築時に曖昧性のある係り受けを除外 [Kawahara and Kurohashi 01]

パンを焼いたけれども、…

パンを焼いた余熱を利用して、…？

語 w の単位• 多くのシステムでは複合名詞の分布類似度を扱っていない [Curran04]– 人手によるシソーラスの 25% は複合名詞– 複合名詞の分布類似度を計算したが精度が低下

[Ingram and Curran07]• 語 w の単位として単名詞と複合名詞を考える– 複合名詞は文節内で最長のもの– 例 : 携帯電話を購入した

• 単名詞 : 電話• 複合名詞 : 携帯電話

分布類似度計算• 以下の二つの function に分解 [Curran04]– Weight function– Measure function

医師医者～の診察 8225 11.4 495 8.7

～に相談 4374 8.1 1359 7.3

～の許可 1474 5.3 254 3.5

～が増える 354 0 134 0.9

～を志す 277 5.9 173 6.3

Weight function (wgt)

FREQ

MI

MI’

Bβ 1 if MI > β; otherwise 0

),( cwf

)()(),(logcPwPcwP

)()(),(

1))(*,,*),(min())(*,,*),(min(

1),(),(

cPwPcwP

cfwfcfwf

cwfcwf

Measure functionCOSINE

LIN98

JACCARD

SIMPSON

JACCARD-SIMPSON

1/2 (JACCARD + SIMPSON)

22

21

21

,*)(*,*)(

,*)(,*)(

wwgtwwgt

wwgtwwgt

,*)( 2,*)( 1

,*)(,*)( 21

21

21

,*)(,*)(

,*)(,*)(

ww

ww

wwgtwwgt

wwgtwwgt

,*)(,*)(,*)(,*)(

21

21

wwww

,*))(,*),min((,*)(,*)(

21

21

wwww

目次• 分布類似度– コンテキスト抽出– 分布類似度計算

• 実験– 類似度尺度– 曖昧性のある係り受けの除外– 複合名詞の類似時計算– どのコンテキストが有効か

実験• 日本語 1 億ページ [Shinzato et al. 08]– 60 億文を uniq した 16 億文 (250 億語 ) を利用– 以下の 5 つのコーパスサイズ ( 文数 ) で実験• 6.3M, 25M, 100M, 400M, 1.6G

• 形態素解析・構文解析 : 150CPU で 1 週間• 3 つのコンテキストベクトルを作成 (1 日弱 )– (i) 単名詞 , 曖昧性のある係り受けあり– (ii) 単名詞 , 曖昧性のある係り受けなし– (iii) 複合名詞 , 曖昧性のある係り受けなし

評価セット [ 相澤 08]

エイズや肝炎などの病気

プリンターや複写機などの消耗品タスク I News: 685 表現 , Web: 25,740 表現タスク II News: 876 表現 , Web: 2,019 表現

寄与(A) とシソーラスのカテゴリが異なり、 Web での頻度が同程度

(A) (B) (C) (D)

○

○

○

×

サボテン

タスク I

タスク II

○×タスク I

タスク II××

類似度尺度評価• 閾値を 0.01 から 0.4 まで 0.01 刻みで動かして F-measure の最大値を求めた

尺度 Weight Measure タスク I タスク IINews Web News Web

B-S Bβ Simpson 0.985 0.973 0.807 0.876B-J Bβ Jaccard 0.981 0.945 0.743 0.805B-SJ Bβ SJ 0.988 0.975 0.817 0.878Lin98 MI Lin98 0.985 0.949 0.748 0.805Lin02 MI’ Cosine 0.984 0.955 0.758 0.818

Aizawa08 0.982 0.971 0.752 0.862

※ β=2 とした

コーパスサイズと精度の関係（タスク I: Web)

0.4

0.5

0.6

0.7

0.8

0.9

1

6.3M 25M 100M 400M 1.6G

F値

コーパスサイズ (文数)

B-SB-JB-SJLin98Lin02

曖昧性のある係り受けの有無 (Web)

0.4

0.5

0.6

0.7

0.8

0.9

1

6.3M 25M 100M 400M 1.6G

F値


タスクI (曖昧性のある係り受けなし)

タスクI (曖昧性のある係り受けあり)

タスクII (曖昧性のある係り受けなし)

タスクII (曖昧性のある係り受けあり)

0.4

0.5

0.6

0.7

0.8

0.9

1

6.3M 25M 100M 400M 1.6G

F値


タスクI (単名詞)

タスクI (複合名詞)

タスクII (単名詞)

タスクII (複合名詞)

語の単位 : 単名詞と複合名詞 (Web)改善例 :　正解 : ○ 　神経衰弱　ゲーム　正解 : × ゴルフコース大学

コンテキストの有効性評価格タスク I タスク II

News Web News Web

- ガ 0.988 0.971 0.817 0.870

- ヲ 0.985 0.970 0.813 0.873

- ニ 0.987 0.971 0.810 0.871

- カラ

0.987 0.971 0.816 0.873

- ト 0.987 0.971 0.811 0.872

- ヘ 0.988 0.971 0.816 0.872

- マデ

0.988 0.971 0.817 0.872

- ヨリ

0.987 0.971 0.816 0.872

- ノ 0.982 0.966 0.762 0.867

全て 0.988 0.971 0.816 0.872

+ デ 0.988 0.971 0.807 0.870

誤り分析• タスク I は自動生成したデータなので、類義語でないものを含む–銀行や空港 ( などの場所 )–記憶や学習 ( などの脳機能 )

• 多義語–豚　マウス– ヘリウム　ネオン

• 形態素解析誤り– もみすり → もみ ( 動詞 ) すり ( 動詞 )– つくばい → つく ( 動詞 ) ばい ( 名詞 )

～に注射～の胎児‥～でドラッグ～のホイール～の原子～に変わる

‥～を消灯～が誘惑

まとめ• 超大規模コーパスを用いた分布類似度計算– コーパスサイズを増やすことによって精度が向上することを確認– 実験で用いたコーパスサイズでほぼ十分– 曖昧性のある係り受けを除外– 複合名詞の分布類似度

• 今後の予定– 曖昧性解消の導入– 動詞の類似度計算– 計算済み類似度データベースを公開予定– 分布類似度を用いて構築した格フレームを公開予定

超大規模ウェブコーパスを用いた 分布類似度計算

Documents

超大規模ウェブコーパスを用いた分布類似度計算