統計的手法による...

69
進藤 裕之 NTT コミュニケーション科学基礎研究所 2012.12.19 最先端構文解析とその周辺@統計数理研究所 統計的手法による 文法モデリングと構文解析

Upload: hakhanh

Post on 07-Feb-2018

227 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

進藤 裕之

NTT コミュニケーション科学基礎研究所

2012.12.19

最先端構文解析とその周辺@統計数理研究所

統計的手法による

文法モデリングと構文解析

Page 2: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

全体構成

Part1. 統計的手法による構文解析

Part2. 確率的文法モデリング

Part3. 確率的文法モデルの学習

Part4. 現在の到達点と今後の展開

Page 3: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

Part1. 統計的手法による構文解析

Page 4: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

構文解析プログラム

I have a pen

入力: 文 出力: 構文木

自然言語処理における構文解析

統語構造 I ahave

S

NP VP

VP NP

pen

Page 5: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

色々な種類の構文木がある

言語学的考慮 + 計算機での扱いやすさ + α

I ahave

S

NP VP

VP NP

pen

have

I pen

a

・文脈自由文法

・木置換文法

・依存文法(係り受け)

・木接合文法

・範疇文法

文法の選択基準:

Page 6: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

構文解析プログラム

I have a pen

入力: 文 出力: 構文木

自然言語処理における構文解析

I ahave

S

NP VP

VP NP

pen

I ahave

S

NP VP

VP NP

penI ahave

S

NP VP NP

pen

確率:0.001 確率:0.3

I ahave

S

VP NP

pen

確率:0.02

統語構造CYK法

Page 7: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

統計的手法による構文解析

P(構文木A) = ?

確率的文法モデル

the

NP

NN

部分木を組み合わせて“P(構文木)”を計算する

S

NP VP

I

確率:0.1 確率:0.03

love

VP

VP NP

確率:0.002

I ahave

S

NP VP

VP NP

pen

Page 8: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

統計的手法による構文解析

構文解析プログラム

I have a pen

the

NP

NN

I love

S

NP VP

VP NP

you

構文木コーパス(数万文)

S

NP VP

I

確率:0.1 確率:0.03

love

VP

VP NP

確率:0.002

確率的文法モデル

I ahave

S

NP VP

VP NP

pen

Page 9: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

構文解析プログラムの作成へ向けて

Q1. 構文木・部分木の確率を具体的に計算するには?

Part2. 確率的文法モデリング

Q2. 構文木コーパスから部分木を推定するには?

P(構文木) = ?

Part3. 確率的文法モデルの学習

Page 10: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

統計的手法による構文解析

構文解析プログラム

I have a pen

the

NP

NN

構文木コーパス(数万文)

S

NP VP

I

確率:0.1 確率:0.03

love

VP

VP NP

確率:0.002

確率的文法モデル

Q1

Q2

I love

S

NP VP

VP NP

you

I ahave

S

NP VP

VP NP

pen

Page 11: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

Part2. 確率的文法モデリング

Page 12: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

例1: 確率木置換文法

例2: 確率木接合文法

確率的文法モデル

P(構文木) = ?

Page 13: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

木置換文法

S

Page 14: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

S

VPNP

VBP

love

NP

S

木置換文法

部分木

Page 15: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

S

VPNP

VBP

love

NP

木置換文法

Page 16: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

I

PRP

S

VPNP

VBP

love

NP

木置換文法

Page 17: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

I

PRP

S

VP

VBP

love

NP

木置換文法

Page 18: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

S

VP

VBP

love

NP

NP

I

PRP

木置換文法

Page 19: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

木置換文法

Page 20: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率木置換文法

NP

PRP

you

NP

I

PRP

S

VPNP

VBP

love

NP

部分木1

部分木2

部分木3

P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)

Page 21: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率木置換文法

NP

PRP

you

NP

I

PRP

S

VPNP

VBP

love

NP

P(部分木)=?

部分木1

部分木2

部分木3

Page 22: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

部分木の確率モデル

S

VPNP

VBP

love

NP

確率補間(スムージング)

S

VPNP VP

VBP NPVBP

love

部分木 単純化した部分木

補間

← 0になる可能性

Page 23: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

部分木の確率モデル

S

VPNP

VP

VBP NP

単純化した部分木 さらに単純化した部分木

S

NP

S

VP

VP

VBP

VP

NP

補間

補間

← 0になる可能性

Page 24: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率木置換文法

NP

PRP

you

NP

I

PRP

S

VPNP

VBP

love

NP

P(構文木)=0.024

部分木1

部分木2

部分木3

Page 25: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率木置換文法

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

0

0

0 1

0

0

木置換文法の情報をノードに埋め込む

NP

PRP

you

S

VP

VBP

love

NP

NP

NP

I

PRP

Page 26: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率的木置換文法

潜在変数

構文木

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

= 観測データ

潜在変数を含む確率モデルになる

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

0

0

0 1

0

0

Page 27: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

例1: 確率木置換文法

例2: 確率木接合文法

= 確率木置換文法 + 部分木の挿入操作

Page 28: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

確率木接合文法

Page 29: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

NP

DT N

girl

確率木接合文法

Page 30: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girl

確率木接合文法

Page 31: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girl

DT

the

確率木接合文法

Page 32: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girlthe

確率木接合文法

Page 33: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girlthe

N

JJ

pretty

N

挿入

確率木接合文法

Page 34: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girlthe

N

JJ

pretty

N

挿入

確率木接合文法

Page 35: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

girlthe

N

JJ

pretty

N

挿入

確率木接合文法

Page 36: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

the

N

JJ

pretty

N girl

挿入

確率木接合文法

Page 37: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT N

the

N

JJ

pretty

N girl

挿入

確率木接合文法

Page 38: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT

girl

the

N

JJ

pretty

N

挿入

確率木接合文法

Page 39: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT

girl

the

N

JJ

pretty

N

挿入

確率木接合文法

Page 40: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

DT

girl

the

N

JJ

pretty

N

確率木接合文法

Page 41: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

部分木1

部分木2

部分木3

P(構文木)=P(部分木1)×P(部分木2)×P’(部分木3)

確率木接合文法

NP

DT N

girl

N

JJ

pretty

N

DT

the

挿入用の確率分布

Page 42: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

木接合文法の情報をノードに埋め込む

確率木接合文法

NP

DT N

girl

N

JJ

pretty

N

DT

the

NP

DT

girl

the

N

JJ

pretty

N

1

0

2

30

Page 43: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率木接合文法

潜在変数

構文木

= 観測データ

潜在変数を含む確率モデルになる

NP

DT

girl

the

N

JJ

pretty

N

1

0

2

30

NP

DT

girl

the

N

JJ

pretty

N

Page 44: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

例1: 確率木置換文法

例2: 確率木接合文法

例3: 確率範疇文法

Page 45: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

I ahave

S

NP S\NP

(S\NP)/NP NP

pen

確率範疇文法

P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)

P(部分木): 対数線形モデルなど

Page 46: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

範疇文法の情報をノードに埋め込む

確率範疇文法

I ahave

S

NP S\NP

(S\NP)/NP NP

pen I ahave

S

NP NP

VP NP

pen

1

0

0

2 0

Page 47: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率範疇文法

潜在変数

構文木

= 観測データ

潜在変数を含む確率モデルになる

I ahave

S

NP NP

VP NP

pen

1

0

0

2 0

I ahave

S

NP NP

VP NP

pen

計算機が推定

Page 48: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

例1: 確率木置換文法

例2: 確率木接合文法

例3: 確率範疇文法

例4: 確率Ⅹ文法 → 同様に潜在変数モデル化可能

Page 49: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

(参考)シンボル細分化木置換文法

S-0

VP-2NP-0

VBP-0

love

NP-1NP-0

I

PRP-0 NP-1

PRP-0

you

S

VPNP

VBP

loveI

PRP NP

PRP

you

構文木 SR-TSG

木置換文法 + シンボル細分化

[shindo et al. ACL 2012]

Page 50: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

Part2. まとめ

1. P(構文木)=P(部分木1)×P(部分木2)×……

2. 文法モデルを選ぶ/自分で作る

3. 構文木に含まれていない情報 → 潜在変数

4. 潜在変数の推定は計算機に任せる

Part3. 確率的文法モデルの学習

Page 51: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

Part3. 確率的文法モデルの学習

Page 52: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率的文法モデルの学習

P(構文木)を最大にする潜在変数を求める

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

P(構文木)=P(部分木1)×P(部分木2)×P(部分木3)

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

0

0

0 1

0

0

Page 53: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

確率的文法モデルの学習

・ マルコフ連鎖モンテカルロ法 [Johnson 07]

・ 期待値最大化(EM)法 [Matsuzaki 05] [Petrov 06]

・ 変分ベイズ法 [Liang 07] [Coehn 10]

木構造データの潜在変数を推定する方法

Page 54: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

0

0

0

0 0

0

0

ギブスサンプリング

Page 55: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

0

1

0

0 0

0

0

ギブスサンプリング

Page 56: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

0 0

0

0

ギブスサンプリング

Page 57: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

0 0

0

0

ギブスサンプリング

Page 58: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

0 0

0

0

ギブスサンプリング

Page 59: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

1 0

0

0

ギブスサンプリング

Page 60: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

1 1

0

0

ギブスサンプリング

Page 61: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

NP

PRP

you

NP

I

PRP

S

VP

VBP

love

1

1

0

1 1

0

0

ギブスサンプリング

Page 62: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

ギブスサンプリングは上手くいかない

確率

ブロック化サンプリング

S

VPNP

S

VPNP

S

VPNP0

0 0

1

1

1 0

0 0

Page 63: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

ブロック化サンプリング

文の全ノードの潜在変数を一度に更新する[Johnson 07]

S

VPNP

I

PRP VBP

love

NP

PRP

you

S

VPNP

I

PRP VBP

love

NP

PRP

you

0

1 000 1

0

動的計画法

Page 64: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

Part4. 現在の到達点と今後の展開

Page 65: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

現在の到達点

Berkeley parser[Petrov et al. 06]

Charniak parser[Charniak & Johnson 05]

Berkeley + PoE[Petrov 10]

SR‐TSG + PoE[shindo 2012]

SR‐TSG91.1

92.4

91.8

91.4

構文木コーパス: 4万文言語: 英語

90.1

Page 66: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

現在の到達点

構文木コーパスが4万文あれば,新聞記事のデータ(英語)に対して,精度は90%を超える

・問題点:

・新聞記事以外のデータは精度が低い

・Twitterなどの崩れた文は解析に失敗しやすい

Page 67: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

教師あり学習から教師なし学習へ

the

NP

NN

構文木コーパス(数万文)

S

NP VP

I

確率:0.1 確率:0.03

love

VP

VP NP

確率:0.002

確率的文法モデル

I love

S

NP VP

VP NP

you

Page 68: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

教師あり学習から教師なし学習へ

the

NP

NN

普通の文(数億文以上)

S

NP VP

I

確率:0.1 確率:0.03

love

VP

VP NP

確率:0.002

確率的文法モデル

I love you

Page 69: 統計的手法による 文法モデリングと構文解析daichi/workshop/2012-parsing/parsing2012-shindo.pdf · 全体構成 Part1. 統計的手法による構文解析 Part2

言語処理以外への展開

・音楽データの解析

‐ 木置換文法 [Bod 02]‐ 組合せ範疇文法 [Granroth‐Wilding 12]

・バイオインフォマティクス(RNAの解析)

‐ 文脈自由文法 [Eddy & Durbin 94]‐ 木接合文法 [Dowell 04]