ch2010slide01

37
じんもんこんシンポジウム 2010 1 八代集用語のモデリングシステム 山元啓史 東京工業大学大学院社会理工学研究科 カリフォルニア大学サンディエゴ校環太平洋大学院大学 December 12th 2010

Upload: hilo-yamamoto

Post on 13-Jul-2015

323 views

Category:

Business


0 download

TRANSCRIPT

じんもんこんシンポジウム 2010 1

八代集用語のモデリングシステム

山 元 啓 史東京工業大学大学院社会理工学研究科

カリフォルニア大学サンディエゴ校環太平洋大学院大学

December 12th 2010

じんもんこんシンポジウム 2010 2

本論の主旨(1)

語彙とは「語の集まり」↓

集合論...ネットワークによる分析↓

卓立(salience)・相対的な差分

じんもんこんシンポジウム 2010 3

本論の主旨(2)

卓立(salience)・相対的な差分↓

2語の対立/類似の分析↓

2語の周辺語彙の演算システム

じんもんこんシンポジウム 2010 4

語彙論的研究とは何か?

語と語の

「結びつき」「まとまり」

に関する研究

じんもんこんシンポジウム 2010 5

整理の仕方

「結びつき」「まとまり」↓

何をどう整理すればよいのか?

→語彙の研究方法上の問題点は数々

じんもんこんシンポジウム 2010 6

語の単位の問題/多義語の問題

語の単位の問題(西尾, 1988)

「リュウグウノオトヒメノモトユイノキリハズシ」

異形同語(森, 1998)

「たづ(田鶴)歌語/つる(鶴)日常語」

→多豆・多津・多都・多頭

「之努比鶴鴨(しの

偲ひつるかも)」(万葉巻一六)

同形異語(水谷, 1983)

「年月日」の上位語の「時」⇐⇒「日」の下位語の「時」

じんもんこんシンポジウム 2010 7

和歌の語彙分析

• 古今集データベースによる歌語の視覚化(山元 2005)

• 歌ことばの可視化とコノテーションの抽出(山元 2006)

• 和歌のための品詞タグづけシステム(山元 2007)

• ネットワークによる歌ことばのモデリング(山元 2007)

• モデリングによる歌ことばの変遷と分析(山元 2007)

• 分類コードつき八代集用語のシソーラス(山元 2009)

• 和歌解析用MeCab辞書の開発(山元 2009)

• ブーリアン演算によるモデルの解析(山元 2010)

じんもんこんシンポジウム 2010 8

八代集シソーラスの開発

• 任意サイズのトークンの取り出し

• 表記の違いの吸収/区別

• 共出現パターンの重み付け計算

じんもんこんシンポジウム 2010 9

八代集シソーラスの開発(1)谷風にとくこほりのひまごとにうちいづる波や春の初花

01:000012:0001 B00 BG-01-5151-05-1300 谷風 たにかぜ 谷風 02

01:000012:0001 C00 BG-01-5240-19-0100 谷 たに 谷 02

01:000012:0001 C01 BG-01-5151-01-0100 風 かぜ 風 02

01:000012:0002 A00 BG-08-0061-05-0100 に に に 61

01:000012:0003 A00 BG-02-1550-05-0200 解く とく 解く 47

01:000012:0003 A10 BG-02-3060-09-0400 解く とく 解く 47

01:000012:0004 A00 BG-01-5130-11-0101 氷 こほり 氷 02

01:000012:0005 A00 BG-08-0061-07-0100 の の の 61

01:000012:0006 A00 BG-01-1840-04-0100 隙 ひま 隙 02

01:000012:0006 A10 BG-01-3320-10-0102 隙 ひま 隙 02

01:000012:0007 B00 BG-01-1613-01-0200 毎 ごと 毎 28

01:000012:0007 C00 BG-03-1000-09-1200 毎 ごと 毎 00

01:000012:0008 A00 BG-08-0061-05-0100 に に に 61

じんもんこんシンポジウム 2010 10

八代集シソーラスの開発(2)谷風にとくこほりのひまごとにうちいづる波や春の初花

01:000012:0009 A00 BG-02-1563-01-0101 打つ うつ 打つ 47

01:000012:0009 A10 BG-02-3830-05-0500 打つ うつ 打つ 47

01:000012:0010 A00 BG-02-1210-01-0304 出づ いづ 出づ 47

01:000012:0010 A10 BG-02-1530-01-0101 出づ いづ 出づ 47

01:000012:0010 A20 BG-02-1540-04-0601 出づ いづ 出づ 47

01:000012:0011 A00 BG-01-5155-01-0100 波 なみ 波 02

01:000012:0012 A00 BG-08-0065-14-0100 や や や 65

01:000012:0013 A00 BG-01-1624-02-0100 春 はる 春 02

01:000012:0014 A00 BG-08-0061-07-0100 の の の 61

01:000012:0015 B00 BG-01-5810-08-1400 初花 はつはな 初花 02

01:000012:0015 C00 BG-03-1650-06-0200 初 はつ 初 28

01:000012:0015 C01 BG-01-5530-12-0100 花 はな 花 02

じんもんこんシンポジウム 2010 11

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

じんもんこんシンポジウム 2010 12

グラフによる分析

• 共出現パターンとグラフ理論

雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ

• 共出現パターンの重み付け計算

じんもんこんシンポジウム 2010 13

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

じんもんこんシンポジウム 2010 14

グラフによる分析

• 共出現パターンとグラフ理論

• 共出現パターンの重み付け計算

w(t, d) = (1+log tf(t, d)) · idf(t) (1)

cw(t1, t2, d) = (1+log ctf(t1, t2, d)) · cidf(t1, t2) (2)

cidf(t1, t2) =√

idf(t1) · idf(t2) (3)

idf(t) = logN

df(t)(4)

(1)...Manning, 1999(4)...Sparck Jones, 1972

じんもんこんシンポジウム 2010 15

鶯と時鳥の統合モデル

鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

毎朝

野辺8

鴬17

6

10

青柳

4

挿頭す

4

縫う 6春

88

10

立田

10

35

花 138

とまる

15

折る

22

泣く

29

鳴く145

まだ

30

8

時鳥

39

一声

8

五月

42

音羽

20

声174

110261

鳴き声

21

五月雨

14

聞く

69

聞える

37

去年

10

あやめ草

7

梢9

12

20

20

11

今朝

29

9

19

越える10

惜しむ

10

木高い

4

10

近く 6

6226

条理

8

6

案内

誘い出す4

9

送る

4

別れ

7

4

7

2010

春霞

9

立つ

10

夏山

11

ふりしぼる

6

10

56

23

44

山時鳥

9

隠れる

76

10

散る

52

10

触れる

10

10

添える

5

羽ばたく6

6

借りる

19

何時の間に

9

梢高い

7

7

はるか

5

じんもんこんシンポジウム 2010 16

やりたいこと

「まとまり」を系統的/網羅的に分析するには?

じんもんこんシンポジウム 2010 17

やりたいこと

グラフ図形→数理的表現論理和,論理差,論理積(ブーリアン演算)

↓2語周辺語彙の演算システム

じんもんこんシンポジウム 2010 18

集合演算

A

B

統合/論理和

A

B

交差/論理積

A

B

差分A/論理差

A

B

差分B/論理差

A

B

排他/否定論理積

じんもんこんシンポジウム 2010 19

方法:材料

• 国文学研究資料館開発正保版本「二十一代集」

• 長歌を除く 9484首の和歌テキスト

(シソーラスの作成はすべての和歌に対して)

• kh で単位分割 (短単位)し、

• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。

• 八代集シソーラスの開発→分類語彙表を利用

• 一般語 (48732)、地名 (1408)、人名 (49)

じんもんこんシンポジウム 2010 20

操作の実際

じんもんこんシンポジウム 2010 21

キーの入力

じんもんこんシンポジウム 2010 22各種設定画面

じんもんこんシンポジウム 2010 23共出現テーブル

じんもんこんシンポジウム 2010 24グラフモデルの出力「梅/桜」

じんもんこんシンポジウム 2010 25グラフモデルの出力「梅/鶯」

じんもんこんシンポジウム 2010 26和歌一覧の出力

じんもんこんシンポジウム 2010 27

2語の共有ノードの違い

•コアノード自体の共有

•2語の共有ノード数

→「鶯」と「桜」/「梅」

じんもんこんシンポジウム 2010 28

「鶯/桜」(a)の統合と交差

「鶯/桜」(a)の統合と交差

じんもんこんシンポジウム 2010 29

「鶯/梅」(b)の統合と交差

「鶯/梅」(b)の統合と交差

じんもんこんシンポジウム 2010 30

歌集で変化する共有ノード

「桜」と「吉野」

•古今集における「桜/吉野」

•新古今集における「桜/吉野」

→「吉野」と「雪」

じんもんこんシンポジウム 2010 31

古今集「桜/吉野」の交差

古今集「桜/吉野」の交差

じんもんこんシンポジウム 2010 32

新古今集「桜/吉野」の交差

新古今集「桜/吉野」の交差

じんもんこんシンポジウム 2010 33

おわりに

• 任意2語の検索と共有ノードの作図を可能にするシステムを開発した。

• 相対的特徴は「2語」いうように語を軸とした比較で捉えるだけでなく、任意の2つの視点というような、より抽象的な視点で、処理できるシステムに改良していきたい。

• 従来、用語解説に当たられていない特徴語をどうとりあつかうか。

→「八重」

じんもんこんシンポジウム 2010 34グラフモデルの出力「山吹/かはづ」

山吹 (44/44/44, 5.37) cw > 2.50 K:1-8 U:1 L:0.00 M:7 Z:1.00

山吹

井手

12

蛙10

咲く 12

神無備川

2

移ろふ

7

鳴く

9

花28

梔子

2

吉野

4

折る

5

匂ふ

4

3

散る

6

深し4

重ぬ2

見ゆ

6盛る

2

問ふ

3

4

1

3

9

八重13

2

6

九重3

十重1

七重

1 2

単衣

44

6

4

2

河水

2

2

1

県11

井戸

11

1

3里人

2

2

1

河浪

2

2

10

7

花色衣

1

主1

1

答ふ

1

1

許す

1

1

盛りなり

2

2

1

都人

11

1

4

4

4

1

1

怪し

1

影6

2

11

3

2

色 7

1

4

3

幾重

1

1

3

岩根

清滝河1

沼水

1

1

小島 崎1

添ふ

2

今4

3

玉河

1

飼ふ

1

3

2

11

沢水1

挿頭

1

一つ

1

じんもんこんシンポジウム 2010 35グラフモデルの出力「山吹/かはづ」

山吹 (44/44/44, 5.37) cw > 2.50 K:1-8 U:1 L:0.00 M:7 Z:1.00

井手4

鳴く

9

移ろふ

3

神無備川

1

単衣

八重

4

2

九重3

十重

1

咲く

6

七重

1

重ぬ

2

河水2

梔子

1

1

井戸

1

1 里人

1

2

河浪

2

花色衣

1

1

答ふ

1

許す

1

盛りなり

21

都人

11

1

吉野

4

盛る

2

1

怪し

1

4

4

花7

10

夫1

1

1

3幾重

1

1

2

岩根

清滝河1

沼水

1

1

小島 崎1

添ふ

2

3

玉河

1

飼ふ

1

11

沢水

1

一つ

1

2

散る

3

2

じんもんこんシンポジウム 2010 36

研究計画

• 相対的違いとはいってもどの程度違うのか?

• 数値処理できるほどの客観的尺度化は可能か?

• 詠み手による同じ語の用法の違い?→ 平安末期、西行の詠む「桜」は、他の「桜」と使い方にどのような違いがあるのだろうか。

• 将来的には、二十一代集対応へ

じんもんこんシンポジウム 2010 37

開発計画

• すべてのパスをあらかじめ計算しておく?

• ノード間を視点が移動

• ノードの色分け

• ネットワークの活性化、不活性化、

• ズームアウト、ズームイン