keio slide

Post on 13-Jul-2015

196 Views

Category:

Documents

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

慶應義塾大学理工学部2008 1

共出現パターンによる歌ことばの分析

山 元 啓 史Hilofumi Yamamoto

June 4, 2008

慶應義塾大学理工学部2008 2

はじめる前に

• 日本語とはどんな言語か。– 日本語は系統として孤立。どの語族にも属さない。

– 使用人口世界第8ないし9位。

– 1億人以上の人々によって話される。

– 1000年以上前から大筋において言語の形態は同じ。

世界でもきわめてめずらしい言語

• ただし、意味は変化しており (Goodenough, 1981)、言語の変遷の観察可能 (特に和歌では比喩など様々な言語現象が含まれる)。

慶應義塾大学理工学部2008 3

はじめに

• 八代集—貴重な古典の資料、そして言語学の資料

• 歌集間の語彙変遷の研究

• 従来、索引による分析では語の認定単位がまちまち。

• 実例にあたる研究方法では追試や再現、再検討ができない。

• データの共有と資料の整備が必要。

慶應義塾大学理工学部2008 4

電子化テキスト資源の公開

• 国文学研究資料館の二十一代集データベース

• ヴァージニア大学日本語テキストイニシアティブ

• 関西大学図書館「八代集の世界」印影本画像公開

• 高千穂大、渋谷栄一氏翻刻、電子テキスト配布

データの共有や追試が実施しやすくなってきた。

慶應義塾大学理工学部2008 5

歌ことばのモデリング

• 山元 (2005)—歌枕のモデリング

• 山元 (2006)—歌ことばのモデリング

• 体系と詳細の可視化

• しかし、データは古今集に限られていた。

• 他の歌集による検討はまだ。

• たとえば、「桜と吉野」の関係

慶應義塾大学理工学部2008 6

「桜と吉野」の関係

• 「花といえば桜」「桜の吉野」はいつごろか。

• 古今集ではまだ成立していない。

• 新古今集では西行の時代から (片桐, 1983; 小林, 1989)。

→ p.2の注釈参照。

• 新古今集でも検証する必要がある。

慶應義塾大学理工学部2008 7

八代集の成立

900

古今集

(•90

5)

46

950

後撰集

(•95

1)

56

1000

拾遺集

(•10

07)

79

1050

後拾遺集

(108

6)

38

1100

金葉集

(•11

24)

20

詞花集

(•11

44)

44

1150

千載集

(118

8)

17

1200

新古今集

(120

5)

1250

八代集の語彙の転換期

拾遺集説、◎後拾遺集説、千載集説

慶應義塾大学理工学部2008 8

八代集の語彙の転換期

1. 一般的には古今撰者の歌の排除された後拾遺集。

2. 上野 (1976)

• 古今・後撰→〈褻の歌〉の時代• 拾遺集以降→〈晴の歌〉の時代

3. 川村 (1991)

→後拾遺集以降の変化はすでに拾遺集に見られる。

4. 辻 (1998) 語彙的には千載集。

慶應義塾大学理工学部2008 9

いつが転換期か

• 全体的な傾向はあったとしてもすべての語彙が急激に変わるわけではない。

• 当時の流行や文化、撰者によるか。

• 転換期は語によって違うのではないか。

• 均一な条件によって語彙調査を行う必要があるのでは。

→ 八代集を通して「吉野」のモデルを作り、変遷をみる。

慶應義塾大学理工学部2008 10

方法:材料

• 国文学研究資料館開発正保版本「二十一代集」

• 長歌を除く 9484首の和歌テキスト

(シソーラスの作成はすべての和歌に対して)

• kh で単位分割 (β単位)し、

• 異形同語 (立田/竜田/龍田)の問題→ t2c でシソーラスコードをつける。

• 八代集シソーラスの開発→分類語彙表を利用

• 一般語 (48732)、地名 (1408)、人名 (49)

慶應義塾大学理工学部2008 11

方法:共出現パターン

雪/の/ 内/に / 春/は/ 来/ に/ けり/ 鴬/の/ 凍れ/ る/ 涙/ 今/や/ 解く/ らむ

• 雪–内、雪–春、雪–来、...

モデル化に必要なテキスト処理とは..

慶應義塾大学理工学部2008 12

歌ことばの語用特性を示すモデル

テキストを

• 文脈を損なわない

• 最小の単位に分割

• 代表的な単位を選ぶ

処理方法が必要。

慶應義塾大学理工学部2008 13

用語の採り方

• 一般的に計量研究は、低頻度語が無視される。

• 高頻度語は意外とキーワードとしての情報量に乏しい。(水谷, 1983)

• 低頻度語は文章の性格に規定されて使われている。(石井, 1996)

情報量によっては低頻度語を取り上げる方法が必要。

→ idf (inverse document frequency) を利用し、

→ 語のキーワード性 (重要度)をモデルを作る。

慶應義塾大学理工学部2008 14

idf (Sparck Jones, 1972)

idf(t, N) = logN

df(t)

idf(ari,N) = logN

df(ari)(1)

= log9484

1201(2)

= log 7.89.. (3)

= 2.07.. (4)

慶應義塾大学理工学部2008 15

idf (Sparck Jones, 1972)

idf(t, N) = logN

df(t)

idf(uguisu, N) = logN

df(uguisu)(5)

= log9484

101(6)

= log 93.90.. (7)

= 4.54.. (8)

慶應義塾大学理工学部2008 16

語の頻度の分布

0

500

1000

1500

2000

2500

3000

3500

0 200 400 600 800 1000 1200 1400 1600 1800 2000

number of type

frequency

L-Shape Freq-Type

低頻度語が圧倒的に多い。頻度重視の計量では分析できない。

L字型分布

慶應義塾大学理工学部2008 17

idf値の分布

0

200

400

600

800

1000

1200

1 2 3 4 5 6 7 8 9

number of type

inverse document frequency (idf)

J-Shape IDF-Type

J字型分布

idf で語の重要度を計算すると低頻度語は高い idf となる。idf を利用して、共出現パターンを計算する。

慶應義塾大学理工学部2008 18

共出現パターンの特徴と計算方法

• 共出現パターンには最小単位 (2語)で文脈が含まれる。

月+宿 → 月が宿る(池などに月影が映る)

頭+雪 → 頭の雪(白髪)

• すべてのパターンを描画すると「真っ黒の塊」になる。→重要なパターンのみを選び出す必要がある。

• tfidfを2語の重要度へ拡張する。

w(t,K,N)=(1 + log tf(t,K)) idf(t, N)

慶應義塾大学理工学部2008 19

共出現ウエイト (cw)の計算

w(t,K, N) = (1 + log tf(t,K)) idf(t, N) (9)

cidf(t1, t2, N) =√

idf(t1, N) idf(t2, N) (10)

ctf(t1, t2, K) = 1 + log |{k : t1, t2 ∈ k}| (11)

• K は条件により抽出されたテキスト。

• (10)は2語の重要度の幾何平均【単語重要度】

→ cidf の分布、次のスライド参照。

• (11)はK に出現したパターンの頻度【実出現頻度】

• ◎パターンの「珍しさ」の情報がない!

慶應義塾大学理工学部2008 20

cidf値の分布

0

200

400

600

800

1000

0 1 2 3 4 5 6 7 8 9

frequency of patterns

cidf

梅桜鶯時鳥立田吉野

慶應義塾大学理工学部2008 21

共出現ウエイト (cw)の計算

ictf(t1, t2, N) = 1 + log|N |

|{n : t1, t2 ∈ n}|(12)

cw(t1, t2) = ctf(t1, t2, K) ictf(t1, t2, N) cidf(t1, t2, N) (13)

• K は条件抽出されたテキスト。N はすべてのテキスト。

• 【単語重要度】は2語の重要度の幾何平均

• 【実出現頻度】はK に出現したパターンの頻度

• 【組合重要度】はN に出現したパターンの頻度

慶應義塾大学理工学部2008 22

cw値の累積パターン数

0

100

200

300

400

500

600

700

800

900

0 10 20 30 40 50 60 70 80 90 100

cumulative frequency of patterns

co-occurrence weight (cw)

吉野

1

2

3

4

56

7

8古今 1後撰 2拾遺 3後拾遺 4金葉 5詞花 6千載 7新古今 8

このままだと収束する点に若干ずれが見られる。cw に z 変換を施し正規化する。

慶應義塾大学理工学部2008 23

1σと変曲点

下方向カーブから

右方向カーブへ

右裾野の 16%が自動的に選択される。(人為的に収束点を選ばなくてもよい)

慶應義塾大学理工学部2008 24

古今集

吉野 (24/92/97, 4.63) cw > 0 .0 0 K :1-1 U :2 L:0 .0 0 M :16 Z:1.0 0

縦しや

吉野

2早し

1

妹背1

辛し

1

1唐土

1

2

8

3

立つ3

1

2

誤つ

2

雪 2

山4

咲く

2

桜2

1

3降る7

10

5

寒し2

3

浮ぶ

2

3

1

岩3

2

通す

1

伐る

1

水2

平す

1

2

11

衣手2

去ぬ

1

3

2

踏む

2

訪る

1

51

1死ぬ1

1

1

何処

2

33

2

1

1

1

1

14

2

彼方

1

かくれる 1

1

1

1

1

後る

1

白 4

4

1

1

1

1

2

増さる

2

籠る

1

1

霞 2

野辺

11

音2

2

2

古里2

2

消ゆ2

憂し2

落つ

11

一日

11

近し1

出づ2

流る

1 1

2

朝ぼらけ

1

有明

1

恋ふ

2

2

2

行き

2

1

慶應義塾大学理工学部2008 25

後拾遺集

吉野 (3/92/97, 4.63) cw > 0 .0 0 K :4-4 U :2 L:0 .0 0 M :16 Z:1.0 0

棚引く1

吉野1

1

1

八重

重ぬ

1

1

峰 1

1

景色

霞む

1

1

結ぶ1

1

1

1

1

1

1

1

慶應義塾大学理工学部2008 26

新古今集

吉野 (24/92/97, 4.63) cw > 0 .0 0 K :8-8 U :2 L:0 .0 0 M :16 Z:1.0 0

吉野3

厭ふ2

厭はし

1

喚子鳥

1

1戸

1

心2

夏実

1

4

2

古柳

1

2

2

2

1

1

1

染む 1

1

1

2

1

芝草1

踏む1

白し

1

2

1

1

長く

1寂ぶ

1

1

松風1

散る6

14

6

3

33

43

春7

2

2

1

古里

3

1

2

1 3

11

1

1

1

1

分く

1

2

遅げなり1

嵐22

2

1

1

11

去年

枝折

1

変ふ 1

まだ1

1

11

尋ぬ

1

3

1

1

花11

1

11

1 11

打つ2

1

今宵

1

1

11

1

1

尽す 1

哀れ

1

1

1

桜3

3

1

野辺

1

4

2 2

袖2

1

来3

3

1

影1

1

吹く 2

3

有り3

1

3

1

慶應義塾大学理工学部2008 27

金葉集

吉野 (5/92/97, 4.63) cw > 0 .0 0 K :5-5 U :2 L:0 .0 0 M :16 Z:1.0 0

吉野4

埋もれる

1

集む

1

咲く2

峰2

3

2 麓

1

上る1

雲 2

3

2

1

1

1

1

1 11

1

1

掻く

1

1

11

2

掛かる

1

山4

5

花4

1

匂ふ1

1

梢寄る

1

2

1

時1

今日1

慶應義塾大学理工学部2008 28

雪あるいは桜を含むパターン (1)

表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン

t1–t2 cw z ctf idf(t1) idf(t2)古今集 (24) 雪–吉野 86.06 3.33 10 3.18 4.63

雪–降る 65.15 1.76 5 3.18 3.26桜–辺 64.32 1.70 2 3.43 4.69雪–寒し 63.36 1.62 2 3.18 4.92雪–辺 61.87 1.51 2 3.18 4.69雪–白 60.36 1.40 4 3.18 3.18雪–古里 55.34 1.02 2 3.18 4.37

後撰集 (11) 雪–吉野 54.69 1.33 3 3.18 4.63雪–降る 52.40 1.12 3 3.18 3.26雪–崩る 51.40 1.03 1 3.18 8.06桜–吉野 51.28 1.02 2 3.43 4.63

拾遺集 (15) 雪–吉野 80.25 3.74 8 3.18 4.63雪–消ゆ 55.90 1.54 2 3.18 3.83雪–山 54.92 1.46 8 3.18 2.08雪–峰 54.35 1.40 2 3.18 3.95雪–宿 52.42 1.23 2 3.18 3.37雪–古道 50.48 1.05 1 3.18 7.77

後拾遺集 (3) N/A

慶應義塾大学理工学部2008 29

雪あるいは桜を含むパターン (2)

表2 各集の「吉野」のモデルから抽出した雪あるいは桜を含むパターン

t1–t2 cw z ctf idf(t1) idf(t2)金葉集 (5) 桜–吉野 72.27 3.34 4 3.43 4.63

桜–峰 52.17 1.44 2 3.43 3.95桜–咲く 51.68 1.40 2 3.43 3.71桜–雲 51.00 1.33 2 3.43 3.43桜–山 49.48 1.19 4 3.43 2.08桜–集む 48.33 1.08 1 3.43 6.59桜–埋もれる 47.56 1.01 1 3.43 6.38

詞花集 (6) N/A千載集 (9) N/A新古今集 (24) 桜–吉野 63.56 1.64 3 3.43 4.63

桜–散る 62.38 1.55 3 3.43 3.14雪–吉野 62.18 1.53 4 3.18 4.63桜–遅げなり 56.96 1.14 1 3.43 9.16

慶應義塾大学理工学部2008 30

考察

• 前回は古今集だけだったが、今回は八代集のデータをもとにモデル化を行った。

• 重み (cw)は z変換により正規化を行った上で、1σ以上を取り出すと一律に決められ、歌集間の比較が可能。→なぜ 1σ(16%)で文脈がうまく見えるのか。

• 「雪の吉野」から「桜の吉野」へは金葉集が転換期である。→定着期であるかどうかは不明

• 千載集、新古今集では「桜」より「花」という言い方が多い。→定着してきた証拠か

慶應義塾大学理工学部2008 31

まとめ

• モデリングによる「体系」の構築とその可能性

• 実例を示す研究方法→「体系」が示しにくい。

• 語彙リスト、一覧表による方法→実例に戻らなくてはならない「もどかしさ」がある。

• モデルからテキストへ参照→モデリングシステムhttp://etymology.jp/waka/poem.cgi

XML(SVG)フォーマットの採用。

• 八代集シソーラスの公開

top related