goiken2007slide

35
語彙研究会 2007/05/19 1 歌ことばのモデリング 共出現パターンによる可視化山元 啓史 Hilofumi Yamamoto May 19th 2007

Upload: hilo-yamamoto

Post on 13-Jul-2015

269 views

Category:

Entertainment & Humor


0 download

TRANSCRIPT

 語彙研究会 2007/05/19 1

歌ことばのモデリング—共出現パターンによる可視化—

山元 啓史

Hilofumi Yamamoto

May 19th 2007

 語彙研究会 2007/05/19 2

はじめに

• コノテーションとは何か。→コノテーションは記述できるか。

→語の意味空間はどのように記述できるか。

• 歌ことばのモデル化の方法

• 2モデル間の相対的な違いはどうやって示すか。→語の集合を演算するには?

• 低頻度語の計量分析は無視されがちだったが...

(石井, 1996)

→低い頻度でも印象的な語はどうやって取り上げるか?

 語彙研究会 2007/05/19 3

コノテーションとは何か!

蛸たこ

octpus

 語彙研究会 2007/05/19 4

コノテーションとは何か!

-

気持ち悪い

蛸たこ

octpus

 語彙研究会 2007/05/19 5

コノテーションとは何か!

気持ち悪い

-

蛸たこ

octpus�

タコヤキ!おいしい!

 語彙研究会 2007/05/19 6

コノテーションとは何か!

気持ち悪い

-

蛸たこ

octpus�

タコヤキ!おいしい!

コノテーションは受け手に依存する。 (Crystal, 1984: 18)

個別のテキスト中では直接的に観察できない。(Stubb, 2001: 198)

複数のテキストを並べてみて何だかわかる。 (intertextuality)

 語彙研究会 2007/05/19 7

コノテーションを調べる

• favorable/unfavorable, bright/dark, .... (Osgood)

SD法によるイメージ分析

• 連想による意味の決定(Quillian)

鹿+鳴き声→妻恋ひ?

• 状況による意味の決定(Wittgenstein, Rieger)

Meaning is use. (e.g. コンピュータの画面)

• 語は語そのもので独立して意味を持たない(Lyons 1981)

→語彙の構造は、巨大な多次元の蜘蛛の巣の意味ネット

 語彙研究会 2007/05/19 8

コノテーションの問題点

• コノテーションは、はっきり「…だ」と言い切れない。(Crystal, 1984)

• デノテーションとコノテーションの境界ははっきりしない。(Stede 1999)

• デノテーションとコノテーションは分けられない。(Voloshinov, 1973)

→文化を調査するのに重要であるが、研究として敬遠されてきている。(Goddard, 1998)

 語彙研究会 2007/05/19 9

そこで!和歌でコノテーションを調べる

• 和歌(韻文)はコノテーションの宝庫!

• 元メッセージ(和歌テキスト)は31文字(定量)

• その現代語訳は文で完結...断定している。

 語彙研究会 2007/05/19 10

古今集の現代語訳10種を使う

Schramnによる経験場の理論

歌人 詠む 歌 読む 和歌研究者

書く

読む

一般読者

分析・比較する

10世紀経験野

20世紀専門家の経験野

20世紀一般読者の経験野

R = CT − OP

 語彙研究会 2007/05/19 11

アライメント: 和歌とその現代語訳

古今集 298—小町谷照彦 (1982)訳

歌 — —— — — — — — — —立田姫訳 (秋の末近くなって帰り道についた)龍田姫

歌 — — — — — — —手向ける— — 神のあれ ば こそ訳 (が道中の無事を願って)手 向け (をする)神があるからこそ

歌 秋の木の葉 [の]幣と — —散る— — — — らめ訳 秋の木の葉(が)幣(となって)散っ(ているのだろ) う

 語彙研究会 2007/05/19 12

アライメントの実際

 語彙研究会 2007/05/19 13

歌ことばのモデルをつくる

1. 歌・訳ともにあらかじめ単位切り

2. 単位すべての idf 値を計算

→ 以上をデータベースとして保存

3. キーワードを選ぶ→ 鶯、時鳥、梅、桜など

4. キーワードを含む歌とそれに対応する訳を抽出

5. 歌・訳ともに共出現パターンを作る

6. 共出現ウエイト (cw)を計算

7. cwの値にしたがってグラフ描画

 語彙研究会 2007/05/19 14

グラフで可視化

Reality

Abstraction

 語彙研究会 2007/05/19 15

グラフで可視化

Reality

Abstraction

John Maryhit

 語彙研究会 2007/05/19 16

グラフで可視化

Reality

Abstraction

Sally

John Maryhit

let

Elaboration

 語彙研究会 2007/05/19 17

共出現パターン

雪の内に春は来にけり鴬の凍れる涙今や解くらむ

 語彙研究会 2007/05/19 18

共出現ウエイト

w(t, d) = (1 + log tf(t, d)) idf(t)

cw(t1, t2, d) = (1 + log ctf(t1, t2, d))√

idf(t1) idf(t2)

idf(t) = logN

df(t)

 語彙研究会 2007/05/19 19

Inverse Document Frequency の計算

Sparck Jones (1972)

idf(t) = logN

df(t)

idf(iru) = logN

df(iru)(1)

= log10000

4383(2)

= log 2.281542.. (3)

= 0.824614.. (4)

 語彙研究会 2007/05/19 20

Inverse Document Frequency の計算

Sparck Jones (1972)

idf(t) = logN

df(t)

idf(uguisu) = logN

df(uguisu)(5)

= log10000

239(6)

= log 41.841.. (7)

= 3.733877.. (8)

 語彙研究会 2007/05/19 21

和歌の共出現ウエイトと累積度数

0

100

200

300

400

500

600

700

800

2 4 6 8 10 12

the

num

ber

of c

o-oc

curr

ence

pat

tern

s

co-occurrence weight (cw)

warblercuckoo

plumcherry

 語彙研究会 2007/05/19 22

現代語訳文の共出現ウエイトと累積度数

0

5000

10000

15000

20000

25000

5 10 15 20

the

num

ber

of c

o-oc

curr

ence

pat

tern

s

co-occurrence weight (cw)

warblercuckoo

plumcherry

 語彙研究会 2007/05/19 23

鶯のhigh cwパターン

KEY CT BG-01-5620-02-130 鴬 23 229 3.73

cw ctf t1 idf tf t2 idf tf1 19.18 9 立田 8.52 10 春霞 4.23 92 18.71 56 梅 3.71 56 鴬 3.73 2293 18.62 10 鴬 3.73 229 立田 8.52 104 18.17 35 鴬 3.73 229 枝 4.26 355 17.98 145 鴬 3.73 229 鳴く 2.42 1526 17.72 6 笠 5.99 10 縫う 6.72 67 17.32 88 春 2.68 88 鴬 3.73 2298 17.00 62 声 2.94 62 鴬 3.73 2299 16.80 10 触れる 5.66 10 手 4.58 10

10 16.59 10 立田 8.52 10 立つ 2.96 11

 語彙研究会 2007/05/19 24

鶯の low cwパターン

KEY CT BG-01-5620-02-130 鴬 23 229 3.73

cw ctf t1 idf tf t2 idf tf10962 1.56 1 私 1.33 50 ない 1.83 3510963 1.55 1 見る 1.67 11 思う 1.44 4310964 1.53 1 ゆく 2.07 8 する 1.13 7510965 1.52 1 私 1.33 50 人 1.75 2110966 1.49 1 見る 1.67 11 私 1.33 5010967 1.48 1 あの人 2.56 9 ある 0.86 3310968 1.48 1 よう 1.31 44 見る 1.67 1110969 1.37 1 する 1.13 75 見る 1.67 1110970 1.33 1 ある 0.86 33 心 2.07 1110971 1.20 1 見る 1.67 11 ある 0.86 33

 語彙研究会 2007/05/19 25

和歌テキストによる「鶯」のモデル

Graphviz (Kamada-Kawai algorithm)による描画

鴬 (23/23,3.77): OP cw.>5.5;non-dist=off; idf=on(2)

鴬2

春9

物憂し

2

4

2

吹く

2

野辺

2

梅4

枝 2

花14

4

2

有り

3

立つ

2

匂ふ

2

2

来4

鳴く66

15

4

音3

3

2

2

2

果て

1

山里1

2

3

風3

2

2

折る

2

3

2

掛かる

1

来居る

1

未だ

1

9

2

3

散る

44

鳴き止む

1

1

掛く1

 語彙研究会 2007/05/19 26

現代語訳テキストによる「鶯」のモデル

鴬 (23/229,3.73): CT cw.>15;non-dist=off; idf=on(2)

毎朝

野辺8

17

6

10

青柳

4

挿頭す4

縫う

6

春88

10

立田

10枝35

花138

とまる

15

折る

22

泣く

29

鳴く

145 まだ

30

近く

6

声62

案内

誘い出す

4

9

送る

4

4

香7

10

春霞

9

立つ10

梅10 56

23

隠れる

7

6

散る52

10

触れる

10

10

添える

5

 語彙研究会 2007/05/19 27

ベン図: OP(歌) と CT(訳)

OP OP ∩ CT CT

 語彙研究会 2007/05/19 28

論理積パターンの「鶯」のモデル

鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(IS)ct)

鴬88

35

花138

折る22

鳴く

145

62

野辺

17梅

56

散る

52

 語彙研究会 2007/05/19 29

論理積パターン取り除いた「鶯」のモデル

鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(is)CT)

毎朝

野辺

8

6

青柳

4

鴬10

挿頭す

4

縫う 6

近く

6

案内

誘い出す

4

9

送る

4

10

立田

10

とまる

15

泣く

29

まだ

30

4

7

10春霞

9

立つ

10

10

枝23

隠れる

76

散る

10

触れる10 手10

添える

5

 語彙研究会 2007/05/19 30

「鶯」と「時鳥」

 語彙研究会 2007/05/19 31

「鶯」と「時鳥」の統合モデル

鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

毎朝

野辺8

鴬17

6

10

青柳

4

挿頭す

4

縫う 6春

88

10

立田

10

35

花 138

とまる

15

折る

22

泣く

29

鳴く145

まだ

30

8

時鳥

39

一声

8

五月

42

音羽

20

声174

110261

鳴き声

21

五月雨

14

聞く

69

聞える

37

去年

10

あやめ草

7

梢9

12

20

20

11

今朝

29

9

19

越える10

惜しむ

10

木高い

4

10

近く 6

6226

条理

8

6

案内

誘い出す4

9

送る

4

別れ

7

4

7

2010

春霞

9

立つ

10

夏山

11

ふりしぼる

6

10

56

23

44

山時鳥

9

隠れる

76

10

散る

52

10

触れる

10

10

添える

5

羽ばたく6

6

借りる

19

何時の間に

9

梢高い

7

7

はるか

5

 語彙研究会 2007/05/19 32

「春」のモデル

� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)

� � � �4

� �7� 10� � 6

�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7

. �/ 70 1 82 % 6

3 %10

45 . 34 624 761824

988: ; 137. < 6 8

!13

7= 10 > ? @ A B %5C 10 D13

E 20

F G27

H I10

J 30K .611H L 10M ' 5

N %9

6 O � P6

12

8

Q RS 12

T UV W10

X Y �23 Z [

10

\ ]10

^ _47 ` a b

10

c '7

d e7f 10g � 10

h i j � %8

31k l 27

m no6

O p %5

14

q6 r s t a - u %5

10

v Uw6

x6

Z y z { Z5

4 | U 5 } ~ %5V R �7

�9 � ~ a )9

� �4

c ) 2 -4

4

� D \ �7

�8 17 � B %

9

� b5

62

6

�36

� � �10� � 7

5

�36 � �8

11

10

6

7

8

� 6 4

4

5

� �8

7

5

L � 4

5� � ~ %4 � p % 4

30

64

27

31

�31� �28

H � � ~ %11 � � � \9

� � �12

14

8

� 89

4

5 55u � p % 7

  % 7 ¡ ¢5

£ p %7¤ � 9 ¥ ¦9

L U9

10

18

6

144 § �5

¨ a © %5¡ � P 7ª % 7

Z« ¬ 16

16

5

­ ® 10

10

89

23

6

1942

¯ 88° % 5

9

± � ² 6

10

9 ³ ´10

7

� µ ¶ %7

· ¸ 4

4

3

18

¹ � %7

30

50

� p %7

6

9 º6» 7

� ¼ P 6

5

½ � 7

¾ ¿ À ~ %5

4Á Â 70

- Ã Ä3

] � 12

' � Å p %11

7

Æ9

� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)

� � � �4

� �7� 10� � 6

�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7

. �/ 70 1 82 % 6

3 %10

45 . 34 624 761824

988: ; 137. < 6 8

!13

7= 10 > ? @ A B %5C 10 D13

E 20

F G27

H I10

J 30K .611H L 10M ' 5

N %9

6 O � P6

12

8

Q RS 12

T UV W10

X Y �23 Z [

10

\ ]10

^ _47 ` a b

10

c '7

d e7f 10g � 10

h i j � %8

31k l 27

m no6

O p %5

14

q6 r s t a - u %5

10

v Uw6

x6

Z y z { Z5

4 | U 5 } ~ %5V R �7

�9 � ~ a )9

� �4

c ) 2 -4

4

� D \ �7

�8 17 � B %

9

� b5

62

6

�36

� � �10� � 7

5

�36 � �8

11

10

6

7

8

� 6 4

4

5

� �8

7

5

L � 4

5� � ~ %4 � p % 4

30

64

27

31

�31� �28

H � � ~ %11 � � � \9

� � �12

14

8

� 89

4

5 55u � p % 7

  % 7 ¡ ¢5

£ p %7¤ � 9 ¥ ¦9

L U9

10

18

6

144 § �5

¨ a © %5¡ � P 7ª % 7

Z« ¬ 16

16

5

­ ® 10

10

89

23

6

1942

¯ 88° % 5

9

± � ² 6

10

9 ³ ´10

7

� µ ¶ %7

· ¸ 4

4

3

18

¹ � %7

30

50

� p %7

6

9 º6» 7

� ¼ P 6

5

½ � 7

¾ ¿ À ~ %5

4Á Â 70

- Ã Ä3

] � 12

' � Å p %11

7

Æ9

 語彙研究会 2007/05/19 33

描画の問題点

• エッジの数が多いと結果の図示が困難なこと

• 重み (cw)の決め方に基準がないこと

(竹内・宇津木, 1988, 235)

 語彙研究会 2007/05/19 34

まとめ

• 歌ことばモデルと可視化

• 共出現ウエイト→低頻度語の取り込みと無意味語の排除

• モデルを演算操作→ merge, union, zoom in/out, subtract, pruning

• コノテーションの抽出

• 相対的な差の提示

• フラクタル

 語彙研究会 2007/05/19 35

おわりに

• 八代集について→単位分解/語彙コードつけのデータベース化

• 共出現ウエイト→ユニバーサルな値をどう得るか

• 応用について→ ネットワークモデルによる歌ことばの変遷