goiken2007slide
TRANSCRIPT
語彙研究会 2007/05/19 2
はじめに
• コノテーションとは何か。→コノテーションは記述できるか。
→語の意味空間はどのように記述できるか。
• 歌ことばのモデル化の方法
• 2モデル間の相対的な違いはどうやって示すか。→語の集合を演算するには?
• 低頻度語の計量分析は無視されがちだったが...
(石井, 1996)
→低い頻度でも印象的な語はどうやって取り上げるか?
語彙研究会 2007/05/19 6
コノテーションとは何か!
気持ち悪い
-
蛸たこ
octpus�
タコヤキ!おいしい!
コノテーションは受け手に依存する。 (Crystal, 1984: 18)
個別のテキスト中では直接的に観察できない。(Stubb, 2001: 198)
複数のテキストを並べてみて何だかわかる。 (intertextuality)
語彙研究会 2007/05/19 7
コノテーションを調べる
• favorable/unfavorable, bright/dark, .... (Osgood)
SD法によるイメージ分析
• 連想による意味の決定(Quillian)
鹿+鳴き声→妻恋ひ?
• 状況による意味の決定(Wittgenstein, Rieger)
Meaning is use. (e.g. コンピュータの画面)
• 語は語そのもので独立して意味を持たない(Lyons 1981)
→語彙の構造は、巨大な多次元の蜘蛛の巣の意味ネット
語彙研究会 2007/05/19 8
コノテーションの問題点
• コノテーションは、はっきり「…だ」と言い切れない。(Crystal, 1984)
• デノテーションとコノテーションの境界ははっきりしない。(Stede 1999)
• デノテーションとコノテーションは分けられない。(Voloshinov, 1973)
→文化を調査するのに重要であるが、研究として敬遠されてきている。(Goddard, 1998)
語彙研究会 2007/05/19 9
そこで!和歌でコノテーションを調べる
• 和歌(韻文)はコノテーションの宝庫!
• 元メッセージ(和歌テキスト)は31文字(定量)
• その現代語訳は文で完結...断定している。
語彙研究会 2007/05/19 10
古今集の現代語訳10種を使う
Schramnによる経験場の理論
歌人 詠む 歌 読む 和歌研究者
書く
訳
読む
一般読者
分析・比較する
10世紀経験野
20世紀専門家の経験野
20世紀一般読者の経験野
R = CT − OP
語彙研究会 2007/05/19 11
アライメント: 和歌とその現代語訳
古今集 298—小町谷照彦 (1982)訳
歌 — —— — — — — — — —立田姫訳 (秋の末近くなって帰り道についた)龍田姫
歌 — — — — — — —手向ける— — 神のあれ ば こそ訳 (が道中の無事を願って)手 向け (をする)神があるからこそ
歌 秋の木の葉 [の]幣と — —散る— — — — らめ訳 秋の木の葉(が)幣(となって)散っ(ているのだろ) う
語彙研究会 2007/05/19 13
歌ことばのモデルをつくる
1. 歌・訳ともにあらかじめ単位切り
2. 単位すべての idf 値を計算
→ 以上をデータベースとして保存
3. キーワードを選ぶ→ 鶯、時鳥、梅、桜など
4. キーワードを含む歌とそれに対応する訳を抽出
5. 歌・訳ともに共出現パターンを作る
6. 共出現ウエイト (cw)を計算
7. cwの値にしたがってグラフ描画
語彙研究会 2007/05/19 18
共出現ウエイト
w(t, d) = (1 + log tf(t, d)) idf(t)
cw(t1, t2, d) = (1 + log ctf(t1, t2, d))√
idf(t1) idf(t2)
idf(t) = logN
df(t)
語彙研究会 2007/05/19 19
Inverse Document Frequency の計算
Sparck Jones (1972)
idf(t) = logN
df(t)
idf(iru) = logN
df(iru)(1)
= log10000
4383(2)
= log 2.281542.. (3)
= 0.824614.. (4)
語彙研究会 2007/05/19 20
Inverse Document Frequency の計算
Sparck Jones (1972)
idf(t) = logN
df(t)
idf(uguisu) = logN
df(uguisu)(5)
= log10000
239(6)
= log 41.841.. (7)
= 3.733877.. (8)
語彙研究会 2007/05/19 21
和歌の共出現ウエイトと累積度数
0
100
200
300
400
500
600
700
800
2 4 6 8 10 12
the
num
ber
of c
o-oc
curr
ence
pat
tern
s
co-occurrence weight (cw)
warblercuckoo
plumcherry
語彙研究会 2007/05/19 22
現代語訳文の共出現ウエイトと累積度数
0
5000
10000
15000
20000
25000
5 10 15 20
the
num
ber
of c
o-oc
curr
ence
pat
tern
s
co-occurrence weight (cw)
warblercuckoo
plumcherry
語彙研究会 2007/05/19 23
鶯のhigh cwパターン
KEY CT BG-01-5620-02-130 鴬 23 229 3.73
cw ctf t1 idf tf t2 idf tf1 19.18 9 立田 8.52 10 春霞 4.23 92 18.71 56 梅 3.71 56 鴬 3.73 2293 18.62 10 鴬 3.73 229 立田 8.52 104 18.17 35 鴬 3.73 229 枝 4.26 355 17.98 145 鴬 3.73 229 鳴く 2.42 1526 17.72 6 笠 5.99 10 縫う 6.72 67 17.32 88 春 2.68 88 鴬 3.73 2298 17.00 62 声 2.94 62 鴬 3.73 2299 16.80 10 触れる 5.66 10 手 4.58 10
10 16.59 10 立田 8.52 10 立つ 2.96 11
語彙研究会 2007/05/19 24
鶯の low cwパターン
KEY CT BG-01-5620-02-130 鴬 23 229 3.73
cw ctf t1 idf tf t2 idf tf10962 1.56 1 私 1.33 50 ない 1.83 3510963 1.55 1 見る 1.67 11 思う 1.44 4310964 1.53 1 ゆく 2.07 8 する 1.13 7510965 1.52 1 私 1.33 50 人 1.75 2110966 1.49 1 見る 1.67 11 私 1.33 5010967 1.48 1 あの人 2.56 9 ある 0.86 3310968 1.48 1 よう 1.31 44 見る 1.67 1110969 1.37 1 する 1.13 75 見る 1.67 1110970 1.33 1 ある 0.86 33 心 2.07 1110971 1.20 1 見る 1.67 11 ある 0.86 33
語彙研究会 2007/05/19 25
和歌テキストによる「鶯」のモデル
Graphviz (Kamada-Kawai algorithm)による描画
鴬 (23/23,3.77): OP cw.>5.5;non-dist=off; idf=on(2)
毎
鴬2
春9
物憂し
2
声
4
事
2
吹く
2
野辺
2
梅4
枝 2
花14
我
4
雪
2
有り
3
立つ
2
匂ふ
2
世
2
来4
鳴く66
15
4
音3
3
2
2
今
2
果て
1
山里1
2
3
風3
2
2
折る
2
3
2
掛かる
1
来居る
1
未だ
1
9
2
3
散る
44
鳴き止む
1
1
掛く1
語彙研究会 2007/05/19 26
現代語訳テキストによる「鶯」のモデル
鴬 (23/229,3.73): CT cw.>15;non-dist=off; idf=on(2)
毎朝
野辺8
鴬
17
老
笠
6
10
青柳
4
挿頭す4
縫う
6
春88
10
立田
10枝35
花138
とまる
15
折る
22
泣く
29
鳴く
145 まだ
30
近く
6
声62
案内
誘い出す
4
9
送る
4
4
香7
山
10
春霞
9
立つ10
梅10 56
23
隠れる
7
6
散る52
10
触れる
10
手
10
添える
5
語彙研究会 2007/05/19 28
論理積パターンの「鶯」のモデル
鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(IS)ct)
春
鴬88
枝
35
花138
折る22
鳴く
145
声
62
野辺
17梅
56
散る
52
語彙研究会 2007/05/19 29
論理積パターン取り除いた「鶯」のモデル
鴬 (23/229,3.73): OP-5.5-1; CT-15-2; (op(is)CT)
毎朝
野辺
8
老
笠
6
青柳
4
鴬10
挿頭す
4
縫う 6
近く
6
案内
誘い出す
4
9
送る
4
10
立田
10
とまる
15
泣く
29
まだ
30
4
香
7
山
10春霞
9
立つ
10
梅
10
枝23
隠れる
76
散る
10
触れる10 手10
添える
5
語彙研究会 2007/05/19 31
「鶯」と「時鳥」の統合モデル
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
毎朝
野辺8
鴬17
老
笠
6
10
青柳
4
挿頭す
4
縫う 6春
88
10
立田
10
枝
35
花 138
とまる
15
折る
22
泣く
29
鳴く145
まだ
30
夏
横
8
時鳥
39
一声
8
五月
42
音羽
20
声174
山
110261
鳴き声
21
五月雨
14
聞く
69
聞える
37
去年
10
あやめ草
7
梢9
12
20
20
11
今朝
29
9
19
越える10
惜しむ
10
木高い
4
10
近く 6
6226
条理
8
6
案内
誘い出す4
9
送る
4
別れ
7
4
香
7
2010
春霞
9
立つ
10
夏山
11
ふりしぼる
6
梅
10
56
23
44
山時鳥
9
隠れる
76
10
散る
52
10
触れる
10
手
10
添える
5
羽ばたく6
6
借りる
19
何時の間に
9
梢高い
7
7
はるか
5
語彙研究会 2007/05/19 32
「春」のモデル
� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
� � � �4
� �7� 10� � 6
�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7
. �/ 70 1 82 % 6
3 %10
45 . 34 624 761824
988: ; 137. < 6 8
!13
7= 10 > ? @ A B %5C 10 D13
E 20
F G27
H I10
J 30K .611H L 10M ' 5
N %9
6 O � P6
12
8
Q RS 12
T UV W10
X Y �23 Z [
10
\ ]10
^ _47 ` a b
10
c '7
d e7f 10g � 10
h i j � %8
31k l 27
m no6
O p %5
14
q6 r s t a - u %5
10
v Uw6
x6
Z y z { Z5
4 | U 5 } ~ %5V R �7
�9 � ~ a )9
� �4
c ) 2 -4
4
� D \ �7
�8 17 � B %
9
� b5
62
6
�36
� � �10� � 7
5
�36 � �8
11
10
6
7
8
� 6 4
4
5
� �8
7
5
L � 4
5� � ~ %4 � p % 4
30
64
27
31
�31� �28
H � � ~ %11 � � � \9
� � �12
14
8
� 89
4
5 55u � p % 7
% 7 ¡ ¢5
£ p %7¤ � 9 ¥ ¦9
L U9
10
18
6
144 § �5
¨ a © %5¡ � P 7ª % 7
Z« ¬ 16
16
5
® 10
10
89
23
6
1942
¯ 88° % 5
9
± � ² 6
10
9 ³ ´10
7
� µ ¶ %7
· ¸ 4
4
3
18
¹ � %7
30
50
� p %7
6
9 º6» 7
� ¼ P 6
5
½ � 7
¾ ¿ À ~ %5
4Á Â 70
- Ã Ä3
] � 12
' � Å p %11
7
Æ9
� � � � � � � � � � � � � � � � � � � � �non-dist=off; idf=on(2)
� � � �4
� �7� 10� � 6
�� � 5 ! "5 # $ %8& '4 ( )7 * + , -7
. �/ 70 1 82 % 6
3 %10
45 . 34 624 761824
988: ; 137. < 6 8
!13
7= 10 > ? @ A B %5C 10 D13
E 20
F G27
H I10
J 30K .611H L 10M ' 5
N %9
6 O � P6
12
8
Q RS 12
T UV W10
X Y �23 Z [
10
\ ]10
^ _47 ` a b
10
c '7
d e7f 10g � 10
h i j � %8
31k l 27
m no6
O p %5
14
q6 r s t a - u %5
10
v Uw6
x6
Z y z { Z5
4 | U 5 } ~ %5V R �7
�9 � ~ a )9
� �4
c ) 2 -4
4
� D \ �7
�8 17 � B %
9
� b5
62
6
�36
� � �10� � 7
5
�36 � �8
11
10
6
7
8
� 6 4
4
5
� �8
7
5
L � 4
5� � ~ %4 � p % 4
30
64
27
31
�31� �28
H � � ~ %11 � � � \9
� � �12
14
8
� 89
4
5 55u � p % 7
% 7 ¡ ¢5
£ p %7¤ � 9 ¥ ¦9
L U9
10
18
6
144 § �5
¨ a © %5¡ � P 7ª % 7
Z« ¬ 16
16
5
® 10
10
89
23
6
1942
¯ 88° % 5
9
± � ² 6
10
9 ³ ´10
7
� µ ¶ %7
· ¸ 4
4
3
18
¹ � %7
30
50
� p %7
6
9 º6» 7
� ¼ P 6
5
½ � 7
¾ ¿ À ~ %5
4Á Â 70
- Ã Ä3
] � 12
' � Å p %11
7
Æ9
語彙研究会 2007/05/19 34
まとめ
• 歌ことばモデルと可視化
• 共出現ウエイト→低頻度語の取り込みと無意味語の排除
• モデルを演算操作→ merge, union, zoom in/out, subtract, pruning
• コノテーションの抽出
• 相対的な差の提示
• フラクタル