ch2008slide01

34
じんもんこん 2008 1 八代集シソーラスによる歌ことばの分析 シソーラスの開発と可視化システム山元啓史 オーストラリア国立大学 December 21, 2008

Upload: hilo-yamamoto

Post on 13-Jul-2015

129 views

Category:

Technology


0 download

TRANSCRIPT

じんもんこん 2008 1

八代集シソーラスによる歌ことばの分析—シソーラスの開発と可視化システム—

山 元 啓 史オーストラリア国立大学

December 21, 2008

じんもんこん 2008 2

日本語とはどんな言語か

毎度のことではありますが、

• 日本語は系統として孤立。どの語族にも属さない。

• 使用人口第8ないし9位。

• 1億人以上の人々によって話される。(宮地他、1977)

• 古代日本語、現代日本語は「大筋」において変わっていない。千年以上前の言語が均一な形で観察できる。(坂倉, 1977) → 1000年以上も前から「花」は「花」!

cf. アイスランド語 30 万人

さて、和歌を資料とした研究...

じんもんこん 2008 3

和歌と言語学 (1)

和歌というもの→文学研究の対象・言語分析の資料

• [文] 八代集 (905頃–1205): 古今集 (905頃)から新古今集 (1205)までの 300年間の 9500首

八代集を一区切りとして数多くの研究が行われている (辻, 1998, p. 226)

• [言] 言語の変遷を見る

千年以上前の言語が均一な形で観察できる。(坂倉, 1977)

言語の形は変わらないが、意味は変わる。(Goodenough, 1991, p. 43)

→ネオポリネシア語、語形 85 %以上が英語、意味は現地語に近かった。

歌の例で言いますと、...

じんもんこん 2008 4

和歌と言語学 (2)

言語の形は変わらないが、意味や用法は変わっていく。

たとえば、「宿る」(「屋取る」の意)の用法について...

• 人+宿る → 旅先で宿をとる。秋の野のみ草刈り葺き宿れりし宇治のみやこの仮庵し思ほゆ

(万葉集1)

• 月+宿る → 他の物に形がうつる。(見立て/擬人法)

あひにあひて物思ふ頃の我が袖に宿る月さへぬるる顔なる

(伊勢: 後撰集 1270番)

さて、八代集の語彙の転換期について...

じんもんこん 2008 5

八代集の語彙の転換期

八代集の転換期に関する学説はいろいろ。

1. 一般的には古今撰者の歌の排除された後拾遺集。

2. 上野 (1976)

• 古今・後撰→〈褻の歌〉の時代• 拾遺集以降→〈晴の歌〉の時代

3. 川村 (1991)

→後拾遺集以降の変化はすでに拾遺集に見られる。

4. 辻 (1998) 語彙的には千載集。

→なぜ諸説があるのか?その問題点とは!

じんもんこん 2008 6

語彙の転換期の捉え方

何を基準に転換と考えているか?

• 視点や目的によって異なるのでは?→文学研究?言語研究?

• 言語単位の認定によって異なるのでは?→長単位?短単位?

そもそも語彙の計量研究の問題点とは...

じんもんこん 2008 7

語彙研究の問題点

• 側面ごとに多面的に分析しなければならない。語彙の体系は一つの平面の上にかけるものではなく、意味、形、

文体などいくつかの側面の総合として存在するゆえ、各側面ごと

に見ていかなければならない。(宮島, 1977, p. 4)

• 単語の認定の仕方次第で見方は変わってしまう。日本語の語い調査でいちばんこまることは、「単語」という単位が

確立していないことである (宮島, 1994, p.113)

→シソーラスで管理。

じんもんこん 2008 8

資料の統一・管理のためのシソーラス

シソーラスで実現したいこと。

→単位・表記・体系のコントロール

• 単位 → 卯の花 or 卯/の/花 (中野, 1998)

• 表記 → さびしい/さみしい/寂しい/淋しい

• 体系 → 卯の花 ∈ 植物 or 卯の花 ∈ 食料

「吉野」を例に説明すれば、...

じんもんこん 2008 9

吉野 {山 |川 }の表記• よしの/吉野/芳野/よし野/吉の• 吉野山/吉野の山/吉のゝ山/よしのゝ山• 吉野河/吉野川• よしのかは/よしのがは/よしのゝかは• みよしの/み吉野/御吉野/三吉野/御よしの

→異なる表記を同じものとして処理したい。

それだけでなく...

じんもんこん 2008 10

吉野 {山 |川 }の分割単位• 吉野山→吉野/山• よしのゝ山→よしの/ゝ/山• 吉野河→吉野/河• よしのゝかは→よしの/ゝ/かは

→場合に応じて語構成要素に分割して処理したい。

語にコード(メタ記号)をつける作業が必要。

じんもんこん 2008 11

語彙分類をすることのむずかしさ

• 人手による意味分類の弊害 (土屋, 1978)

カードによる作業者の頭で大部分が行われてしまっている。

• 意味コードによる分類 (西端, 1989; 田島, 1995)

→ 作業の困難さ。(田島, 1995)

→ 予想以上に手間取った。(西端, 1989)

→コンピュータによる作業の軽減と統一

じんもんこん 2008 12

八代集のためのシソーラスコード辞書

• 和歌テキストへの自動付加 (タギング)ツール

• 試用評価

• 可視化システムへの応用

じんもんこん 2008 13

材料、底本

• 材料: 「八代集データベース」

→ 国文学研究資料館蔵正保版本「八代集」

900

古今集

(•90

5)

46

950

後撰集

(•95

1)

56

1000

拾遺集

(•10

07)

79

1050�

後拾遺集

(108

6)

38

1100

金葉集

(•11

24)

20

詞花集

(•11

44)

44

1150

千載集

(118

8)

17

1200

新古今集

(120

5)

1250

じんもんこん 2008 14

シソーラスの開発方法

• 方法

和歌テキスト kh t2c

コードづけ

代表形の付加

単位分割品詞タグづけ 詳細コードの付加

表記の統一

八代集シソーラス

(A) (B)

未登録語追加

解析用古語辞書 分類語彙表(一般)地名・人名辞書

未登録語追加

じんもんこん 2008 15

Table 1: kh の入出力の例。後撰和歌集 664 番歌。「*助」は、助詞の種類が特定できないことを示す。“---” の区間は候補が複数あることを示す。

【入力】 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん

【出力】 000664わすら (ラ四-未:忘る:わする:忘ら:わすら)れ (自可受-用:る:る:れ:れ)て (接助:て:て)思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)なげき (カ四-用:嘆く:なげく:嘆き:なげき)の (格助:の:の)しげる (ラ四-終体:茂る:しげる:茂る:しげる)を (*助:を:を)や (係助:や:や)身 (名:身:み)を (*助:を:を)---はづかし (名-地名:羽束師:はづかし)の (格助:の:の)---はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)の (格助:の:の)---もり (名:森:もり)と (格助-引用:と:と)いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)らん (推-終体:らむ:らむ:らむ:らむ)

じんもんこん 2008 16

t2c (token to code)とは

• kh で切り出した単語に分類コードを付加。

• 異形同語「龍田」「竜田」「立田」の分類制御を行う。

• 一般語 (BG)→分類語彙表索引を利用し、古語の追加。

• 地名 (CH)・人名 (PN)→新規作成

• 文法質 (田島, 1999)の調査のために文法関連コード体系を追加。

じんもんこん 2008 17

コードの形式と体系 (一般語の例)

大分類(2桁)

BG-01

1.体 (名詞)

2.用 (動詞)

3.相 (形容詞・副詞)

4.その他 (接続詞など)

中分類(4桁)

5520

1.抽象的関係

2.人間活動の主体

3.人間活動-精神・行為

4.生産物および用具

5.自然および自然現象

小分類(2桁)

17(柑橘類)

個別コード(4桁)

0100(きんかん)0101(金柑)

個別コードの下2桁は表記上の違いのみを区別する。

じんもんこん 2008 18

「花橘」の例BG-01-5520-17-0400:02:00:00:たちばな:たちばな:橘BG-01-5520-17-0401:02:00:00:橘:たちばな:橘

...

.

BG-01-5520-17-1400:02:00:00:はなたちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1401:02:00:00:花たちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1402:02:00:00:花橘:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

「→」は実際には改行のないことを意味する。

じんもんこん 2008 19

コード仕様

• 18桁で表現

BG-01-5520-17-0100 きんかん

BG-01-5520-17-0101 金柑

• 異形同語の区別の有無18桁すべてを照合させるか、16桁までで照合させるか。

if (strncmp(str_a, str_b, 16) == 0)

printf("same object.\n");

else

printf("different object.\n");

じんもんこん 2008 20

開発過程

• 地名、人名の追加、不足語の登録

• 厳密には分類語彙表は現代語が前提 (犬飼, 1988)

ほぼ同義同形態→問題点が少ない。同形態で語義が大きく変化している場合→大問題。

• 計 50189レコードの t2cの辞書→ 一般語 48732、地名 1408、人名 49

• 問題点 (多義語、異形同語、同形異語)

→ 「焼き魚」は魚か?(荻野, 1993)

→ 「卯の花」は、植物か?食べ物か?

じんもんこん 2008 21

Table 2:タグづけ済みの八代集シソーラス

01:000002:0001 A00 BG-01-4240-01-0100 袖 そで 袖 0201:000002:0002 A00 BG-02-5130-01-2100 漬つ ひつ 漬つ 4701:000002:0003 A00 BG-08-0064-16-0100 て て て 6401:000002:0004 A00 BG-02-1515-08-0105 掬ぶ むすぶ 掬ぶ 4701:000002:0005 A00 BG-09-0010-04-0200 き き き 7401:000002:0006 A00 BG-01-5130-03-0201 水 みづ 水 0201:000002:0007 A00 BG-08-0061-07-0100 の の の 6101:000002:0008 A00 BG-02-5160-01-0101 凍る こほる 凍る 4701:000002:0009 A00 BG-09-0010-03-0300 り り り 7401:000002:0010 A00 BG-08-0061-10-0100 を を を 6101:000002:0011 A00 BG-01-1624-02-0100 春 はる 春 0201:000002:0012 A00 BG-02-1513-01-0100 立つ たつ 立つ 4701:000002:0012 A10 BG-02-1521-06-0200 立つ たつ 立つ 4701:000002:0012 A20 BG-02-3330-11-0200 立つ たつ 立つ 4701:000002:0012 A30 BG-02-3391-02-1100 立つ たつ 立つ 4701:000002:0013 A00 BG-01-1641-02-1100 今日 けふ 今日 0201:000002:0014 A00 BG-08-0061-07-0100 の の の 6101:000002:0015 A00 BG-01-5151-01-0100 風 かぜ 風 0201:000002:0016 A00 BG-08-0065-14-0100 や や や 6501:000002:0017 A00 BG-02-1550-05-0200 解く とく 解く 4701:000002:0017 A10 BG-02-3060-09-0400 解く とく 解く 4701:000002:0018 A00 BG-09-0010-02-0100 らむ らむ らむ 74

じんもんこん 2008 22

検索実験

• 異形同語の検索と集計「立田」のコード「CH-29-0000-00-1800」のうち上 16

桁を検索・集計

→立田 (54)、竜田 (5)、龍田 (4)と合わせた頻度 (63)を出力。

• カテゴリによる検索と集計植物名のカテゴリ「BG-01-5520」

→「松」をはじめ、203 種類の植物名を出力。

• 欠落したカテゴリの探索→ 食物名と和歌

じんもんこん 2008 23

食物名と和歌

• 「あの日食べた○○はおいしかったなぁ」「心に思ふことを見るもの聞くものにつけて、言ひいだせるなり」

(紀貫之, 古今集仮名序)

→美食の歌は存在しないのか?

• 和歌文学での食の表現は?概して王朝文学では飲食という行為は描写の対象として軽視され

ている。和歌文学に至っては、食い物・飲み物それ自体が意識的

に排除されている。(久保田, 2003)

→ 食料のカテゴリを検索し、データ検証する。

じんもんこん 2008 24

食料 BG-01-4300

表: 食料カテゴリ(BG-01-43)の内訳一覧

BG-01-4300 品目名以外、おかず、常食、飼料、餌などBG-01-4310 飯・そば・パン・汁などBG-01-4320 米・糠・小麦粉などBG-01-4321 乾物・漬物・煮物などBG-01-4322 梅干・豆腐・寒天・とろろなどBG-01-4323 さかな・鰹節・肉BG-01-4330 調味料・麹などBG-01-4340 菓子BG-01-4350 飲料・たばこBG-01-4360 薬剤・薬品BG-01-4370 化粧品

% grep "BG-01-43[1-5]" hachidaishu.db

じんもんこん 2008 25

結果表5: 食料(BG-01-43)を八代集シソーラスより検索

1. 01 000708 0005 BG-01-4330-03-0100 塩 しほ2. 01 000758 0005 BG-01-4330-03-0100 塩 しほ3. 01 000894 0009 BG-01-4330-03-0100 塩 しほ4. 02 001095 0001 BG-01-4330-03-0100 塩 しほ4. 02 001095 0014 BG-01-4310-08-0700 蓼水 ただみ5. 03 000423 0005 BG-01-4330-03-0100 塩 しほ6. 03 001350 0006 BG-01-4310-02-0201 飯 いゐ7. 04 001203 0005 BG-01-4310-06-0102 餅 もちひ8. 05 000501 0007 BG-01-4321-01-0600 磯干鯛 いそひたひ9. 08 001115 0004 BG-01-4330-03-0100 塩 しほ10. 08 001590 0007 BG-01-4330-03-0100 塩 しほ11. 08 001592 0005 BG-01-4330-03-0100 塩 しほ12. 08 001701 0007 BG-01-4330-03-0100 塩 しほ

じんもんこん 2008 26

食物名と和歌1. 須磨の海人の塩焼く煙風をいたみ思はぬ方に棚引きにけり

(古今 708)

5. 塩と言へばなくても辛き世中にいかにあへたる蓼水成らん(後撰 1095)

7. しなてるや片岡山に飯に飢へて臥せる旅人あはれ親なし(拾遺 1350)

8. 三日の夜の餅は食はじ煩わし聞けば淀野に母子摘む也(後拾遺 1203)

9. 逢ふことは片眠りなる磯干鯛ひねり臥すとも甲斐やなからん(金葉 501)

じんもんこん 2008 27

食物名と和歌

• 食物名はまったくないわけではない。

• しかし、わずかな歌に見えるだけ。(0.03%)

• 久保田の指摘はきわめて正確。

• 歌ことばとして使われないカテゴリを見つけることができる。

じんもんこん 2008 28

歌ことば可視化システム

http://etymology.jp/waka/poem.cgi

図0–1 「吉野」の入力

じんもんこん 2008 29

図0–2 八代集における「吉野」の一覧と頻度

じんもんこん 2008 30

図0–3 可視化モデルの出力

じんもんこん 2008 31

図0–4 ノード「咲く」に相当する和歌の出力

• モデルから実例へのトラッキング

• 共出現パターンはほぼ正規分布。

• 1シグマで内容語の抽出がだいたい可能

じんもんこん 2008 32

まとめ

• 異形同語の語も一括して検索・抽出。

• コードづけ作業の軽減。

• 上位カテゴリによる検索・集計。

• 歌ことばの利用傾向をカテゴリを通して知る。

• 上位–下位関係は十分ではない。

じんもんこん 2008 33

おわりに (1)

• 分類語彙表の構造を利用し、それに追加。→ 一連の基礎研究を踏襲。

• 古語としての体系の検証→ 古語の体系として問題がないわけではない。

• 八代集から徐々に拡張していく予定。→ khの辞書からMeCab辞書を作成済。さらに二十一代集へ。また、Unidicの辞書単位との調整。

→ 文体や時代を超えて比較するには?古語と現代語の比較/韻文と散文の比較

じんもんこん 2008 34

おわりに (2)

• グラフクラスタリングの試み。→ ノード間の連結性に着目。連結性が高くなくても除去すると語彙構造が変わってしまうノードを特定。

• データフォーマットをXMLへ拡張。

• シソーラスのインターネット公開。