jinmon2007slide02

32
13 回人文系データベース協議会 奈良女子大学 1 分類語彙表による 歌ことばシソーラスの開発 山元啓史 Hilofumi Yamamoto December 22, 2007

Upload: hilo-yamamoto

Post on 03-Jul-2015

95 views

Category:

Technology


3 download

TRANSCRIPT

Page 1: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 1

分類語彙表による歌ことばシソーラスの開発

山 元 啓 史Hilofumi Yamamoto

December 22, 2007

Page 2: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 2

概要

歌ことばの可視化システムの内部データベースとして開発したシソーラスデータベースについて報告する。

http://etymology.jp/waka/poem.cgi

図0–1 「吉野」の入力

Page 3: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 3

図0–2 八代集における「吉野」の一覧と頻度

Page 4: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 4

図0–3 可視化モデルの出力

Page 5: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 5

図0–4 ノード「咲く」に相当する和歌の出力

Page 6: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 6

はじめに

• 日本語とはどんな言語か。→ 日本語は系統として孤立。→ どの語族にも属さない。→ 使用人口第6位。→ 1億人以上の人々によって話される。(宮地他、1977)

1000年以上も前から「花」は「花」!

• ちなみに日本語学習者数?

Page 7: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 7

参考

• 日本語学ぶ外国人、298万人に→ 1位、韓国約91万人→ 2位、中国、68万人→ 3位、オーストラリア、37万人

オーストラリアの全人口はおよそ2000万人

(朝日新聞 asahi.com: 2007/11/17)

Page 8: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 8

和歌と言語学

• 和歌→文学作品、言語分析の資料

• とりわけ「八代集」→言語の変遷を調査するのに重要

Page 9: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 9

八代集 (ca.905–1205)

• 古今集 (ca.905)から新古今集 (1205)までの 300年間

→ 9500首

• 言語の変遷を見る→ 言語の形は変わらないが、意味は変わる(Goodenough, 1991)

Page 10: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 10

八代集の語彙の転換期

和歌の転換期?説はいろいろ。

1. 一般的には古今撰者の歌の排除された後拾遺集。

2. 上野 (1976)

• 古今・後撰→〈褻の歌〉の時代• 拾遺集以降→〈晴の歌〉の時代

3. 川村 (1991)

→後拾遺集以降の変化はすでに拾遺集に見られる。

4. 辻 (1998) 語彙的には千載集。

Page 11: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 11

語彙の転換期は?

• 何を基準に転換と考えているか?

語彙の体系は一つの平面の上にかけるものではなく、意味、形、文体などいくつかの側面の総合として存在するゆえ、各側面ごとに見ていかなければならない。(宮島, 1977, p.4)

→ 視点によって異なるのでは?→ 手法や単位の認定などによっても変わっている?

Page 12: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 12

データの統一・管理

• 単語の認定の仕方次第で見方は変わってしまう。→ データの統一・管理日本語の語い調査でいちばんこまることは、「単語」という単位が

確立していないことである (宮島, 1994, p.113)

• シソーラスの目的と機能単位 → 卯の花 or 卯/の/花 (中野, 1998)

表記 → さびしい/さみしい/寂しい/淋しい体系 → 卯の花 ∈ 植物 or 卯の花 ∈ 食料

Page 13: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 13

語彙分類をすることのむずかしさ

• 意味コードによる分類 (西端, 1989; 田島, 1995)

→ 作業の困難さ。(田島, 1995)

→ 予想以上に手間取った。(西端, 1989)

• 人手による意味分類の弊害 (土屋, 1978)

→ カードによる作業者の頭で大部分が行われてしまっている。

コンピュータによる作業の軽減と統一

Page 14: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 14

本発表では

• 八代集のためのシソーラスコード辞書

• 和歌テキストへの自動的付加 (タギング)ツール

• 試用評価

について述べる。

Page 15: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 15

材料、底本

• 材料: 「八代集データベース」

→ 国文学研究資料館蔵正保版本「八代集」

900

古今集

(•90

5)

46

950

後撰集

(•95

1)

56

1000

拾遺集

(•10

07)

79

1050�

後拾遺集

(108

6)

38

1100

金葉集

(•11

24)

20

詞花集

(•11

44)

44

1150

千載集

(118

8)

17

1200

新古今集

(120

5)

1250

Page 16: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 16

シソーラスの開発方法

• 方法

和歌テキスト kh t2c

コードづけ

代表形の付加

単位分割品詞タグづけ 詳細コードの付加

表記の統一

八代集シソーラス

(A) (B)

未登録語追加

解析用古語辞書 分類語彙表(一般)地名・人名辞書

未登録語追加

Page 17: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 17

Table 1: kh の入出力の例。後撰和歌集 664 番歌。「*助」は、助詞の種類が特定できないことを示す。“---” の区間は候補が複数あることを示す。

【入力】 000664 わすられて思ふなげきのしげるをや身をはづかしのもりといふらん

【出力】 000664わすら (ラ四-未:忘る:わする:忘ら:わすら)れ (自可受-用:る:る:れ:れ)て (接助:て:て)思ふ (ハ四-終体:思ふ:おもふ:思ふ:おもふ)なげき (カ四-用:嘆く:なげく:嘆き:なげき)の (格助:の:の)しげる (ラ四-終体:茂る:しげる:茂る:しげる)を (*助:を:を)や (係助:や:や)身 (名:身:み)を (*助:を:を)---はづかし (名-地名:羽束師:はづかし)の (格助:の:の)---はづかし (形シク-終:恥づかし:はづかし:恥づかし:はづかし)の (格助:の:の)---もり (名:森:もり)と (格助-引用:と:と)いふ (ハ四-終体:言ふ:いふ:言ふ:いふ)らん (推-終体:らむ:らむ:らむ:らむ)

Page 18: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 18

t2c (token to code)とは

• kh で切り出した単語に分類コードを付加。

• 異形同語「龍田」「竜田」「立田」の分類制御を行う。

• 一般語 (BG)→分類語彙表索引を利用し、古語の追加。

• 地名 (CH)・人名 (PN)→新規作成

• 文法質 (田島, 1999)の調査のために文法関連コード体系を追加。

Page 19: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 19

コードの形式と体系 (一般語の例)

大分類(2桁)

BG-01

1.体 (名詞)

2.用 (動詞)

3.相 (形容詞・副詞)

4.その他 (接続詞など)

中分類(4桁)

5520

1.抽象的関係

2.人間活動の主体

3.人間活動-精神・行為

4.生産物および用具

5.自然および自然現象

小分類(2桁)

17(柑橘類)

個別コード(4桁)

0100(きんかん)0101(金柑)

個別コードの下2桁は表記上の違いのみを区別する。

Page 20: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 20

コード仕様

• 18桁で表現

BG-01-5520-17-0100 きんかん

BG-01-5520-17-0101 金柑

• 異形同語の区別の有無18桁すべてを照合させるか、16桁までで照合させるか。

if (strncmp(str_a, str_b, 16) == 0)

printf("same object.");

else

printf("different object.");

Page 21: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 21

「花橘」の例BG-01-5520-17-0400:02:00:00:たちばな:たちばな:橘BG-01-5520-17-0401:02:00:00:橘:たちばな:橘

...

.

BG-01-5520-17-1400:02:00:00:はなたちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1401:02:00:00:花たちばな:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

BG-01-5520-17-1402:02:00:00:花橘:はなたちばな:花橘:→BG-01-5530-12-0100+BG-01-5520-17-0400

「→」は実際には改行のないことを意味する。

Page 22: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 22

開発過程

• 地名、人名の追加、不足語の登録

• 厳密には分類語彙表は現代語が前提 (犬飼, 1988)

ほぼ同義同形態→問題点が少ない。同形態で語義が大きく変化している場合→大問題。

• 計 50189レコードの t2cの辞書→ 一般語 48732、地名 1408、人名 49

• 問題点 (多義語、異形同語、同形異語)

→ 「焼き魚」は魚か?(荻野, 1993)

→ 「卯の花」は、植物か?食べ物か?

Page 23: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 23

Table 2: タグづけ済みの八代集シソーラス:左より、先頭2桁は歌集の番号、次6桁は歌番号、次4桁は語番号。A00 はコードを複数取るかどうかを示すフラグ、以降順に、シソーラスコード、漢字、よみ、代表形。

01 000002 0001 A00 BG-01-4240-01-0100 袖 そで 袖01 000002 0002 A00 BG-02-5130-01-2100 漬つ ひつ 漬つ01 000002 0003 A00 BG-08-0064-16-0100 て て て01 000002 0004 A00 BG-02-1515-08-0105 掬ぶ むすぶ 掬ぶ01 000002 0005 A00 BG-09-0010-04-0200 き き き01 000002 0006 A00 BG-01-5130-03-0201 水 みづ 水01 000002 0007 A00 BG-08-0061-07-0100 の の の01 000002 0008 A00 BG-02-5160-01-0101 凍る こほる 凍る01 000002 0009 A00 BG-09-0010-03-0300 り り り01 000002 0010 A00 BG-08-0061-10-0100 を を を01 000002 0011 A00 BG-01-1624-02-0100 春 はる 春01 000002 0012 A00 BG-02-1513-01-0100 立つ たつ 立つ01 000002 0013 A00 BG-01-1641-02-1100 今日 けふ 今日01 000002 0014 A00 BG-08-0061-07-0100 の の の01 000002 0015 A00 BG-01-5151-01-0100 風 かぜ 風01 000002 0016 A00 BG-08-0065-14-0100 や や や01 000002 0017 A00 BG-02-1550-05-0200 解く とく 解く01 000002 0018 A00 BG-09-0010-02-0100 らむ らむ らむ

Page 24: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 24

検索実験

• 異形同語の検索と集計「立田」のコード「CH-29-0000-00-1800」のうち上 16

桁を検索・集計

→ 立田 (54)、竜田 (5)、龍田 (4)と合わせた頻度 (63)

を出力。

• カテゴリによる検索と集計植物名のカテゴリ「BG-01-5520」

→ 「松」をはじめ、203 種類の植物名を出力。

• 欠落したカテゴリの探索→ 食物名と和歌

Page 25: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 25

食物名と和歌

• 「あの日食べた○○はおいしかったなぁ」「心に思ふことを見るもの聞くものにつけて、言ひいだせるなり」

(紀貫之, 古今集仮名序)

→ 美食の歌は存在しないのか?

• 和歌文学での食の表現は?概して王朝文学では飲食という行為は描写の対象として軽視され

ている。和歌文学に至っては、食い物・飲み物それ自体が意識的

に排除されている。(久保田, 2003)

→ 食料のカテゴリを検索し、実験的に検証する。

Page 26: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 26

食料 BG-01-4300

表: 食料カテゴリ(BG-01-43)の内訳一覧

BG-01-4300 品目名以外、おかず、常食、飼料、餌などBG-01-4310 飯・そば・パン・汁などBG-01-4320 米・糠・小麦粉などBG-01-4321 乾物・漬物・煮物などBG-01-4322 梅干・豆腐・寒天・とろろなどBG-01-4323 さかな・鰹節・肉BG-01-4330 調味料・麹などBG-01-4340 菓子BG-01-4350 飲料・たばこBG-01-4360 薬剤・薬品BG-01-4370 化粧品

% grep "BG-01-43[1-5]" hachidaishu.db

Page 27: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 27

結果表5: 食料(BG-01-43)を八代集シソーラスより検索

1. 01 000708 0005 BG-01-4330-03-0100 塩 しほ2. 01 000758 0005 BG-01-4330-03-0100 塩 しほ3. 01 000894 0009 BG-01-4330-03-0100 塩 しほ4. 02 001095 0001 BG-01-4330-03-0100 塩 しほ4. 02 001095 0014 BG-01-4310-08-0700 蓼水 ただみ5. 03 000423 0005 BG-01-4330-03-0100 塩 しほ6. 03 001350 0006 BG-01-4310-02-0201 飯 いゐ7. 04 001203 0005 BG-01-4310-06-0102 餅 もちひ8. 05 000501 0007 BG-01-4321-01-0600 磯干鯛 いそひたひ9. 08 001115 0004 BG-01-4330-03-0100 塩 しほ10. 08 001590 0007 BG-01-4330-03-0100 塩 しほ11. 08 001592 0005 BG-01-4330-03-0100 塩 しほ12. 08 001701 0007 BG-01-4330-03-0100 塩 しほ

Page 28: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 28

食物名と和歌1. 須磨の海人の塩焼く煙風をいたみ思はぬ方に棚引きにけり

(古今 708)

5. 塩と言へばなくても辛き世中にいかにあへたる蓼水成らん(後撰 1095)

7. しなてるや片岡山に飯に飢へて臥せる旅人あはれ親なし(拾遺 1350)

8. 三日の夜の餅は食はじ煩わし聞けば淀野に母子摘む也(後拾遺 1203)

9. 逢ふことは片眠りなる磯干鯛ひねり臥すとも甲斐やなからん(金葉 501)

Page 29: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 29

食物名と和歌

• 食物名はまったくないわけではない。

• しかし、わずかな歌に見えるだけ。(0.03%)

• 久保田の指摘はきわめて正確。

• 歌ことばとして使われないカテゴリを見つけることができる。

Page 30: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 30

まとめ

• 異形同語の語も一括して検索・抽出。

• コードづけ作業の軽減。

• 上位カテゴリによる検索・集計。

• 歌ことばの利用傾向をカテゴリを通して知る。

• 上位–下位関係は十分ではない。

Page 31: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 31

おわりに

• 分類語彙表の構造を利用し、それに追加。→ 一連の基礎研究を踏襲。

• 古語としての体系の検証(課題)

• 八代集から徐々に拡張していく予定。

• データフォーマットをXMLへ拡張。

• シソーラスのインターネット公開の可能性

Page 32: Jinmon2007slide02

第 13 回人文系データベース協議会 奈良女子大学 32

おわりに

• 内部データとしての利用例→ 歌ことばモデリングシステムhttp://etymology.jp/waka/poem.cgi

• お問い合わせ: [email protected]