workshop20110305slide01

28
コーパス日本語学ワークショップ 2012 1 通時コーパスと言語空間論 山元啓史 田中牧郎 近藤泰弘 ‡* 東京工業大学 /カリフォルニア大学サンディエゴ校 国立国語研究所言語資源研究系 * 青山学院大学 March 6th 2012

Upload: hilo-yamamoto

Post on 13-Jul-2015

294 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 1

通時コーパスと言語空間論

山元啓史 † 田中牧郎 ‡ 近藤泰弘 ‡∗

†東京工業大学 /カリフォルニア大学サンディエゴ校

‡国立国語研究所言語資源研究系

∗ 青山学院大学

March 6th 2012

Page 2: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 2

通時コーパスの設計

1. 資料の選定

2. 電子化と情報付与

(異文・原文表記、引用、文体など)

3. 各時代対応の形態素解析

→ 通時研究の目的は?アプローチは?

Page 3: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 3

通時コーパスプロジェクト

発表の主旨

いかに通時をとらえるか?!

→ 古代語の調査だけか?

→ 共時と通時の関係は?

Page 4: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 4

通時コーパスプロジェクト

研究のポイント

• 通時(時間的な幅)

• コーパスによる研究

• 内省がきかない

• 知らないふりをしてみる

Page 5: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 5

コーパス言語学での議論

• 言語の記述

• 言語の普遍性

• 言語の空間

• 共時態と通時態(←)

→ それぞれについて十分留意されているか?

Page 6: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 6

共時態と通時態

•共時態...点

•通時態...線

「時間を隔てた2つの点が違う」をいうには?

→2点の差をとる(引き算をする)!• 言語データを数理的な形式に変えて、差分をとる

• 各層の差分を変化量として分析する

Page 7: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 7

共時態の各層から差分をとる

A B C D

A-B B-C C-D

A+B B+C C+D

B-A C-B D-C

BC-AB CD-BC

図1 共時態の各層から差分をとる:ABCDは時間軸に並べられた任意の資料。差分をとるだけでなく、両者の体系に共通の原理を抽出し、その抽出したものをさらに隣接の抽出したものと比較して分析していく。

Page 8: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 8

方法のポイント

• 変化量に注目→ 比較の計画

• 各時代辞書、各時代シソーラス→ コーパス+αの開発

• 現代人は古典語について内省できない→ 網羅的な調査

• 内省に代わる感知の機構を手に入れる→ 構造性、規則性、原理の探究

→時間軸を紡ぎ、内省を網羅的大量処理で補完する

Page 9: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 9

コーパスと記述

Langue

言語の記述コーパス複雑系の科学

言語の構造

観察・操作できる

言語の形式

Parole

観察・操作できない

静的

結果の可視化

パターンの探索シーケンシャルリーダ

通時的変遷を動的に示せるか?

静的

図2 コーパスと記述、langue と parole: 一般的に記述されたものは静的ではあるが、言語の存在自体は常に変わりつづける動的なものである。その動的な記述はどうすればできるのであろうか。言語の要素はさまざまなものからなり、コーパスにて観察できる姿は複雑多岐にわたる要素が絡み合った現象である。

Page 10: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 10

方法のポイント

• 比較の計画

• 各時代辞書、各時代シソーラス

• 網羅的な調査

• 内省に代わる感知の機構

Page 11: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 11

方法のポイント

• 比較の計画

• 各時代辞書、各時代シソーラス

• 網羅的な調査

• 内省に代わる感知の機構

上記を動的にやってくれるシステム

→コーパスロボット

Page 12: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 12

コーパスロボット

文字列 配列← →

図4 コーパスロボット(シーケンシャルリーダ):

DNA を構成するアミノ酸探索ロボットからヒント。データマイニングツール。コーパスの文字列を行き来しながら、何回でも瞬時に仮説を検証することができる機械。

Page 13: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 13

計画的な比較をするには?

1. 系列:同じ内容、類似の内容

→源氏物語、異本の比較

→ある作品、現代語訳の比較

→時系列で順に比較

2. モデル:数理的表現に置き換える

3. 比較:差分をとる

4. 集合論:交差を見る

5. 分類:内容の違いと言語の違いを区別

Page 14: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 14

数理モデル:鶯と時鳥の統合モデル

鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16

毎朝

野辺8

鴬17

6

10

青柳

4

挿頭す

4

縫う 6春

88

10

立田

10

35

花 138

とまる

15

折る

22

泣く

29

鳴く145

まだ

30

8

時鳥

39

一声

8

五月

42

音羽

20

声174

110261

鳴き声

21

五月雨

14

聞く

69

聞える

37

去年

10

あやめ草

7

梢9

12

20

20

11

今朝

29

9

19

越える10

惜しむ

10

木高い

4

10

近く 6

6226

条理

8

6

案内

誘い出す4

9

送る

4

別れ

7

4

7

2010

春霞

9

立つ

10

夏山

11

ふりしぼる

6

10

56

23

44

山時鳥

9

隠れる

76

10

散る

52

10

触れる

10

10

添える

5

羽ばたく6

6

借りる

19

何時の間に

9

梢高い

7

7

はるか

5

Page 15: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 15

モデルからやりたいこと

「まとまり」の系統的/網羅的/相対的な分析

Page 16: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 16

歌集で変化する共有ノード

「桜」と「吉野」

•古今集における「桜/吉野」

•新古今集における「桜/吉野」

→「吉野」と「雪」

Page 17: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 17

古今集「桜/吉野」の交差

古今集「桜/吉野」の交差

Page 18: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 18

新古今集「桜/吉野」の交差

新古今集「桜/吉野」の交差

Page 19: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 19

Residual

CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け

OP ——— — — — — — — —立田姫— — — — — — —手向ける

CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う

OP — — 神のあれ ば こそ秋の木の葉 [の]幣と — —散る— — — — らめ

Figure 1: Example of the matching process in the case of kks 298 in Ko-

machiya (1982)

Page 20: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 20

+-------- # of pair| +----- value of matching level, exact=17, field=13, group=10| | +-- # of POS| | || | | # of element of OP ----+ +- # of element of CT| | | element of OP -+ | | +--- element of CT| | | | | | |1 17 11 立田姫 00 <-> 12 龍田姫 (Tatsutahime)2 17 47 手 04 <-> 25 手 (hand)3 17 47 向ける 05 <-> 26 向ける (toward)4 17 2 神 06 <-> 32 神 (god)5 10 61 の 07 <-> 33 が (SUB)6 17 47 有り 08 <-> 34 ある (be)7 10 64 ば 09 <-> 35 から (because)8 17 65 こそ 11 <-> 36 こそ (EM)9 17 2 秋 12 <-> 38 秋 (autumn)10 17 71 の 13 <-> 39 の (CON)11 17 2 木の葉 14 <-> 40 木の葉 (leaf of tree)12 17 2 幣 19 <-> 45 幣 (present)13 17 61 と 20 <-> 46 と (CRD)14 17 47 散る 21 <-> 49 散る (fall)

15 13 74 らむ 22 <-> 54 う (CJR)

Figure 2: Example of the matching process

Page 21: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 21

Components of OP

Table 1: Result of subtracting the elements of OP(298) from thoseof CT(298, koma): it indicates the ratio of the ingredientsof OP(298).

OP (valid number of element) = 16E (ratio of exact match) 12/16 = 0.750F (ratio of field match) 1/16 = 0.062G (ratio of group match) 2/16 = 0.125T (ratio of total match) 15/16 = 0.938U (ratio of unmatched OP) 1 - T = 0.062

Page 22: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 22

差分の方法の例:田中(2011)

1. 比較:今昔物語集 v.s. 日本霊異記/宇治拾遺物語

→今昔と宇治拾遺の同文説話表現の比較

2. 言語の変化により入れ替わったもの

3. 翻訳者が何らかの基準で取捨選択したもの

Page 23: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 23

系列比較のための変遷要素の差分モデル

t2t1

3.0

2.32.1

1.0

2.2

A′A f(x)

T

図3 系列比較のための変遷要素の差分モデル: A は t1 の時に発生した、あるまとまりを持った内容、A′ は t2 時に発生した、A に対応するまとまりを持った内容。T は時間軸。f(x) は A の任意の要素 x を A′ の要素とするための関数。

Page 24: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 24

系列比較モデル

1. 何を系列と見るかを考えなければならない。

→源氏物語、異本の比較

→ある作品、現代語訳の比較

→時系列で順に比較

→任意2対象の相対的な比較

2. 比較は分析の基本的技術。

3. 同じとはどういうことか?

→課題はたくさん!

Page 25: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 25

今後の課題

1. 処理の単位→ノビチヂミする機構?

2. 作品別形態素解析辞書

→連接確率(syntagmatic)

→語彙差分(paradigmatic)

3. 作品間を比較するためのシソーラス

→表記の異同をコントロールする仕組み

上記は「研究テーマ集」の一部(基礎編)

Page 26: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 26

おわりに

• 概念の整理

• 方法の提案– 系列比較モデル

– シーケンシャルリーダ

• 追加の作業– 辞書、シソーラス

– 研究テーマ集

Page 27: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 27

s2s1

3.0

2.32.1

1.0

2.2

A′A f(x)

S

図4 系列比較モデル(共時): 通時のモデルの時間軸 T を共時軸 S にしただけである。ただし、T は時間しか表さないが、共時軸 S は、同じ時に発生した同じテキストの異なる言い方や文化、翻訳、方言など、さまざまな場合が考えられる。

Page 28: Workshop20110305slide01

コーパス日本語学ワークショップ 2012 28

s2

s1

t2t1

3.0

2.3

2.1

3.0

2.32.1

1.0

2.2

2.2

A′′

A′A f(x)

f(x)

T

diachronicS

synch

ronic

図5 系列比較モデル(共時/通時): 縦軸が共時 (synchronic)、横軸が通時 (diachronic)。共時と考えられる関係であっても時間の幅を持つ要素が含まれることもある。