workshop20110305slide01
TRANSCRIPT
コーパス日本語学ワークショップ 2012 1
通時コーパスと言語空間論
山元啓史 † 田中牧郎 ‡ 近藤泰弘 ‡∗
†東京工業大学 /カリフォルニア大学サンディエゴ校
‡国立国語研究所言語資源研究系
∗ 青山学院大学
March 6th 2012
コーパス日本語学ワークショップ 2012 2
通時コーパスの設計
1. 資料の選定
2. 電子化と情報付与
(異文・原文表記、引用、文体など)
3. 各時代対応の形態素解析
→ 通時研究の目的は?アプローチは?
コーパス日本語学ワークショップ 2012 3
通時コーパスプロジェクト
発表の主旨
いかに通時をとらえるか?!
→ 古代語の調査だけか?
→ 共時と通時の関係は?
コーパス日本語学ワークショップ 2012 4
通時コーパスプロジェクト
研究のポイント
• 通時(時間的な幅)
• コーパスによる研究
• 内省がきかない
• 知らないふりをしてみる
コーパス日本語学ワークショップ 2012 5
コーパス言語学での議論
• 言語の記述
• 言語の普遍性
• 言語の空間
• 共時態と通時態(←)
→ それぞれについて十分留意されているか?
コーパス日本語学ワークショップ 2012 6
共時態と通時態
•共時態...点
•通時態...線
「時間を隔てた2つの点が違う」をいうには?
→2点の差をとる(引き算をする)!• 言語データを数理的な形式に変えて、差分をとる
• 各層の差分を変化量として分析する
コーパス日本語学ワークショップ 2012 7
共時態の各層から差分をとる
A B C D
A-B B-C C-D
A+B B+C C+D
B-A C-B D-C
BC-AB CD-BC
図1 共時態の各層から差分をとる:ABCDは時間軸に並べられた任意の資料。差分をとるだけでなく、両者の体系に共通の原理を抽出し、その抽出したものをさらに隣接の抽出したものと比較して分析していく。
コーパス日本語学ワークショップ 2012 8
方法のポイント
• 変化量に注目→ 比較の計画
• 各時代辞書、各時代シソーラス→ コーパス+αの開発
• 現代人は古典語について内省できない→ 網羅的な調査
• 内省に代わる感知の機構を手に入れる→ 構造性、規則性、原理の探究
→時間軸を紡ぎ、内省を網羅的大量処理で補完する
コーパス日本語学ワークショップ 2012 9
コーパスと記述
Langue
言語の記述コーパス複雑系の科学
言語の構造
観察・操作できる
言語の形式
Parole
観察・操作できない
静的
結果の可視化
パターンの探索シーケンシャルリーダ
通時的変遷を動的に示せるか?
静的
図2 コーパスと記述、langue と parole: 一般的に記述されたものは静的ではあるが、言語の存在自体は常に変わりつづける動的なものである。その動的な記述はどうすればできるのであろうか。言語の要素はさまざまなものからなり、コーパスにて観察できる姿は複雑多岐にわたる要素が絡み合った現象である。
コーパス日本語学ワークショップ 2012 10
方法のポイント
• 比較の計画
• 各時代辞書、各時代シソーラス
• 網羅的な調査
• 内省に代わる感知の機構
コーパス日本語学ワークショップ 2012 11
方法のポイント
• 比較の計画
• 各時代辞書、各時代シソーラス
• 網羅的な調査
• 内省に代わる感知の機構
上記を動的にやってくれるシステム
→コーパスロボット
コーパス日本語学ワークショップ 2012 12
コーパスロボット
文字列 配列← →
図4 コーパスロボット(シーケンシャルリーダ):
DNA を構成するアミノ酸探索ロボットからヒント。データマイニングツール。コーパスの文字列を行き来しながら、何回でも瞬時に仮説を検証することができる機械。
コーパス日本語学ワークショップ 2012 13
計画的な比較をするには?
1. 系列:同じ内容、類似の内容
→源氏物語、異本の比較
→ある作品、現代語訳の比較
→時系列で順に比較
2. モデル:数理的表現に置き換える
3. 比較:差分をとる
4. 集合論:交差を見る
5. 分類:内容の違いと言語の違いを区別
コーパス日本語学ワークショップ 2012 14
数理モデル:鶯と時鳥の統合モデル
鴬-CT-23-229-3.73-15 時鳥-CT-40-370-3.27-16
毎朝
野辺8
鴬17
老
笠
6
10
青柳
4
挿頭す
4
縫う 6春
88
10
立田
10
枝
35
花 138
とまる
15
折る
22
泣く
29
鳴く145
まだ
30
夏
横
8
時鳥
39
一声
8
五月
42
音羽
20
声174
山
110261
鳴き声
21
五月雨
14
聞く
69
聞える
37
去年
10
あやめ草
7
梢9
12
20
20
11
今朝
29
9
19
越える10
惜しむ
10
木高い
4
10
近く 6
6226
条理
8
6
案内
誘い出す4
9
送る
4
別れ
7
4
香
7
2010
春霞
9
立つ
10
夏山
11
ふりしぼる
6
梅
10
56
23
44
山時鳥
9
隠れる
76
10
散る
52
10
触れる
10
手
10
添える
5
羽ばたく6
6
借りる
19
何時の間に
9
梢高い
7
7
はるか
5
コーパス日本語学ワークショップ 2012 15
モデルからやりたいこと
「まとまり」の系統的/網羅的/相対的な分析
コーパス日本語学ワークショップ 2012 16
歌集で変化する共有ノード
「桜」と「吉野」
•古今集における「桜/吉野」
•新古今集における「桜/吉野」
→「吉野」と「雪」
コーパス日本語学ワークショップ 2012 17
古今集「桜/吉野」の交差
古今集「桜/吉野」の交差
コーパス日本語学ワークショップ 2012 18
新古今集「桜/吉野」の交差
新古今集「桜/吉野」の交差
コーパス日本語学ワークショップ 2012 19
Residual
CT (秋の末近くなって帰り道についた)龍田姫(が道中の無事を願って)手 向け
OP ——— — — — — — — —立田姫— — — — — — —手向ける
CT (をする)神があるからこそ秋の木の葉(が)幣(となって)散っ(ているのだろ) う
OP — — 神のあれ ば こそ秋の木の葉 [の]幣と — —散る— — — — らめ
Figure 1: Example of the matching process in the case of kks 298 in Ko-
machiya (1982)
コーパス日本語学ワークショップ 2012 20
+-------- # of pair| +----- value of matching level, exact=17, field=13, group=10| | +-- # of POS| | || | | # of element of OP ----+ +- # of element of CT| | | element of OP -+ | | +--- element of CT| | | | | | |1 17 11 立田姫 00 <-> 12 龍田姫 (Tatsutahime)2 17 47 手 04 <-> 25 手 (hand)3 17 47 向ける 05 <-> 26 向ける (toward)4 17 2 神 06 <-> 32 神 (god)5 10 61 の 07 <-> 33 が (SUB)6 17 47 有り 08 <-> 34 ある (be)7 10 64 ば 09 <-> 35 から (because)8 17 65 こそ 11 <-> 36 こそ (EM)9 17 2 秋 12 <-> 38 秋 (autumn)10 17 71 の 13 <-> 39 の (CON)11 17 2 木の葉 14 <-> 40 木の葉 (leaf of tree)12 17 2 幣 19 <-> 45 幣 (present)13 17 61 と 20 <-> 46 と (CRD)14 17 47 散る 21 <-> 49 散る (fall)
15 13 74 らむ 22 <-> 54 う (CJR)
Figure 2: Example of the matching process
コーパス日本語学ワークショップ 2012 21
Components of OP
Table 1: Result of subtracting the elements of OP(298) from thoseof CT(298, koma): it indicates the ratio of the ingredientsof OP(298).
OP (valid number of element) = 16E (ratio of exact match) 12/16 = 0.750F (ratio of field match) 1/16 = 0.062G (ratio of group match) 2/16 = 0.125T (ratio of total match) 15/16 = 0.938U (ratio of unmatched OP) 1 - T = 0.062
コーパス日本語学ワークショップ 2012 22
差分の方法の例:田中(2011)
1. 比較:今昔物語集 v.s. 日本霊異記/宇治拾遺物語
→今昔と宇治拾遺の同文説話表現の比較
2. 言語の変化により入れ替わったもの
3. 翻訳者が何らかの基準で取捨選択したもの
コーパス日本語学ワークショップ 2012 23
系列比較のための変遷要素の差分モデル
t2t1
3.0
2.32.1
1.0
2.2
A′A f(x)
T
図3 系列比較のための変遷要素の差分モデル: A は t1 の時に発生した、あるまとまりを持った内容、A′ は t2 時に発生した、A に対応するまとまりを持った内容。T は時間軸。f(x) は A の任意の要素 x を A′ の要素とするための関数。
コーパス日本語学ワークショップ 2012 24
系列比較モデル
1. 何を系列と見るかを考えなければならない。
→源氏物語、異本の比較
→ある作品、現代語訳の比較
→時系列で順に比較
→任意2対象の相対的な比較
2. 比較は分析の基本的技術。
3. 同じとはどういうことか?
→課題はたくさん!
コーパス日本語学ワークショップ 2012 25
今後の課題
1. 処理の単位→ノビチヂミする機構?
2. 作品別形態素解析辞書
→連接確率(syntagmatic)
→語彙差分(paradigmatic)
3. 作品間を比較するためのシソーラス
→表記の異同をコントロールする仕組み
上記は「研究テーマ集」の一部(基礎編)
コーパス日本語学ワークショップ 2012 26
おわりに
• 概念の整理
• 方法の提案– 系列比較モデル
– シーケンシャルリーダ
• 追加の作業– 辞書、シソーラス
– 研究テーマ集
コーパス日本語学ワークショップ 2012 27
s2s1
3.0
2.32.1
1.0
2.2
A′A f(x)
S
図4 系列比較モデル(共時): 通時のモデルの時間軸 T を共時軸 S にしただけである。ただし、T は時間しか表さないが、共時軸 S は、同じ時に発生した同じテキストの異なる言い方や文化、翻訳、方言など、さまざまな場合が考えられる。
コーパス日本語学ワークショップ 2012 28
s2
s1
t2t1
3.0
2.3
2.1
3.0
2.32.1
1.0
2.2
2.2
A′′
A′A f(x)
f(x)
T
diachronicS
synch
ronic
図5 系列比較モデル(共時/通時): 縦軸が共時 (synchronic)、横軸が通時 (diachronic)。共時と考えられる関係であっても時間の幅を持つ要素が含まれることもある。