lang.sist.chukyo-u.ac.jplang.sist.chukyo-u.ac.jp/.../2009m/okumra-mthesis.docx · web...

Click here to load reader

Upload: others

Post on 22-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

2009年度

修  士  論  文

談話構造コーパスの設計および作成

指導教員 白井英俊 教授

中京大学大学院 情報科学研究科 認知科学専攻

学籍番号 h20802m

氏 名  奥村泰章

(2010年 1月)

目次1.はじめに12.研究背景42.1.談話構造に関する既研究42.2.SDRT42.3.問題設定53.文章への修辞関係付与作業64.作業からの修辞関係セットと推定のための情報の分析94.1.修辞関係94.1.1.「記述」関係94.1.2.行動の根拠104.1.3.可能化114.1.4.対話イベント124.2.修辞関係を推定するための情報124.2.1.キューフレーズ124.2.2.イベント構造とアスペクト134.2.3.その他の情報145.システム試作・学習データ作成155.1.学習データ作成155.2.システム概要155.2.1.システムが対象とする修辞関係165.3.学習システム165.3.1.素性抽出195.3.2.SVMによる機械学習215.4.修辞関係選別システム225.4.1.候補分節の抽出235.4.2.距離計算・素性抽出245.4.3.SVMによる修辞関係成立判定246.実験・結果256.1.実験256.1.1.学習用データ286.1.2.実験用データ286.2.実験結果297.結果からの考察307.1.学習データ不足307.2.素性の不充分307.3.システム上の問題308.今後の課題328.1.追加した修辞関係について328.2.分析・コーパス作成について328.3.システムの発展について33

3

1.はじめに

文章の構造には、三段型、四段型など、文章の型として知られる大局的な談話構造と、文章を構成する命題としての文とそれに先行する文章との関係(これをに従い、修辞関係と呼ぶ)によって造られる局所的な談話構造の少なくとも二通りの構造があると考えられる。大局的な構造は、その文章の主題の導入や説明、結論という意味単位を表す。それに対し、局所的な構造は、事象間の時間順序や原因結果、事実提示からの帰結、主張に対する証拠提示などの関係というような意味関係のみならず、対照や並列構造という命題の構造的な関係から構成される。そして、局所構造の大きな塊が大局構造の要素を構成するとみなすことができる。

文章の修辞関係が明らかになっていれば、その文章に現れた事象や事物間の関係を推論することが可能になる。また、[]で示されているように、語義の曖昧さ、省略や照応の解消、前提のスコープの曖昧さ、さらには会話の含意のような運用論的な問題の解決が容易になる。 以下の例は、照応解決に談話構造が有用であることを示した例である。

(1) a. 男はあるお屋敷で一夜を過ごした。

b. 豪勢な食事をした。

c. サーモンを食べた。

d. チーズをたらふく食べた。

e. 普段は、味気ない食事ばかりだ。

f. それは男には新鮮なものであった。

(1.f)の先頭にある代名詞「それは」に照応が存在する。人間が読めば「それ」は、「一夜を過ごしたこと」か「豪勢な食事をしたこと」と判断できるが、計算機で上から順番に候補を探すと、(1.d)の「チーズを食べたこと」や「チーズ」そのものも候補として上がってくる。このような照応を解決する際に局所談話構造が有効な情報となる。図1.1と図1.2は、(1)に局所談話構造を付与したものである。Comment by Hidetosi Sirai: 代名詞は「それ」だけComment by Hidetosi Sirai: 照応ではなく先行詞。どこかで照応の説明も必要Comment by Hidetosi Sirai: 機械的にComment by Hidetosi Sirai: どのように?

図 1.1.(1a)-(1e)の局所談話構造

図 1-2.(1f)の可能な結合

このような構造が与えられていれば、図1.2に表す通り、右先端制約[G & S]により、(1.f)は(1.e),(1.b),(1.a)のいずれかしか結合することが出来ない。そのため、アクセス制約を利用して(1.c)や(1.d)のオブジェクトを照応先候補から除外することができる。Comment by Hidetosi Sirai: 番号で統一するか、著者名+出版年、で統一することComment by Hidetosi Sirai: どのような意味でか?Comment by Hidetosi Sirai: この説明は?Comment by Hidetosi Sirai: これも未定義Comment by Hidetosi Sirai: 『代名詞「それ」の先行詞の』

 本研究では、局所談話構造を構成する修辞関係を自動推定するシステムの開発を目標に、実際の日本語の文章への修辞関係の分析を行い、その結果得られた知見を用いてコーパス作成を行った。また、出来上がった少数のコーパスに対して修辞関係の選別を行うシステムを試作した。2章で研究の背景を述べ、問題設定をする。3章と4章でそれに基づいた実際の文章への修辞関係の付与とその分析について述べる。5章と6章では修辞関係の選別システムとその評価について述べ、7章では評価からの知見を述べる。8章でまとめと今後の課題について述べる。

2.研究背景

 1章で述べたように、談話構造の有用性は明らかであるが、実際にはいろいろな問題がある。本章では、既研究を紹介するとともに、問題設定をする。

2.1.談話構造に関する既研究

 談話構造に関する既研究は,などがある。日本語に関するものとしてはやなどがあるが、実際の言語資料に対してそれらで提案された修辞関係を適用するには困難が多い。実際の言語資料に適用した研究としては[]で提案された修辞構造理論(Rhetorical Structure Theory,以下RST)に基づく[]がある。[]は、表層構造に基づき、RSTで定義されている修辞関係を自動的に抽出する手法を提案し、実際に要約システムを作成している。しかし、RSTにはいくつかの問題点がある。例えば、RSTの枠組みでは、一つの命題が複数の修辞関係の項となることは許されていないが、実際の言語資料には複数の修辞関係で結ばれていると解釈するのが自然であるケースが存在する。また、定義されている修辞関係も「主張-根拠」など、言及内容に関するものに偏っており、登場人物の対話などが現れうる物語文などに対して、適用するのに充分とは言いがたい。これらを踏まえて、本研究では[]で提唱された分節化談話表示理論(Segmented Discourse Representation Theory,以下SDRT)に基づいた修辞関係の設計を行った。SDRTの詳細は以下に述べるが、SDRTを採用して大きな理由は、修辞関係の適用範囲が広いこと、一つの命題が複数の修辞関係の項となることを許容していること、そしてMDC原理などによる談話構造の計算機構が用意されているということがある。Comment by Hidetosi Sirai: 句読点も統一して欲しいComment by Hidetosi Sirai: するComment by Hidetosi Sirai: 未定義。後述する、という言葉を使って後回しする、というのもひとつの手

2.2.SDRTComment by Hidetosi Sirai: タイトルとしては、正式名称を書いて欲しい

SDRTは、などの談話表示理論(DRT)を意味表示間の関係、つまり修辞関係を導入して拡張した枠組みであり、談話解釈の理論である。SDRTで定義されている修辞関係には、明示的な意味論が与えられており、それにより、照応や時間構造の認識など、さまざまな意味現象の説明が可能となる。また、膠論理や、談話結束性最大化原理(Maximum Discourse Coherence原理,以下MDC原理)により、最適な談話構造の計算モデルが与えられている。SDRTの詳しい計算モデルはに詳しく解説されている。Comment by Hidetosi Sirai: ここは表現がおかしい。「談話表示理論(Discourse Representation Theory、以下DRTとする)[8]にたいして」Comment by Hidetosi Sirai: 正式名称を書くComment by Hidetosi Sirai: 読点は不要Comment by Hidetosi Sirai: 未定義なので削除Comment by Hidetosi Sirai: 膠論理を削除したので。、「など」をいれる

さらに、質問や承諾といった、従来の談話構造の理論では信念や意図によって説明されてきた言語行為を、発話間の照応的な関係として扱い、修辞関係をこの言語行為のタイプとしてみなしている。これにより、修辞関係(=談話構造)の枠組みの中でこれらの言語行動を扱うことが可能であり、従来の理論よりも適用範囲の広い修辞関係セットが定義されている。Comment by Hidetosi Sirai: 読点が多すぎる

2.3.問題設定

前節で述べた通り、SDRTは、従来の談話構造の研究では扱っていなかった言語行為などを含めた、より適用範囲が広い修辞関係セットを定義している。また、MDC原理による計算機構も用意されており、計算機による実装が可能であることも示されている。しかし、SDRTの修辞関係セットが実際に日本語の文章にどの程度適用可能であるかは明らかになっていない。Comment by Hidetosi Sirai: 「ではない」

また、どのように修辞関係を推定するかのルールも明確になっていない。修辞関係推定器を作成するためには、素性となる情報が明確になっていることが必要である。さらに、出来ればそれは現状の言語資源で利用可能であることが望ましい。そのため、人間が修辞関係の同定に用いている情報を分析、整理し、計算機で利用できるように記述することが必要である。Comment by Hidetosi Sirai: ルールと言うより手法

以上で、有用な修辞関係推定器及び、そのデータベースとなる談話構造コーパスを作成するためには

(1)修辞関係セットの定義

(2)修辞関係推定に必要な情報の明確化

の二点が必要であることを述べた。そこで、本研究ではSDRTをベースに日本語の文章に対して人手による修辞関係の付与及び修辞関係を推論するための情報の分析を行った。分析の詳細は3章で、その結果明らかになったことは4章で述べる。

3.文章への修辞関係付与作業

本研究では、小学校2年~中学校1年まで、各学年2~5個の計18個の文章を対象に人手による修辞関係の付与を行った。作業者は大人2名、文章のタイプは説明文と物語文を対象とした。対象の数は、説明文18本、物語文4本の計22本である。作業者は二人で、修辞関係の分類は作業者の考えに基づいている。文章の一覧は付録Aに掲載した。Comment by Hidetosi Sirai: 「国語教科書に収められている文章」くらいの説明は欲しいComment by Hidetosi Sirai: よってComment by Hidetosi Sirai: ちょっと中途半端。「であり」Comment by Hidetosi Sirai: 「それぞれの作業者」?Comment by Hidetosi Sirai: 対象とした文章

 以下に、修辞関係の付与の手順を示す。まず、各文の先頭に、段落番号と段落内での文番号を付与し、文内の各命題に対し、命題番号を付与する。そして、各文(命題)ごとにそこで成り立つ修辞関係を記述し、さらにその修辞関係を推論するのに必要な情報を記述する。

以下に説明文に対する修辞関係付与例を示す。例文は小学校国語教科書3年上より「ありの行列」より抜粋した。

(1) a. [2,1] アメリカに、ウイルソンという学者がいます。

b. [2,2] この人は、[次のような実験をし](1)て、[蟻の様子を観察しました](H)。

・記述:事物:主題化(主体「ウイルソン」=「この人」) 2,1 => 2,2

・行為-目的(アスペクト[activity→activity],語「て」:前文末尾,同一主体) 2,2(1) -> 2,2(H)

・記述:対象化(対象「蟻」) 1,4 => 2,2

c. [3,1] はじめに、蟻の巣から少し離れた所に、一つまみの砂糖を置きました。

・詳細化:行為(語句「はじめに」:先頭,語句「次のような」:前文中)2,2 => 3,1

d. [3,2] しばらくすると、一匹の蟻が、その砂糖を見つけました。

・可能化(砂糖を置く=>砂糖を見つける) 3,1 => 3,2

・状況:時間経過(アスペクト[transition+完了形→transition+完了形], 語句「しばらくすると」:先頭、主体不同一、対象同一「砂糖」) 3,1 => 3,2

例えば、(1b)において以下のような修辞関係が記述されている。

・記述:事物:主題化(主体「ウイルソン」=「この人」,アスペクト[state→transition+完了形]) 2-1 => 2-2

これは、文(1b)が文(1a)で導入された”ウィルソン”を主題とする記述文であることを表している。。この「記述」という関係は、結合している二つの命題間において、その下位情報により命題中の要素の一貫性を表す。この情報は、まだ解決されていない照応や、語の多義性、橋渡しの解決に利用できる。また、丸括弧の中には、分析者が、修辞関係を認定するために利用した情報がある程度計算機が利用出来るように記述されている。それは、例えば手がかりとなるような語句であったり、述語のイベント構造や相などの情報である。Comment by Hidetosi Sirai: をComment by Hidetosi Sirai: したComment by Hidetosi Sirai: やComment by Hidetosi Sirai: が含まれている

もう一つ、物語文の付与例を以下に示す。例文は小学校国語教科書2年上「手紙をください」より抜粋した。

(2) a. [6,1] 蛙は、箱の内側に白いペンキを塗りながら](1)、

  ・状況:時間同一(アスペクト[state→activity]) 5,1,3 -> 6,1

  

b. [6,1]{t1,1} 「今日は、引越しで忙しいんだ。

c. [6,1]{t1,2} 帰った、帰った。」

    ・根拠・理由-行為_r(語句「んだ」:末尾) t1,1 -> t1,2

    ・{t1}

     ・発話者「蛙」

     ・発話対象「僕」

     ・発話状況([6,1})

d. [6,1] [いばりくさって、僕に言った](2)。

   ・状況:時間同一:主体同一(アスペクト[activity→transition+完了形],語句「ながら」:前文末尾) 6,1,1-> 6,1,2

   ・発話リンク「言った」([t1})

    ・内容({t1})

説明文の例と違う部分を説明する。まず、物語文では、登場人物の発話が発生することがある。そのため、発話のみの段落・文番号を付与している。また、各発話それぞれに対して状況理論による発話状況を付与し、さらに、地の文の中で「言った」というような発話を直接指示する後に対して発話のリンクを記述した。これは、動作や状況と一体として表現されている発話を表している。Comment by Hidetosi Sirai: 『各』があれば「それぞれ」は不要。どっちかにせよ。Comment by Hidetosi Sirai: 未定義。引用文献をつけるか?

4.作業からの修辞関係セットと推定のための情報の分析

 本章では3章で述べた作業により明らかになったことを述べる。大きく二つに分けて、SDRTで定義された修辞関係の適用に関する議論と、修辞関係を計算機で自動推定するための情報についての議論をする。

4.1.修辞関係

作業の結果、説明文と物語文の局所談話構造の構築には、SDRTで定義されている修辞関係のセットでは十分カバーしきれていないということが明らかになった。そこで、新しく関係を定義し追加した。以下に代表的なものを挙げ、定義とその効果について説明する。また、これら以外にも追加する候補となるの修辞関係があるがそれらは定義や効果の分析がまだ不十分であり、さらなる分析が必要である。それらは、5章で述べる学習データ作成の対象とした文章中に現れた修辞関係であり、一覧は付録Cに記載する。Comment by Hidetosi Sirai: 何らかの形で作業の結果を示して欲しい。つまりこの主張の根拠Comment by Hidetosi Sirai: [2]?SDRTとは理論の名前なので。Comment by Hidetosi Sirai: これは不要Comment by Hidetosi Sirai: どこかで全体像が欲しい。その上で代表的なものの解説があるとよい。Comment by Hidetosi Sirai: 「の」削除

4.1.1.「記述」関係

 3章で例としてあげた「記述」の関係もSDRTでは定義されていない。 しかし、説明文には「同じものについての言及」のような、文内の何らかの要素を共有して緩やかに結びついている関係が多く現れる。以下に、記述関係の例を示す。Comment by Hidetosi Sirai: [2]Comment by Hidetosi Sirai: 「国語教科書の」

(1) a. しばらくすると、一匹の蟻が、その砂糖を見つけました。

b. これは、[えさを探す](p)ために、外に出ていた働き蟻です。

・記述:事物:主題化(アスペクト[transition+完了形→state] ,語句「これは」:先頭,語句「だ」:末尾,蟻=これ)(1a) -> (1b)

記述の関係は以下の性質を持つとした。Comment by Hidetosi Sirai: 根拠は?

 a.時間的な関係を持たない

 b.結合先の文に対して、下位階層となるようなアクセス制限を持つ。

 c.デフォルトとして、文の間で照応が存在する

さらに、cに関して、修辞関係の下位範疇情報として、事物や事象などどのタイプの概念が照応されているのか、また、それが記述文のどこに存在するのかを保持している。例えば、上の例の「記述:事物:主題化」というのは、主題位置で結合元の文が参照可能な何らかのオブジェクトに対し、照応関係があることが表されている。それは、上の例では「これ」が前の文で導入された「一匹の蟻」と照応関係にあることから導かれる。

これらの情報は、将来的に修辞関係を自動的に推測するシステムを作るときに、修辞関係推定と修辞関係からの推論を相補的に行うことを考えているために設計されている。例えば、修辞関係推定システムの前処理で(1b)の先頭の「これ」と(1a)の「一匹の蟻」が照応関係にあることが推定できていれば、その情報を用いて記述関係を推定することが可能になり、また、逆に照応関係が不明であったとしても、その他の情報から「記述:事物:主題化」という修辞関係を推定することができれば、(2b)の主題位置にある「これ」に対する照応が(1a)の文中のいずれかの「もの」であるという情報を用いて照応解析を行うことができる。Comment by Hidetosi Sirai: 一字さげるComment by Hidetosi Sirai: それを作ろうとしているはずComment by Hidetosi Sirai: 主語は「情報」だとすれば、この述語は結びつかない

4.1.2.行動の根拠

 本節では、「何らかの行為」とその「根拠・理由となる事象」のペアを表す関係について説明する。以下に例文を挙る。(2)は、小学校国語教科書6年下「平和のとりでを築く」から、(3)は、小学校国語教科書2年上「手紙をください」からの抜粋である。

(2) a. 強れつな熱線と爆風が放射能とともに市街をおそった。

b. [市民の多くは一しゅんのうちに生命をうばわれ][1]、[川は死者でうまるほどだった][2]。

(3) a. この間、[僕が郵便箱を開けに行ったら][1]、[箱の口からイチジクの葉っぱが覗いていた][2]。

b. [あれっと思って][1]、[中を見ると][2]、[緑色の蛙が、一匹もぐりこんでいた][3]。

(2)と(3)の例はいずれも、二つの文の間に原因と結果という関係が成り立つ例である。(2a)と(2b,1)、(3a)と(3b,1)、(3b,1)と(3b,2)の間にそれぞれ原因結果の関係が成り立つ。しかし(2a)-(2b,1)と違い、(3a)-(3b,1)と(3b,1)-(3b,2)は結果となる事象が人間の行動であり、原因となる事象はその行動を起こさせる根拠となるものである。SDRTではこれらはまとめて「因果」という関係で定義されているが、今回の分析では(3)の例は「根拠・理由-行為」という修辞関係を認定し、(2)で成り立つ「因果」関係と別に定義した。それは事象間の因果的なつながりの強度を無視してしまうと、正しい学習が行えない可能性があると考えたからである。例えば、(2)の例は「強れつな熱線など市街をおそった。」ということと「市民の多くが生命をうばわれた」という概念の間に非常に強い因果的な関係があり、機械はそれを修辞関係の付与されたデータから学習することが出来る。それに対し、(3)の例は行動の根拠であり、二つの概念の間に因果的な関係があるわけではない。しかし、同じように機械はデータから同じように学習してしまう可能性があり、その結果間違った知識を獲得してしまうことになるためである。そのため、「因果」関係と別の、概念間の関係が強いことを推論しない「根拠・理由-行為」関係を定義することで、上記の問題を解決することができると考えている。この「根拠・理由-行為」という関係は、Comment by Hidetosi Sirai: 正確には、「文」ではなく文が表す命題・事象Comment by Hidetosi Sirai: このフレーズを使うには説明が必要でしょう?Comment by Hidetosi Sirai: 不要Comment by Hidetosi Sirai: なにと?Comment by Hidetosi Sirai: こ

 ・人の行動と、その根拠のペアである

 ・因果ほどの語彙間の結びつきはない

 ・時間の経過、あるいは連接が存在している

という特徴をもつ関係と定義した。

4.1.3.可能化

 前節で述べた、事象間に因果ほどの強度のない関係として、「可能化」を定義した。これは、ある事象が成立するために、別の事象による世界の状態の変化を前提としているようなものを表す関係である。Comment by Hidetosi Sirai: ちょっと変な文Comment by Hidetosi Sirai: 必要条件だが十分条件ではない、ということですね。

(4) a. はじめに、蟻の巣から少し離れた所に、一つまみの砂糖を置きました。

(4) b. しばらくすると、一匹の蟻が、その砂糖を見つけました。

・可能化(砂糖を置>砂糖を見つける, アスペクト[transition+完了形→transition+完了形]) (4a) -> (4b)

(4b)で「蟻が砂糖を見つけた」という事象は、(4a)で表されている「砂糖を置いた」という事象によって成立することが出来る。しかし、この二つの事象の間には直接的な因果的関係はない。このような関係を「可能化」とした。

可能化には、以下のような特徴がある

 ・時間の経過、もしくは連接が存在している

 ・なんらかの照応の存在する可能性が高い

 ・直接原因となるわけではないので、概念間の因果的な強度は弱い

4.1.4.対話イベント

 物語文では、複数の登場人物が対話を行うことがよくある。厳密には修辞関係ではないが、この対話について、基本的な性質を推論するための標識を「対話イベント」として定義した。

(5) a. 「ほんとうにそうおもってたの。それ、あたしのほうだよ。 」

(5) b. 「ちがうよ、あたしのほうだよ。 」

 ・対話イベント (5a) (5b)

複数の登場人物が対話を行った際には、以下の特徴を持つ

 ・時間の経過が存在する

 ・デフォルトとして、発話者と聞き手が交代する。前の発話で発話者だった人物は聞き手となり、聞き手だった人物のいずれかが発話者となる

 ・発話している状況は同一である

4.2.修辞関係を推定するための情報

 機械が自動的に修辞関係を推定するためには、コーパスに素性となる情報を記述することが必要である。今回の分析ではそれらのうちいくつかを体系的に分類し、整理した。以下の章でそれぞれについて説明する。Comment by Hidetosi Sirai: 自動的に、というのと自動で、というのは違いますねComment by Hidetosi Sirai: 節

4.2.1.キューフレーズ

人間が修辞関係を推定する際に用いられる情報については、様々なものが考えられる。その中でも、直接的に手がかりとなるような語句(これをキューフレーズと呼ぶ)は、大きな役割を果たしていると考えられる以下に例を示す。Comment by Hidetosi Sirai: 用いるComment by Hidetosi Sirai: 句点ぬけ

(6) a. これらの観察から、ウイルソンは、働きありが、地面に何か道しるべになるものを付けておいたのではないか、と考えました。

(6) b. そこで、ウイルソンは、働きありの体の仕組みを、細かに研究してみました。

・根拠・理由-行為(アスペクト[transition+完了形→activity], 語彙「そこで」:先頭,語彙「みました」:前文末尾,主体同一「ウイルソン」) (6a) -> (6b)

(6c) すると、ありは、お尻のところから、特別の液を出すことが分かりました。

  ・結果(アスペクト[activity→transition+完了形], 語彙「すると」:先頭、同一主体「ウイルソン」) (6b) -> (6c)

(6b)の先頭の「そこで」や(6c)先頭の「すると」などはそれぞれ「根拠・理由」や「時間の経過」を表す語句である。これらの情報は、表層に現れているため、計算機での利用が容易である。ただし、出現する範囲は非常に広く、単語の範疇からフレーズ単位、いくつかのフレーズの集まりで構成されている場合もあるため、適切な記述方式が必要である。Comment by Hidetosi Sirai: キューフレーズComment by Hidetosi Sirai: ここ、ちょっとわかりにくい

(7) a. [[この液の匂いは、蟻の種類によって違う][1]ことも分かりました。][2]

(7) b.それで、[[違った種類の蟻の道しるべが交わってい][1]ても、[決して迷うことがなく][2]、行列が続いていく][3]のです。Comment by Hidetosi Sirai: 削除

・帰結(アスペクト[state→activity],語彙「それで」:文中,語彙「のです」:末尾) (7a,1) -> (7b,3)

(7b,3)は(7a,1)から導かれる帰結である。それをサポートするキューフレーズとして文の形が「それで、~のです」という形になっていることが挙げられる。これらは独立にもそれぞれ「根拠」、「記述」をサポートするフレーズであるが、特定の位置に同時に現れることで「帰結」を表すキューフレーズとなる。さらに、(6a)-(6b)の根拠・理由-行為などは複数の文にまたがった形で一つのキューフレーズとなっている。このようなタイプのものを扱うため、コーパスにはキューフレーズの出現位置も記述する必要があると考えられる。Comment by Hidetosi Sirai: キューフレーズ=文の形、というのはちょっと変。「このことは文が『それで。。。のです』という形を取っていることから示されている」としては?Comment by Hidetosi Sirai: どれがそうか?

4.2.2.イベント構造とアスペクト

修辞関係を推定する際にキューフレーズが有用であることは前節で述べた。しかし、これらのフレーズは必ず出現するわけではない。その時には文の意味や語彙情報などを考えなければならないが、現状では、これらをすべて用意することは難しい。そのため、膨大な語彙情報の中から有用な情報を選別してり用意することが必要である。今回、述語のイベント性と相に注目し、それらが時間構造の認識において重要な役割を果たしていることが明らかになった。以下に例を示す。Comment by Hidetosi Sirai: 「その時」とはどういうとき?Comment by Hidetosi Sirai: 「これら」とは?Comment by Hidetosi Sirai: ?Comment by Hidetosi Sirai: アスペクト、という注釈が必要Comment by Hidetosi Sirai: 『注目し』と『明らかになった』がつながらない。

(8) [わたしは一生けん命まりちゃんに手紙を書いて][1]、[お母さんにたのんで][2][出してもらった][3]。

  ・状況:時間経過:主体同一(アスペクト[transition+完了形→transition+完了形],語句「て」:前文末尾) (8,1) -> (8,2)

(9) 次の日、[僕が手紙を取りに行くと][1]、[あの蛙が眼鏡をかけて][2]、[葉書を読んでいた][3]。

   ・状況:時間同一:主体同一(アスペクト[transition-state+完了形→activity+進行形],語句「て」:前文末尾,語句「ていた」:末尾) (9,2) -> (9,3)

  ・

(8,1)と(8,2)の間、(9,2)と(9,3)にはキューフレーズ「~て」があるため、時間的な連接があることがわかる。しかし、それだけでは時間の遷移があるのか、同一の時間(状況)に属しているのか判断することはできない。実際に、(8,1)-(8,2)は時間の遷移があり、(9,2)-(9,3)には同一の時間・状況である。このような場合に、命題を構成する述語のイベント性とアスペクトに注目することで、ある程度判断が出来る。例えば、(8)では、結びついている二つの節の述語のイベント性が両方共何らかの遷移がイベント主辞であり、さらに両方共が完了相であるため、二つの事象の間には時間的な乖離がある可能性が非常に高いことが判断出来る。それに対して、(9)では、前の節の述語は遷移語の状態がイベント主辞で、完了相となっており、さらに後ろの述語は継続動詞で、進行相となっているため、この二つの事象間は同一の時間・状況で発生している可能性が高いと推論出来る。Comment by Hidetosi Sirai: 接続助詞の「て」

4.2.3.その他の情報

 前節で、語彙情報の中のイベント構造とアスペクトが時間構造の認識に有用であることを述べた。しかし、それだけでは詳細化や、因果など意味的な関係を同定することは不可能である。このような修辞関係のうちのほとんどは、文または節の意味を用いた推論により判断されるものである。例えば「詳細化」や「目的-行為」などは、語と語の関係や語の典型的な用いられ方などの知識が必要であり、それらは現状の言語資源では利用することは難しい。しかし、そういった知識は、Generative Lexiconで提案されたような語彙の知識が整備されれば、ある程度カバーすることができると考えている。例えば、Generative Lexiconでは、名詞句の素性構造として、目的や機能を表す素性が用意されている。これは、目的や根拠などの関係する修辞関係を推定するために有用な情報となりうる。Comment by Hidetosi Sirai: 用法、のこと?Comment by Hidetosi Sirai: 計算機の観点からの言語資源ですよねComment by Hidetosi Sirai: 日本語名称も与えておく?

5.システム試作・学習データ作成

 これまでの分析の有用性を検証するために、ある文または節が文脈に対して成立可能な修辞関係を選別するシステムを試作し、さらに実験用にいくつかの学習データを作成した。このシステムは、すでに談話構造が形成されている文脈と、新たな文または節(これを入力分節と呼ぶ)を入力とし、文脈に入力分節が可能な限りの修辞関係を伴って結合した新しい文脈を出力するものである。ただし、本システムは可能な修辞関係の選別を行うだけで、それが真に成立するかを確定させるものではない。例えば「Default帰結」と「Anti-Default帰結」のように本来同時には成り立たない関係も同時に出力する。システムの詳細は以下の章で説明する。 Comment by Hidetosi Sirai: 『以下の章』とは次章?本章?

 

5.1.学習データ作成

 本章で説明するシステムの学習コーパスとなるように、小学校教科書に対して、修辞関係の分析と素性となりうる情報の付与を行った。付与した情報は、4章で議論したイベント構造、アスペクト、キューフレーズとその出現位置と、本システムでは使用していないがその他の意味的な関係や語と語の関係などである。このうち、本システムで使用する情報に関しては、5.2.1節で詳しく述べる。また、修辞関係については、SDRTで定義されている修辞関係をベースに4章で例に挙げた関係を含めたいくつかの関係を追加したものを使用した。今回は、小学校国語教科書の説明文3本、物語文3本の計6本を対象とした。学習コーパスの総文数は388文で、学習データとして利用した修辞関係データは475個であった。学習データに使用した文章の一覧は付録Bに、学習データに現れた修辞関係の一覧は付録Cに掲載した。学習データに現れた修辞関係は90種であった。Comment by Hidetosi Sirai: 教科書ではなくて、国語教科書に載っている文章ですよねComment by Hidetosi Sirai: [2]

5.2.システム概要

 本システムはRubyを用いて作成されており、Linux上で動作する。以下に実行環境を示す

 ・Ubuntu-Linux 8.04 for AMD64

  ・ruby-1.8.x

 ・TinySVM ver0.09

システムの核となる修辞関係推定にはTinySVMによる機械学習を用いた。新たな分節と、文脈中の候補となる文または節(これを候補分節と呼ぶ)それぞれについて、抽出した素性とSVMの入力とし、定義されたすべての修辞関係について成立するか否かの2クラス分類を行う。その結果、成立すると判断された修辞関係と候補分節のペアがシステムの出力となる。Comment by Hidetosi Sirai: 参考文献への参照が必要Comment by Hidetosi Sirai: 何の候補?

 本システムは大きく分けて二つに分けることが出来る。一つはコーパスからSVMの学習モデルを生成する学習システムであり、もうひとつは生成された学習データを用いて修辞関係の選別を行う選別システムである。本システムでは、SVMにはTinySVMを用い、線形カーネルを使用して学習を行う。Comment by Hidetosi Sirai: これも説明が必要では?

5.2.1.システムが対象とする修辞関係

 本システムでは、計算時間の短縮のためにコーパスに現れた修辞関係を意味を持つ最も大きな分類でのみ推定する。例えば、「記述:事物:主題化」と「記述:事象:対象化」はいずれも「記述」関係となり、「状況:時間経過:語り」と「状況:時間経過」はいずれも「状況:時間経過」関係となる。また、本システムでは4.1.4節で述べた「対話イベント」については扱っていない。

5.3.学習システム

 このシステムは、談話構造コーパスを学習データとし、選別システムの分類器のための学習データを生成するシステムである。本システムでは、コーパス中に現れた修辞関係の記述を一つの学習データとし、その関係の正例として学習する。同時に、同一素性の他の修辞関係の負例として学習する。例えば、コーパスに「記述関係」の修辞関係の記述があったならば、それは「記述関係」の正例として扱い、同時に同一の素性を持つ「他の修辞関係」(例えば「因果」など)の負例として扱う。以下に例を示す。

(1) a. しばらくすると、一匹の蟻が、その砂糖を見つけました。

(1) b. これは、[えさを探す](p)ために、外に出ていた働き蟻です。

・記述:事物:主題化(アスペクト[transition+完了形→state] ,語句「これは」:先頭,語句「だ」:末尾,蟻=これ)(1a) -> (1b)

上のような記述が学習データに存在していた場合、本システムは「記述」の正例として扱う。また、「記述」以外の修辞関係の負例として扱う。このとき関係の結合元となる(1a)を候補分節、結合先となる(1b)を入力分節と同じとみなして素性を抽出する。

図5.1に大まかな処理の流れを示す。主な処理については以下の節で説明する。Comment by Hidetosi Sirai: 同じページに収めること(縮小しても良い)

図 5.1 学習システム概要

5.3.1.素性抽出

 本処理は、コーパスから素性を抽出し、TinySVMによる機械学習のためのデータ形式への変換を行う。Comment by Hidetosi Sirai: なんの処理?

まず、使用した素性とその抽出について説明する。本システムでは、素性として結合先、結合元それぞれの「イベント構造」と「アスペクト」、「キューフレーズの出現位置」、「キューフレーズ」を採用した。以下にそれぞれについての詳細を述べる。Comment by Hidetosi Sirai: 何の結合?

イベント構造[state,activity,transition,transition-state,nothing]のうちいずれか一つまたはなしComment by Hidetosi Sirai: インデントして上の行に揃える

アスペクト…[完了、進行]のうちいずれかひとつまたはなし

キューフレーズの出現位置[前文中,前文末尾,先頭,文中,末尾]のうち0個以上

キューフレーズ[単語表層系をそのまま素性とする]

 次に、それぞれの素性について説明をする。まずイベント構造について、イベント構造にはGenerative Lexiconで採用されている三種類の原始的なイベントタイプと、遷移と遷移後の状態を表す「transition-state」というタイプを加えた4種類を素性とした。また、複数の節のブロックが入力分節となっているものなど、単一の述語でないものに関してはnothingとした。表5.1でそれぞれの説明をする。Comment by Hidetosi Sirai: これ不要Comment by Hidetosi Sirai: この直後に表5.1をいれる

 イベント構造とペアになるアスペクトは、完了相か進行相、もしくはそれ以外のいずれかの値を素性とする。

次に、キューフレーズについて説明する。本システムでは、キューフレーズとして認定された語句の表層をそのまま素性とした。4章で示したような、連続した語句になっていないタイプのものは、複数の独立したキューフレーズとして扱うことにした。さらに、キューフレーズの出現位置をいくつかに分類し、素性値とした。これにより、ある程度のパターンを再現することが出来ると考えている。表5.2で、キューフレーズ出現位置の定義をまとめる。Comment by Hidetosi Sirai: この直後に表5.2を入れる

 また、直接素性として扱うわけではないが、候補文節が、入力文節から文章中の位置でどの程度離れているかの情報も使用している。これを結合距離と呼び、表5.3にその分類をまとめる。Comment by Hidetosi Sirai: この直後に表5.3をいれる

表 5.1 イベント構造の分類

イベントタイプ

説明

State

定常的な状態を表す

Activity

継続する動作を表す

Transition

何らかの変化・遷移を表す

Transition-state

何らかの状態の変化・遷移があるが、その後の状態が主辞となる

Nothing

複数の分節で一つの入力分節になるなど、イベントを認定できないもの

表 5.2 キューフレーズ出現位置の分類

出現位置

説明

前文中

候補分節の最後の分節以外に現れた場合

前文末尾

候補分節の最後の分節に現れた場合

先頭

入力分節の最初の文節に現れた場合

文中

入力分節の最初か最後の文節以外に現れた場合

末尾

入力分節の最後の文節に現れた場合

表 5.3 結合距離の分類

距離

説明

0

入力分節と候補分節が節であり、同じ文中に存在する。

入力分節と候補分節が文をまたいで隣接した文または節である。

2

距離1よりも遠い、つまり入力分節と候補分節の間に分節が存在している

次に、素性抽出の例を示す。

記述:事物:主題化(アスペクト[transition+完了形→state] ,語句「これは」:先頭,語句「だ」:末尾,蟻=これ) (1a) -> (1b)

コーパスから上のような記述が与えられた場合、本システムは以下のような素性列を学習データとして抽出する。

fromEventType={transition},fromAspect{完了}, toEventType=[state], toAspect=[], CuePosition=[先頭,末尾],Cue=[これは,だ]]

この素性構造について、出現した要素が1、それ以外が0であるn次元ベクトルへ変換し、学習データとする。さらに、(1a)と(1b)は文章中で隣接しているため、距離1の学習データとなる。

5.3.2.SVMによる機械学習Comment by Hidetosi Sirai: タイトルにはなるべく正式名称を書く

学習データから素性列と距離情報を取得したら、SVMによる機械学習を行う。このとき結合距離を反映させるために、すべての修辞関係に対して、距離ごとに別の学習モデルを作成する。そのために、ある距離での正例、負例データすべてに対して、それ以外の距離に対する負例データになるように素性列を複製する。Comment by Hidetosi Sirai: ここわかりにくいComment by Hidetosi Sirai: 説明は必要ないか?

図5.2は、一つの正例から得られる学習データの例である。

図 5.2 一つのデータの学習

                           

学習コーパス中のすべての修辞関係の記述について、図5.2のように正例と負例の作成を行い、出来上がった修辞関係・距離の学習データそれぞれに対し、同一の素性で正例と負例が存在する場合、負例を消去して出来上がったものが学習モデルとなる。

5.4.修辞関係選別システム

 学習システムが作成した学習モデルを用いて、修辞関係の選別を行う。すでに修辞関係による談話構造が形成されている文脈と、新しい分節を入力として、文脈中の可能な分節への可能な修辞関係のリストを出力とする。図5.3にシステムの流れを示す。

図 3.3 修辞関係選別システムの概要Comment by Hidetosi Sirai: 5.3

以下の節で、それぞれの処理部について、説明する。

5.4.1.候補分節の抽出

 ある入力分節が与えられた際、談話構造の存在する文脈から、結合する分節の候補を選出する。本システムでは、右先端制約[G&S]に基づいた選出を行う。具体的には、現時点での文脈中の最も新しい分節を取り出し、その分節と上位下位タイプの修辞関係で結ばれている分節を再帰的に選出する。談話構造の先頭に到達するか、上位の分節がなくなった時点で終了し、それまでに選出された分節を候補分節集合として出力する。なお、入力分節が発話であった場合、地の文での最も新しい分節と、独立した会話文の流れの中での最も新しい分節の二つに対して、再帰的な選出を行う。Comment by Hidetosi Sirai: 説明が必要では?Comment by Hidetosi Sirai: [4]

5.4.2.距離計算・素性抽出

 候補分節それぞれに対して、学習システムが使用するものと同一の素性構造と結合距離を取得する。

5.4.3.SVMによる修辞関係成立判定

 候補分節それぞれに対して、5.3.2節の処理で抽出した素性と結合距離を用いて、全ての修辞関係とSVMによる成否分類を行う。このとき、候補分節と入力分節との距離に応じて、学習システムが個別に作成した学習モデルを用いて分類を行う。一例を図5.4に示す。

図 5.4 距離別の成否分類

図5.4は、候補分節集合の中の、距離0の候補分節に対して修辞関係の成否判定を行う場合の図である。全ての候補分節に対して、図5.4の処理を行い、成立可能な候補分節と修辞関係のペアのリストが最終的な出力となる。

6.実験・結果

 システムの評価を行うため、実験を行った。学習コーパスには3章、4章の分析を踏まえて素性に必要な情報を記述したものを用いた。今回は、可能な修辞関係を選別し、提案するシステムであるため、再現性のみを評価の対象とし、分類システムが使用する素性を人手により付与した小規模な実験コーパスを作成し、実験データとした。

6.1.実験

 今回の実験では、実験コーパスに対し、文章の先頭から順番に入力分節として次々に処理を行うスクリプトを作成した。さらに、選別された修辞関係が全て成り立つものと仮定し、談話構造つき文脈を更新する。文章の末尾までこの処理を繰り返し、最終的に出来上がった談話構造つき文脈を出力とした。図6.1は本実験の処理の流れである。Comment by Hidetosi Sirai: 同じページに収める

最終的に出力される談話構造つき文脈を図6.2に表す。これは同時に、本実験スクリプトの実行例である。Comment by Hidetosi Sirai: 図6.2もこの文に続けて入れられたらいれる

図 6.1 実験スクリプトの概要

図 6.2 実験スクリプト実行例

 図6.2の82行目と4行目に見える

[sent:<1>] 父もその父も、その先ずっと顔も知らない父親たちが住んでいた海に、太一もまた住んでいた。

right=>[--2--並列->TalkStream,1,1] child=>[--1--主張-根拠->NormalStream,1,2, --1--詳細化->NormalStream,1,2]

という出力は、段落([para])<1>の文([sent])<1>(以下これを{1,1}と記す)が、画面には見えないが、対話文{1,1}に対して並列関係になる可能性があり、さらに地の文{1,2}と主張-根拠関係並びに詳細化関係をもって結合する可能性があると言うことを表している。修辞関係名の左の数字は、結合先となる分節までの結合距離を表している。

6.1.1.学習用データ

 今回の実験では、学習用データに5.1.1節で作成した学習用データを用いた。また、学習データに出現した修辞関係は90種であるが5.1.1節で述べたように、意味を持つ最も大きな分類にまとめたため、修辞関係の数は36種となった。さらに、学習データ内に素性を伴って現れたものに限ると、最終的に処理可能な修辞関係の数は14種であった。実験時に使用された修辞関係のリストを付録Dに掲載する。

6.1.2.実験用データ

 今回の実験では、小学校6年生の国語教科書に出てくる物語文「海の命」を大段落ごとに分け、それぞれに対して人手による素性の付与を行い、実験データとした。また、修辞関係の分析と付与も人手により行い、実験の正解データとした。以下に、実験データの例を示す。

(1)父もその父も、その先ずっと顔も知らない父親たちが住んでいた海に、太一もまた住んでいた。

 ・[s]

  ・キュー「も」:文中

  ・アスペクト[state+進行形]

(2)季節や時間の流れとともに変わる海のどんな表情でも、太一は好きだった。

 ・[s]

  ・キュー「も」:文中

  ・アスペクト[activity]

 ・記述:事物:主題化([1,1]→[1,2])

 それぞれの文の下部に記述してある[s]以下がその文に対して人手で付与した素性である。

また、

・記述:事物:主題化([1,1]→[1,2])

と書かれているのは正解となる修辞関係である。

6.2.実験結果

 本実験では、再現性のみを評価とした。つまり、正解データのうち、最終的な出力の中にどれくらい再現されているかを評価対象とした。その結果、正解データに与えられた修辞関係117個のうち、30個がシステムの出力に含まれており、約25%の再現率であった。再現したラベルは、殆どが「記述」と「状況:時間同一」であったが、「対照」、「帰結」、「期待破り」も少数ながら再現した。表6.1に、再現したラベルと再現数を示す。

表 6.1.再現したラベルと出現数

時間同一

時間経過

記述

対照

帰結

期待破り

合計

大段落1

3

0

3

0

0

0

6

大段落2

2

2

2

1

1

0

8

大段落3

2

3

0

0

0

2

7

大段落4

2

4

0

0

1

1

8

大段落5

0

1

0

0

0

0

1

合計

9

10

5

1

2

3

30

7.結果からの考察

本章では、実験より明らかになったことと、現状明らかになっている問題点について議論する。主に、再現率の低さの原因について議論し、解決策を述べる。

7.1.学習データ不足

再現率が低い原因としては、まず根本的に学習データが少ないことが考えられる。今回の実験では、イベント構造、アスペクトとキューフレーズしか判断材料として扱っていないため、学習データに存在しないキューフレーズを持っていたとしても無視されてしまう。さらに、イベント構造、アスペクトの組み合わせにおいても、学習データが少ない=正例が少ないため、決定的とはいかないまでも、本来強力にサポートするはずのキューフレーズを正しく学習出来ないのではないかと考えられる。この問題を解決するためには、より多くの学習コーパスを用意することが必要である。

7.2.素性の不充分Comment by Hidetosi Sirai: 「不十分」では名詞になっていない。「不足」などの名詞を使うことが望ましい

 今回の実験では、4章で述べたように、イベント構造とアスペクトが重要な役割となっている時間構造の認識や、時間構造が「ない」ことが成立条件となっているような「記述」関係などの推定は精度は低いながらも可能であることが示唆されている。しかし、それ以外の関係はキューフレーズに頼っているため、学習データでカバーしきれないことが予想できる。例えば、因果関係は「その結果」などほぼ決定的なキューフレーズが存在しているが、今回の学習データに現れているものはほとんどそれだけで因果性を認定できるものではない。他にも、意味的な結合が強い「帰結」や「詳細化」などほとんどの修辞関係はこうした性質を持っている。4.3節で述べたような語彙の知識が必要であると考えられるが、人手で作成するのではなく、機械が自動で収集できるようなシステムを考えることが望ましい。そのために、学習データを増やしていく過程で、決定的なキューフレーズを持っているデータから、概念間の関係や因果性などの修辞関係に対する親和性などの情報を学習していくようなシステムを設計することで自動で機械が自動収集していくことができるのではないかと考えている。特に今回の分析では、小学校低学年において、意味内容が重要になる関係はキューフレーズを伴って現れることが多く、高学年になるにつれてキューを伴わないパターンが増加している傾向があった。これらを踏まえて、キューを伴いやすい文体及び性質を持っている文章を対象に学習コーパスを増やしていくことで、効率良く学習することができるのではないかと考えられる。Comment by Hidetosi Sirai: 「自動」がダブっている

7.3.システム上の問題

 今回の実験では、選別された修辞関係全てが成り立つと過程して文脈を更新しているため、新たな入力分節に対して、右先端制約による候補分節の抽出が適切に行われなかった可能性が高い。さらに、「まとめ」関係に代表されるような、いくつかの分節をまとめて一つの候補分節となるようなタイプの結合を考慮していない。上に挙げたようなシステム上の不備により選別が不可能な場合が存在するため、それらをカバーするようにシステムを改良することが必要である。

8.今後の課題

 本研究では、SDRTをベースに小学校の文章に対して修辞関係の分析を行い、その結果明らかになった点を踏まえて、いくつかのコーパスを作成した。また、コーパスを学習データとして、成立可能な修辞関係を選別、提案するシステムを試作し、実験を行った。その結果から、本章ではコーパスの作成における今後の課題と、システムの今後について述べる。Comment by Hidetosi Sirai: 小学校の国語教科書

8.1.追加した修辞関係について

 4.1節で、分析の結果、SDRTで補い切れない修辞関係があることを述べ、いくつかを新たに追加した。しかし、追加した修辞関係がSDRTが提供している計算機構などの枠組みに沿ったものであるか、また矛盾なくSDRTに組み込むためにどのような性質・推論を持つべきなのかは検証しきれていない。例えば、アクセス可能空間に関しても、「記述」や「根拠」などがどのようなアクセス空間を作るのかを細かく検証していく必要がある。それにより、試作システムが抽出する候補分節に影響を及ぼす可能性がある。また、「時間経過」と「時間同一」のように、同時に成り立つ事の出来ない修辞関係が存在している。それらの情報を整備することも、計算機で利用可能な修辞関係セットを設計する上で必要になってくるであろう。Comment by Hidetosi Sirai: SDRTで提供されている

 さらに、「手段-目的」など、学習データ中に現れたが、はっきりとした定義が定まっていない修辞関係もある。これらについて、文章の分析を進めながら追加すべきかどうか、追加するならばその効果と定義をはっきりとさせる必要がある。

 また、本研究では小学校国語教科書の説明文と物語文のみを対象としている。今後コーパスを増やしていくにあたって、異なるタイプの文章には今会の分析では現れなかった修辞関係が現れる事が考えられる。これらを踏まえて修辞関係セットの整備を進めていくことが必要である。

8.2.分析・コーパス作成について

 今回の分析では、修辞関係の認定は作業者の考えに基づいて行ったため、厳密に右先端制約などの制約を考慮していない。そのため、5章で作成した学習コーパスに対して検証したところ、41個の右先端制約に違反している修辞関係が見つかった。これらに対して、例えば右先端制約を厳密に守るように分析者の考えを修正していくのか、ある程度までの例外を認めるかなどどのような対応を行っていくのかを考える必要がある。Comment by Hidetosi Sirai: どのような関係か、ツッコミが欲しい

 また、複雑な文章になってくると、分析中に現在の右先端がどれであるのかを判断するのが人間には困難になってくる。現在の談話構造を視覚化して、表示するようなツールがあることが望ましい。Semantic Editorなどの視覚化ツールと連携していくことで、より良い分析を得ることができると考えている。さらに、それに合わせてコーパスのアノテーションを明確にすることが、より網羅性の高いコーパス作成には必要である。それにはGDAなどを利用することが利用できると考えている。

8.3.システムの発展について

 7.3節で述べたように、試作システムは問題点が多い。特に6.1.1節で述べた、学習コーパス・素性が不足しているためにシステムが利用可能な修辞関係が少ないことは大きな問題である。また、素性についても、キューフレーズという非常に大きい素性空間に対して、学習量が不足していることは否めない。これを解決するために、他のタイプの文章や、社説などのより大人向けの文章に対しても分析を広げ、それと同時により大規模なコーパスを作成することが最も重要である。そのためには8.2節で述べたように、分析の地盤となる理論的な枠組みをはっきりとさせ、さらにコーパスの記述法や、記述すべき情報の範囲をしっかりと明確化することが必要である。Comment by Hidetosi Sirai: 基盤

ただし、修辞関係の同定が完了しなければ正確な候補分節を取り出せないように、それだけでこれらを全て解決するのは難しいと考えられる。そこで、システム全体を現状可能な改良がしやすいように設計する必要がある。例えば現在考えられる改良のための変更箇所としては、コーパスの増量や、素性の変更、結合距離などの処理プロセスや学習器・分類器の変更などが考えられる。今後、これらの変更が容易に行えるようなシステムにするために、オブジェクト指向などの手法を用いて強固なシステム設計が必要となってくるだろう。Comment by Hidetosi Sirai: SDRTの枠組みからは、修辞関係も、候補文節も、他の条件なども、MDC原理から最適な解が導かれるとされている。今回の分析からのこのSDRTに対する知見はどのようなものだろうか?Comment by Hidetosi Sirai: ?Comment by Hidetosi Sirai: ?

x

[1]

白井 英俊, "談話と論理-分節化談話表示理論の紹介," 人工知能学会誌, pp. 621-629, 2007.

[2]

Nicholas Asher and Alex Lascarides, Logics of Conversation.: Cambridge University Press, 2003.

[3]

Jerry R Hobbs, "Coherence and Coreference," Cognitive Science, pp. 67-90, 1978.

[4]

Barbara J Grosz and Candace L Sidner, "Attention, Intentions, And The Structure of Discourse," Computational Linguistic, 12, pp. 175-204, 1986.

[5]

白井 英俊, "文章理解と意味結合関係," 計量国語学第十二巻七号, pp. 308-320, 1980.

[6]

安部 純一,桃内 佳雄,金子 康朗, and李 光五, 人間の言語情報処理.: サイエンス社, 1994.

[7]

W C Mann and S A Tompson, "Rhetorical Structure Theory:Description and construction of text structures," in Natural Language Generation, chapter7., 1987, pp. 85-96.

[8]

Daniel Marcu, "The Rhetorical Parsing of Unrestricted Texts:A Surface-based Approach," Computational Linguistics, Vol26, No3, pp. 395-448, 2000.

[9]

Hans Kamp and Uwe Reyle, From Discourse to Logic.: Kluwer Academic, 1993.

[10]

James Pustejovsky, The Generative Lexicon.: The MIT Press, 1995.

[11]

橋田浩一. (2009, Mar.) セマンティックエディタ入門. [Online]. http://i-content.org/semauth/intro/index.html

[12]

橋田 浩一. (2005, Oct.) GDA 日本語アノテーションマニュアル. [Online]. http://www.i-content.org/gda/tagman.html

x

参考文献

謝辞

 はじめに、言語に関することだけでなく、様々な分野について助言して頂いた諸先生方に感謝いたします。

 研究を進める上で環境や助言、議論など、様々な面で無くてはならない助力を頂いた大学院生の皆様、白井研究室の皆様に感謝いたします。

 最後に、ご指導頂いた指導教員の白井先生に心より感謝いたします。

付録A.分析を行った文章の一覧

説明文

小学校国語教科書2年上「たんぽぽ」 東京書籍

小学校国語教科書2年下「ビーバーの大工事」 東京書籍

小学校国語教科書3年上「ありの行列」 光村図書

小学校国語教科書3年下「新年の祭り」 学校図書

小学校国語教科書3年下「合図としるし」 学校図書

小学校国語教科書4年上「あめんぼはにん(忍)者か」 学校図書

小学校国語教科書4年下「手で食べる、はしで食べる」 学校図書

小学校国語教科書4年下「点字を通して考える」 学校図書

小学校国語教科書5年上「日本の恐竜時代」 学校図書

小学校国語教科書5年下「体の中の海」 学校図書

小学校国語教科書5年下「情報社会で生きていくために」 学校図書

小学校国語教科書6年上「三内丸山遺跡」 学校図書

小学校国語教科書6年上「またとない天敵」 光村図書

小学校国語教科書6年下「アジアを見つめる、アジアから考える」 学校図書

小学校国語教科書6年下「エネルギー消費社会」 学校図書

小学校国語教科書6年下「平和のとりでを築く」 光村図書

中学校国語教科書1年「捨てる神拾う神」  教育出版

中学校国語教科書1年「植物のにおい」 光村図書

物語文

小学校国語教科書2年上「手紙をください」 東京書籍

小学校国語教科書3年上「きつつきの商売」 光村図書

小学校国語教科書5年上「新しい友達」 光村図書

小学校国語教科書6年下「海の命」 光村図書

付録B.学習データに使用した文章の一覧

説明文

小学校国語教科書3年上「ありの行列」 光村図書

小学校国語教科書2年下「ビーバーの大工事」 東京書籍

小学校国語教科書3年下「合図としるし」 学校図書

物語文

小学校国語教科書2年上「手紙をください」 東京書籍

小学校国語教科書3年上「きつつきの商売」 光村図書

小学校国語教科書5年上「新しい友達」 光村図書

付録C.学習データに現れた修辞関係の一覧

・Acknowledgement

・Alternation

・CounterEvidence

・Plan-Elab

・QAP

・まとめ

・一般化:事象

・並列

・並列:事象

・並列:同一

 →Parallel(SDRT)

・主張-根拠

・原因・理由

・原因・理由_q*

 →Explanation(SDRT)

・可能化

・対照

→Contrast(SDRT)

・帰結

・帰結*

・帰結_r

 →Consequence(SDRT)

・応答

・手段-目的

・手段・行為

・期待破り

・期待破り_q

 ・Anti-Def-Consequence

・条件-行為

・条件-行為_r

・根拠-主張

・根拠・理由-行為

・根拠・理由-行為*

・根拠・理由-行為_r

・状況:時空間同一

・状況:時空間同一:主体同一

・状況:時間同一

・状況:時間同一:主体同一

・状況:時間同一:同一状況

・状況:時間同一:状況同一

・状況:時間同一:状況同一:主体同一

・状況:状況同一

 →Background(SDRT)

・状況:時間経過

・状況:時間経過:状況同一

・状況:時間経過:状況同一:主体同一

 →Continuation(SDRT)

・状況:時間経過:語り

 →Narration(SDRT)

・理由-行為

・理由説明メタトーク

・目的-行為

・目的-行為_r

・相似

・結果

・結果_q

・結果_r

・結果:知見

 ・Result

・行為_r-Acknowledgement

・言い換え

・訂正

 →Correction

・記述:主体同一

・記述:主題

・記述:主題化

・記述:主題同一

・記述:事物

・記述:事物_q

・記述:事物_r

・記述:事物:主体同一

・記述:事物:主題化

・記述:事物:同一内容

・記述:事象

・記述:事象:主題化

・記述:事象:対象化_q

・記述:対象

・記述:対象化

・記述:心情

・記述:状況

・記述:詳細化_q

・記述:説明

・記述:説明:オノマトペ

・詳細化

・詳細化:事物

・詳細化:事物_q

・詳細化:事象

・詳細化:事象_q

・詳細化:事象_r

・詳細化:例示化

・詳細化:行為

 →Elaboration(SDRT)

付録D.実験で用いた修辞関係

まとめ

並列

主張-根拠

対照

帰結

手段・行為

期待破り

根拠-行為

状況:時間同一

状況:時間経過

状況:状況同一

結果

行為-目的

記述

詳細化