句共起関係コーパスを利用した第二言語作文支援のための 用...

4
句共起関係コーパスを利用した第二言語作文支援のための 用例文検索システムの構築 陸 烽 三好 康夫 Hou Riku Yasuo Miyoshi 高知大学大学院 総合人間自然科学研究科 理学専攻 情報科学分野 1. はじめに 本研究は第二言語学習の中でも作文を対象とした学 習支援を目指す.また,対象言語を1 つの言語に限定 するのではなく,複数の言語に対しても支援できるよ う考えており,本研究の最終目標は,多言語に対応し た第二言語学習者のための作文支援を実現することで ある.現時点では,1 つの文を書くための支援,つま り文単位での作文支援を想定しており,英語・日本語・ 中国語の作文支援を目的とした句共起関係コーパスと 用例文検索システムの開発を行っている.本稿では, 試作した句共起関係コーパスと用例文検索システム, 及び評価実験について報告する. 2. 例文検索による第二言語作文支援 まず,学習者が作文するときの問題について考察す る.母国語ではない言語で作文する時,自分が伝えた い意図を文として表現しても,その文が正しく表現で きているかどうか,学習者は判断することができない. これは学習者自身が書いた文だけではなく,機械翻訳 を使って作成した文であっても同様である.また第二 言語作文においては,適切な語句選択が難しいという 問題がある(1) .語句選択の問題は辞書の語義だけで は解決できないため,辞書の例文を参照することにな るが,辞書に掲載された少ない例文だけでは語句選択 の妥当性を判断することは困難である. そこで,大量の例文をコーパスから検索し提示する ことで語句選択を支援する作文支援のアプローチがい くつか提案されている(2)(3) .我々は先行研究(2) にお いて,句構造コーパスを用いた例文検索システムの開 発を行った.句構造を用いることで,句の順序に基づ く検索が行え,検索された例文を分類表示できること が特徴である. 3. 句共起関係コーパスの構築 3.1. 句構造コーパスと句共起関係コーパスの違い 句構造コーパスは,言語を大規模に収集し,句構造 解析により得られた句構造情報と共にデータとして保 持したテキストデータである(4) .句構造解析は構文解 析の1 つであり,他には係り受け構造を解析するため の係り受け解析がある(5) .句構造は意味が同じでも 文の語順が変わると,構造の形も変わる.一方,係り 受け構造は,文の語順が変わった時でも構造の形は変 わらないため,語順の自由度が高い日本語の構文構造 表現に適しているとされている.本研究では,多言語 への対応を予定しているため,係り受け構造も利用し たいと考えた.そこで,句構造と係り受け構造の両方 を保持した句共起関係コーパスを構築する.句共起関 係を使って例文検索する際に検索条件が複雑にならな いよう,使用する句共起関係パターンは次の4 つに限 定する. 動詞句とその主語となる名詞句 動詞句とその目的語となる名詞句 名詞句とその補語となる句 動詞句とその補語となる句 3.2. 使用する構文解析器とパターン抽出手法 本研究で使用する構文解析器としては,現時点では 日本語・英語・中国語の3 か国語に対応させることを 目指しているため,英語と中国語の構文解析には StanfordCoreNLP (http://nlp.stanford.edu/software/core nlp.shtml) を使用し,日本語の構文解析にはCaboCha (https://code.google.com/p/cabocha/) を使用する. 1に示すように,StanfordCoreNLPでは,文の句構 造と係り受け構造が得られる.このnsubj という共起 関係子が,asked students がパターン1 の共起関係で あることを示している.そして句構造から,asked students を含む句の共起関係がわかる. Stanford CoreNLP を使った場合の句共起関係のパターン分類 は,表1のように共起関係子に基づき行う. Cabocha は係り受け解析器で,句構造解析器ではな 1. Stanford CoreNLPの解析例 Technical Reports on Information and Computer Science from Kochi Vol. 9 (2017), No. 8 1

Upload: others

Post on 01-Mar-2021

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 句共起関係コーパスを利用した第二言語作文支援のための 用 …trick.is.kochi-u.ac.jp/Vol09/TRICK09-08.pdf句共起関係コーパスを利用した第二言語作文支援のための

句共起関係コーパスを利用した第二言語作文支援のための用例文検索システムの構築

陸 烽 三好 康夫 Hou Riku Yasuo Miyoshi

高知大学大学院 総合人間自然科学研究科 理学専攻 情報科学分野

1. はじめに

本研究は第二言語学習の中でも作文を対象とした学習支援を目指す.また,対象言語を1つの言語に限定するのではなく,複数の言語に対しても支援できるよう考えており,本研究の最終目標は,多言語に対応した第二言語学習者のための作文支援を実現することである.現時点では,1つの文を書くための支援,つまり文単位での作文支援を想定しており,英語・日本語・中国語の作文支援を目的とした句共起関係コーパスと用例文検索システムの開発を行っている.本稿では,試作した句共起関係コーパスと用例文検索システム,及び評価実験について報告する.

2. 例文検索による第二言語作文支援

まず,学習者が作文するときの問題について考察する.母国語ではない言語で作文する時,自分が伝えたい意図を文として表現しても,その文が正しく表現できているかどうか,学習者は判断することができない.これは学習者自身が書いた文だけではなく,機械翻訳を使って作成した文であっても同様である.また第二言語作文においては,適切な語句選択が難しいという問題がある(1).語句選択の問題は辞書の語義だけでは解決できないため,辞書の例文を参照することになるが,辞書に掲載された少ない例文だけでは語句選択の妥当性を判断することは困難である. そこで,大量の例文をコーパスから検索し提示する

ことで語句選択を支援する作文支援のアプローチがいくつか提案されている(2)(3).我々は先行研究(2)において,句構造コーパスを用いた例文検索システムの開発を行った.句構造を用いることで,句の順序に基づく検索が行え,検索された例文を分類表示できることが特徴である.

3. 句共起関係コーパスの構築

3.1. 句構造コーパスと句共起関係コーパスの違い

句構造コーパスは,言語を大規模に収集し,句構造解析により得られた句構造情報と共にデータとして保持したテキストデータである(4).句構造解析は構文解析の1つであり,他には係り受け構造を解析するための係り受け解析がある(5).句構造は意味が同じでも

文の語順が変わると,構造の形も変わる.一方,係り受け構造は,文の語順が変わった時でも構造の形は変わらないため,語順の自由度が高い日本語の構文構造表現に適しているとされている.本研究では,多言語への対応を予定しているため,係り受け構造も利用したいと考えた.そこで,句構造と係り受け構造の両方を保持した句共起関係コーパスを構築する.句共起関係を使って例文検索する際に検索条件が複雑にならないよう,使用する句共起関係パターンは次の4つに限定する. ① 動詞句とその主語となる名詞句 ② 動詞句とその目的語となる名詞句 ③ 名詞句とその補語となる句 ④ 動詞句とその補語となる句

3.2. 使用する構文解析器とパターン抽出手法

本研究で使用する構文解析器としては,現時点では日本語・英語・中国語の3か国語に対応させることを目指しているため,英語と中国語の構文解析にはStanfordCoreNLP (http://nlp.stanford.edu/software/core nlp.shtml) を使用し,日本語の構文解析にはCaboCha (https://code.google.com/p/cabocha/) を使用する. 図1に示すように,StanfordCoreNLPでは,文の句構

造と係り受け構造が得られる.このnsubjという共起関係子が,askedとstudentsがパターン1の共起関係であることを示している.そして句構造から,askedとs t u d e n t sを含む句の共起関係がわかる.S t a n f o r d CoreNLPを使った場合の句共起関係のパターン分類は,表1のように共起関係子に基づき行う.

Cabochaは係り受け解析器で,句構造解析器ではな

図1. Stanford CoreNLPの解析例

Technical Reports on Information and Computer Science from Kochi Vol. 9 (2017), No. 8

1

Page 2: 句共起関係コーパスを利用した第二言語作文支援のための 用 …trick.is.kochi-u.ac.jp/Vol09/TRICK09-08.pdf句共起関係コーパスを利用した第二言語作文支援のための

いが,図2のようにchunkという句に相当する単位に文を区切ってくれるため,句の共起関係を得ることができる.そして,chunkに含まれるlink属性が共起関係を示している.ここでは,名詞句の助詞が「を」であるので,パターン②の共起関係であるとわかる.Cabochaを使った場合の句共起関係のパターン分類は,ルールに基づき行った.

4. 句共起関係コーパス

4.1. 句共起関係コーパスの規模

句共起関係コーパス(6)を構築するにあたり,自作のスクレイパを用いて教育工学に関するアブストラクトの用例文を収集した.表1のように,英語に関してはSpringer Link(http://link.springer.com/)から3,408件の論文のアブストラクトを収集し,日本語に関してはCiNii(http://ci.nii.ac.jp/)から1,073件の論文のアブストラクトを収集した.この計4,481件のアブストラクトを文単位に分割したところ,英語は20,666文,日本語は4 ,851文であった .英語の文の共起関係については,1つの文につき約12個のパターン①~④に該当する共起関係があり,計242,934件の共起関係が得られた.また,日本語の文の共起関係については,1つの文につき約9個の共起関係があり,計41,061件の共起関係が得られた.

例として,各パターンにおいてよく使われている単語とその出現頻度を表2に示す.語句選択の際に,どのような使われ方をしていることが多いのかを参照するのに十分な数の用例を収集できたと考えている.

5. 用例文検索システム

既存の用例文検索システムの問題点は,大量の検索結果の中から語句選択の参考になる用例を選び出すことが困難なことである.そこで,本研究で新たに開発した用例文検索システムでは3つの特徴を持たせた.1つ目は,図3のように指定した語を含む句の検索や,句と句の共起関係を提示することができることである.2つ目は,検索結果を句共起関係ごとに分類して,出現頻度順に並び替えて提示することができることである.3つ目は,複数の単語で検索することによって,共起関係の出現頻度の比較が容易に行えることである.本システムの開発環境については用例文検索ウェブアプリケーションはPython用ウェブアプリケーションフレームワークのDjangoを利用し,句共起関係コーパス

表2. パターン毎の5位までの頻出単語と出現回数

パターン① パターン② パターン③ パターン④主語 動詞 目的語 動詞 補語 名詞 補語 動詞

日本語

1 結果748

ある429

対象162

行う987

結果262

学習291

対象163

する477

2 本研究528

行う408

影響154

する491

こと190

授業265

目的156

行う411

3 学習者108

示す313

授業124

用いる365

ある150

研究219

結果89

検討する190

4 可能性97

示唆する 310

評価97

開発する 237

必要134

教育213

授業69

なる165

5 効果88

見る222

学習86

検討する 236

目的129

教師212

必要65

実施する109

英語

1 that2029

use1146

student565

use1604

that2405

student 3728

be4318

use489

2 we 1852

be1101

use440

provide1003

they2141

study2269

that2823

have427

3 student1505

have748

learning376

learn964

use2079

learning2052

as502

be409

4 it1147

provide646

effect332

have840

learning1576

environment 1932

while395

provide209

5 study1095

present571

model296

show608

design1524

education1871

student216

able185

言語 英語 日本語論文の収集元 Springer Link CiNii

論文数 3,408 1,073

文(文分割) 20,666 4,851

共起 関係

パターン① 33,673 7,228

パターン② 31,785 11,122

パターン③ 154,125 17,446

パターン④ 17,699 5,265

合計 242,934 41,061

表1. 作成したコーパスの規模

図2. Cabochaの解析例

図3.「propose」の検索例

2

Page 3: 句共起関係コーパスを利用した第二言語作文支援のための 用 …trick.is.kochi-u.ac.jp/Vol09/TRICK09-08.pdf句共起関係コーパスを利用した第二言語作文支援のための

はMariaDBを利用して構築している.

6. 評価実験

6.1. 実験目的

今回試作した用例文検索システムを評価するために,被験者に日本語の教育工学に関する2ページの論文を読んでもらい,その論文の要約を英語で書いてもらった.その際,日本語の要約を直訳する和文英訳にならないよう,元の論文原稿に書かれていた日本語のアブストラクトを隠して被験者に提示した. 評価実験の目的は,本システムを使用することでよ

り良い作文が書けるようになるかを確認することと,そもそも被験者に語彙不足や語句選択の問題があるのかどうかを確認すること,さらに,語句の使い分けの判断の際に本システムが有用であるかを確認することの3つである.

6.2. 実験方法

前説で述べた3つの項目を確認するため,ネイティブスピーカによる採点と,作文している様子を記録した動画の分析を行った.まず,良い作文が書けるようになるかは,ネイティブによる採点で評価する.次は語彙不足や語句選択の問題があるのかは,辞書検索や用例検索を行う回数で評価する.また,語句の使い分けの判断にシステムが有用であるかは,用例文検索の結果を語句選択の判断に活用している事例を調査することで評価する.評価実験に協力してくれた被験者は,教育工学系の研究室に所属する大学生と大学院生の14名である.開発した用例文検索システムを使った時と使わなかった時との比較をするために,被験者には合計3つの論文の要約を英語で書いてもらった. 被験者にはパソコン上で英作文を行ってもらい,そ

の際に,辞書サイトや検索エンジンなどを自由に使用しても良いことを伝えている.本システムを使用する場合も,辞書サイトなどと併用してもらった.ただし,作文する様子を確認することが本実験の目的でもあるので,Google 翻訳のような自動翻訳だけは使わないようにお願いした. 今回は,作文している様子を動画で記録するため,

図4のような手順で英作文を行っていただいた.まず,約15分で論文を読んで内容を理解する.次に,デスクトップキャプチャソフトを準備し,準備が整ったら,

デスクトップ画面の録画を開始する.そして,約30分間で,論文の要約 (100~200字程度の英文) をエディタ上に書く.要約が書き終わったか,途中であっても30分が経過したら,書くのをやめて録画を停止する.最後に,録画した動画ファイルをサーバにアップロードして,アンケートへの回答とキャプチャ動画URLの送信を行う.このような手順を3回繰り返し,3つの論文の要約の英作文を行ってもらった.

6.3. 実験結果

今回の評価実験の分析結果については,まず,ネイティブスピーカに採点してもらった採点結果は表3のようになった.採点の基準は,内容の完成度(通じるかどうか)と文法・単語の正確さで,20点満点である.表3の得点は,2名のネイティブ採点者による採点の平均値である.本システムを使用した時と使用していない時とで,採点結果に差はみられなかった. 次に,英作文をしている様子の動画を分析した結果

を表4に示す.ここでは,作文中に単語を調べた回数,本システムで用例文を検索した回数,用例文検索の結果を語句選択の判断に活用した回数を掲載した.表4の赤い数字は,各論文の平均点以上の得点であることを示しており,青い数字は平均点未満であることを示している.用例文検索結果を活用した,実際に役立った事例は,26件確認することができた. また,どの被験者も単語を頻繁に調べていることか

ら,語彙に関する問題は,やはり存在しており,用例文の検索も行われていることから,語句選択の問題も存在していることが確認できた.ただし,表4の黄色で示しているように,用例文検索を行わなかったり検索結果が活用されなかったりした事例も確認できた.

6.4. 実験考察 今回の実験について考察を述べる.用例文検索シス

テムの利用の有無による採点結果への影響が見られなかった原因は,システムの利用なしで高い点を得ていた被験者しか用例文検索システムを使いこなせなかったためと推察される.例えば被験者B5は単語を調べた

図4. 評価実験の実験手順

英作文 1回目 2回目 3回目 英作文 1回目 2回目 3回目システム利用 なし なし あり システム

利用 なし あり あり

被験者

A1 17 18 18

被験者

B1 8.5 8.5 11.5

A2 13.5 15.5 12.5 B2 10 10 9.5

A3 11 11 9 B3 5 7.5 12.5

A4 8.5 9 7 B4 8 3 10

A5 4 3 3 B5 10 16 18

A6 6 13.5 17 B6 3 1 1.5

B7 19 17.5 14.5

平均 10 11.7 11.1 平均 9.07 9.07 11.1

標準偏差 4.41 4.84 5.34 標準偏差 4.71 5.67 4.74

表3. ネイティブの採点結果分析

3

Page 4: 句共起関係コーパスを利用した第二言語作文支援のための 用 …trick.is.kochi-u.ac.jp/Vol09/TRICK09-08.pdf句共起関係コーパスを利用した第二言語作文支援のための

回数も少ないことから,この論文の要約を書くときに語彙の問題があまりなかったために用例文検索が行われなかったと考えられるが,それ以外の被験者に関しては,ネイティブによる採点結果の得点が低い被験者が多いことから,用例文検索を使いこなせなかったのではないかと考えられる. システムを使いこなせなかった被験者の様子を詳し

く動画分析したところ,品詞の使い間違えやスペルミスにより検索結果を得られない様子や,対訳情報がないために自分の書きたい文と意図や状況が近いのか判断できない様子などが伺え,語句選択を行う以前に,語句の候補を持たないまま使用しようとしていることが原因であることが確認できた. 例えば実験中に起きた事例として,「~を提案する」

という表現を英語で書こうとした被験者が,和英辞書を調べる際に品詞(動詞と名詞)の違いを意識せずに「提案」で検索し,見つかった「proposal」を語句の候補として選んでしまった.用例文検索システムで「proposal」を検索しても被験者の期待する用例文が得られないため,本システムでは役に立つ情報が得られないと感じ,利用しなくなってしまった. このことより,本システムは語句選択の判断を支援

するが,語句の候補が正しくなければ適切な支援を行うのは難しいと考えられる.また,本システムを使いこなすためには,辞書を使って適切な語句の候補を見つけられる程度の語学力は必要であると思われる. 事後アンケートにおいても,例文の対訳(日本語訳)

や翻訳機能を求む声が多く寄せられた.これらの意見からも,対訳情報がないと,見つかった用例文が自分の書きたい文と意図や状況が近いのか判断するのが困難であることが伺える.対訳を提示できれば語学力の低いユーザの助けとなりそうである.

7. おわりに

本稿では,第二言語作文支援のための句構造解析と係り受け解析を利用した句共起関係コーパスと用例文検索システムについて解説し,システムの評価実験の結果を報告した.本研究で開発した用例文検索システ

ムの特徴は,指定した語を含む句の検索や句と句の共起関係を提示可能であることと,検索結果を句共起関係ごとに分類し,出現頻度順にソートして提示可能であること,そして,複数の単語で検索することにより共起関係の出現頻度の比較が容易であることの3つである.これにより,書きたい文の伝えたい意図と一致する例文が見つけやすくなる. 評価実験で得られた知見として,初学者を対象とし

た学習環境を提供するには,想定していたよりも,語句の候補を提供するための辞書との連携や対訳情報の提供などが重要であることがわかった.

参考文献 (1) Someya, Y.: The State of Written Business Communi

cation in English in the Japanese Workplace: A Questi onnaire Survey, The 64th Annual Convention of the Association for Business Communication, 1999.

(2) 三好康夫, 越智洋司, 金西計英, 岡本竜, 矢野米雄: 英作文支援における句構造情報を利用した用例検索ツール, 日本教育工学雑誌, Vol.27, No.3, pp.283-294, 2003.

(3) 高松優, 水野淳太, 岡崎直観, 乾健太郎: 英作文支援のための用例検索システムの構築, 言語処理学会年次大会, pp.361-364, 2012.

(4) 石川慎一郎: ベージックコーパス言語学, ひつじ書房, 2012.

(5) 工藤拓, 松本裕治: Support Vector Machineによる日本語係り受け解析 , 電子情報通信学会技術研究報告 , Vol.100, No.201, pp.25-32, 2000.

(6) 陸 烽,三好 康夫:第二言語作文支援のための句構造解析と係り受け解析を利用した句共起関係コーパスの構築,IEICE technical report : 信学技報 115(492), pp.115-118, (2016)

A1 A2 A3 A4 A5 A6

作文回数 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3

ネイティブ採点 17 18 18 13.5 15.5 12.5 11 11 9 8.5 9 7 4 3 3 6 13.5 17

単語検索 21 12 14 35 39 28 39 34 29 18 31 20 25 11 12 13 8 8

用例検索 - - 4 - - 11 - - 17 - - 9 - - 3 - - 3

用例活用 - - 2 - - 2 - - 4 - - 1 - - 0 - - 1

B1 B2 B3 B4 B5 B6 B7

作文回数 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3 1 2 3

ネイティブ採点 8.5 8.5 11.5 10 10 9.5 5 7.5 12.5 8 3 10 10 16 18 3 1 1.5 19 17.5 14.5

単語検索 14 9 10 27 21 25 24 12 16 25 24 34 15 17 3 24 16 18 36 24 32

用例検索 - 11 6 - 9 0 - 5 5 - 2 0 - 4 0 - 2 2 - 9 4

用例活用 - 5 2 - 1 0 - 2 2 - 0 0 - 1 0 - 0 0 - 1 2

表4. 動画分析の結果

4