web コーパスを活用した レベル別例文検索システムの開発と評価

45
Web Web コココココココココ コココココココココ ココココココココココココココココココ ココココココココココココココココココ 川川川川川 川川川川川川 川川川川川川川川 ・・ 川川川川川 川川川川川川 川川川川川川川川 ・・ 川川川川川川 川川川川川川川 川川川川川川川 () 川川川川川川 川川川川川川川 川川川川川川川 () 川川川川川 川川川川 川川川川川川川 川川川川川 川川川川 川川川川川川川 川川川 川川川川川川川川 川川川 川川川川川川川川

Upload: ray

Post on 27-Jan-2016

48 views

Category:

Documents


0 download

DESCRIPTION

Web コーパスを活用した レベル別例文検索システムの開発と評価. 川村よし子    クリスティナ・ヒメリャク・寒川 東京国際大学   ルブリャナ大学(スロヴェニア) 共同研究者:トマジュ・エリャヴェッツ          ヨセフ・ステファン研究所. Web コーパスを活用した レベル別例文検索システムの開発と評価. はじめに 1. Web コーパスを活用した    レベル別例文検索システムの開発 2.レベル別例文検索システムの仕組み 3.レベル別例文検索システムの評価. はじめに. 言語教育において、学習者のレベルにあった例文の提示は不可欠である。 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Web コーパスを活用した レベル別例文検索システムの開発と評価

WebWebコーパスを活用したコーパスを活用したレベル別例文検索システムレベル別例文検索システム

の開発と評価の開発と評価 川村よし子    クリスティナ・ヒメリャク川村よし子    クリスティナ・ヒメリャク

・寒川・寒川東京国際大学   ルブリャナ大学(スロヴェ東京国際大学   ルブリャナ大学(スロヴェ

ニア)ニア)

共同研究者:トマジュ・エリャヴェッツ 共同研究者:トマジュ・エリャヴェッツ          ヨセフ・ステファン研究所          ヨセフ・ステファン研究所

Page 2: Web コーパスを活用した レベル別例文検索システムの開発と評価

WebWebコーパスを活用したコーパスを活用したレベル別例文検索システムの開発と評価レベル別例文検索システムの開発と評価

►はじめにはじめに

►1.1.WebWebコーパスを活用したコーパスを活用した   レベル別例文検索システムの開発   レベル別例文検索システムの開発

►2.レベル別例文検索システムの仕組み2.レベル別例文検索システムの仕組み

►3.レベル別例文検索システムの評価3.レベル別例文検索システムの評価

Page 3: Web コーパスを活用した レベル別例文検索システムの開発と評価

はじめにはじめに► 言語教育において、学習者のレベルにあった例文言語教育において、学習者のレベルにあった例文

の提示は不可欠である。の提示は不可欠である。► 例文はできるだけ自然な日本語で書かれているこ例文はできるだけ自然な日本語で書かれているこ

とが望ましい 。とが望ましい 。► 従来の辞書従来の辞書 『外国人のための基本語用例辞典』  『外国人のための基本語用例辞典』  『基礎日本語学習辞典』  『基礎日本語学習辞典』  『例解新国語辞典』  『例解新国語辞典』   作例が多く、品詞分類への配慮も十分ではない  作例が多く、品詞分類への配慮も十分ではない

Page 4: Web コーパスを活用した レベル別例文検索システムの開発と評価

► チュウ太の日本語辞書多言語化プロジェクトチュウ太の日本語辞書多言語化プロジェクト 1)異なった文化圏の学習者への配慮 1)異なった文化圏の学習者への配慮 2)品詞分類の異なる言語への配慮 2)品詞分類の異なる言語への配慮 3)用法についての言及 3)用法についての言及 4)接尾辞的用法への配慮 4)接尾辞的用法への配慮 5) 5) collocationcollocation ・連語・慣用句等への言及・連語・慣用句等への言及 6)概念ごとに例文を提示 6)概念ごとに例文を提示 ⇒⇒ 学習者のレベルにあった「自然な日本語の例文」学習者のレベルにあった「自然な日本語の例文」

を意味概念ごとに作成するのは容易ではない を意味概念ごとに作成するのは容易ではない

⇒⇒webweb 上の電子情報を活用したレベル別例文検索シ上の電子情報を活用したレベル別例文検索システムを開発 するステムを開発 する

Page 5: Web コーパスを活用した レベル別例文検索システムの開発と評価

1.1.WebWeb コーパスを活用したコーパスを活用した   レベル別例文検索システムの開発   レベル別例文検索システムの開発

► 5万の日本語のウェブページから構築した4億語の5万の日本語のウェブページから構築した4億語のコーパス「コーパス「 JpWaCJpWaC 」 」

► 形態素解析システム形態素解析システム ChaSenChaSen でコーパスの解析 でコーパスの解析   ⇒ 1億語の学習者用コーパスを作成  ⇒ 1億語の学習者用コーパスを作成

► 各例文への情報付与各例文への情報付与 ・コーパス中の各単語に、「出題基準」)をもとに ・コーパス中の各単語に、「出題基準」)をもとに

したした     44 級(級( Level 4Level 4 )~)~ 11 級(級( Level 1Level 1 )のレベル付け)のレベル付け ・級外のものは ・級外のものは Level 0Level 0 ・各文に単語数、レベル別単語数、比率の情報付与  ・各文に単語数、レベル別単語数、比率の情報付与

Page 6: Web コーパスを活用した レベル別例文検索システムの開発と評価

1.1.WebWeb コーパスを活用したコーパスを活用した   レベル別例文検索システムの開発   レベル別例文検索システムの開発

►日本語学習者用例文日本語学習者用例文 の抽出 の抽出  1)一文の長さが  1)一文の長さが 55 語以上語以上 2525 語以下のこと語以下のこと  2)  2) 2020 %以上の記号や数字を含まないこと%以上の記号や数字を含まないこと  3)日本語以外の表記を含まないこと  3)日本語以外の表記を含まないこと  4)句点(。)で終わっていること  4)句点(。)で終わっていること  5)少なくとも一つの動詞、形容詞、形容動詞、  5)少なくとも一つの動詞、形容詞、形容動詞、    あるいは助動詞を含むこと    あるいは助動詞を含むこと⇒⇒  学習者用例文コーパス(「 学習者用例文コーパス(「 JpWac-L2JpWac-L2 」) 」)      859,416859,416 文(単語総数文(単語総数 13,395,66713,395,667 語)語)

Page 7: Web コーパスを活用した レベル別例文検索システムの開発と評価

1.1.WebWeb コーパスを活用したコーパスを活用した   レベル別例文検索システムの開発   レベル別例文検索システムの開発

► レベル別コーパス作成 レベル別コーパス作成  1)各レベルの例文には当該レベルより上の語句 1)各レベルの例文には当該レベルより上の語句

を含まないことを含まないこと 2)各レベルの例文には当該レベルの語を 2)各レベルの例文には当該レベルの語を 1010 %%

以上含むこと以上含むこと

⇒⇒    Level 0Level 0  から  から  Level 4Level 4  までの までの 55 段階の段階の  レベル別例文コーパス  レベル別例文コーパス

Page 8: Web コーパスを活用した レベル別例文検索システムの開発と評価

レベル別コーパスに含まれるレベル別コーパスに含まれる例文数例文数

レベル別コーパス 例文数JpWac-L2 に占め

る割合(%)Level 0 351,935 40.95

Level 1 34,777 4.05

Level 2 96,161 11.19

Level 3 26,894 3.13

Level 4 9,830 1.14

計 519,597 60.45

Page 9: Web コーパスを活用した レベル別例文検索システムの開発と評価

2.レベル別例文検索システムの仕組み2.レベル別例文検索システムの仕組み ► 入力された語句を含む例文を自動で検索する入力された語句を含む例文を自動で検索する  キーワード検索システム   キーワード検索システム ► インターネット上で利用可能  インターネット上で利用可能            (          ( http://nl.ijs.si/jaslo/cqp/index.http://nl.ijs.si/jaslo/cqp/index.

htmlhtml ) ) ► 検索方法や表示形式に関して細かく設定可能検索方法や表示形式に関して細かく設定可能

► 例文コーパス全体からの例文検索例文コーパス全体からの例文検索                                                  

 選択可能  選択可能   レベル別コーパスからの例文検索  レベル別コーパスからの例文検索

Page 10: Web コーパスを活用した レベル別例文検索システムの開発と評価

Basic Proficiency Subcorpus ( Level 3 )

Page 11: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 12: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 13: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 14: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 15: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 16: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 17: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 18: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 19: Web コーパスを活用した レベル別例文検索システムの開発と評価

慣れる

Page 20: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 21: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 22: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 23: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 24: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 25: Web コーパスを活用した レベル別例文検索システムの開発と評価

3.レベル別例文検索システムの評3.レベル別例文検索システムの評価価

► 1)十分な量の例文が提供できているか 1)十分な量の例文が提供できているか ► 2)文として整っているか 2)文として整っているか ► 3)意味が通じるか 3)意味が通じるか ► 4)例文として適切か 4)例文として適切か ► 5)レベルにあっているか 5)レベルにあっているか

Page 26: Web コーパスを活用した レベル別例文検索システムの開発と評価

1)十分な量の例文が提供できている1)十分な量の例文が提供できているかか

各調査語に対するレベルごとの例文数各調査語に対するレベルごとの例文数

Page 27: Web コーパスを活用した レベル別例文検索システムの開発と評価

)十分な量の例文が提供できているか)十分な量の例文が提供できているか

Page 28: Web コーパスを活用した レベル別例文検索システムの開発と評価

2)文として整っているか2)文として整っているか► 例文抽出条件 5)例文抽出条件 5)◎◎  「少なくとも一つの動詞、形容詞、形容 「少なくとも一つの動詞、形容詞、形容

動詞、    動詞、       あるいは助動詞   あるいは助動詞を含むことを含むこと」 」    ⇒ 体言止めの文を含む   ⇒ 体言止めの文を含む○ ○ 「動詞、形容詞、形容動詞、或いは助動詞「動詞、形容詞、形容動詞、或いは助動詞 で終わっていることで終わっていること」 」 ⇒ ⇒  文のみを抽出 文のみを抽出

Page 29: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 30: Web コーパスを活用した レベル別例文検索システムの開発と評価

2)文として整っているか2)文として整っているか► 単語の「切り出し」の誤り単語の「切り出し」の誤り 例: 割りに  例: 割りに  //  割に  割に  //  わりに わりに 自分を必要以上に良く見せようとしないか 自分を必要以上に良く見せようとしないか

わりにわりに、お世辞やおべっかを使うのが苦手、お世辞やおべっかを使うのが苦手です。です。

► 単漢字の場合単漢字の場合

Page 31: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 32: Web コーパスを活用した レベル別例文検索システムの開発と評価

対応:2)文として整っている対応:2)文として整っているかか

► きちんとした文になっているかきちんとした文になっているか         例文抽出条件 5) 例文抽出条件 5)◎◎  「少なくとも一つの動詞、形容詞、形容動詞、 「少なくとも一つの動詞、形容詞、形容動詞、

           あるいは助動詞   あるいは助動詞を含むことを含むこと」 」    ⇒ 体言止めの文を含む   ⇒ 体言止めの文を含む○ ○ 「動詞、形容詞、形容動詞、或いは助動詞「動詞、形容詞、形容動詞、或いは助動詞 で終わっていることで終わっていること」 」 ⇒ ⇒  文のみを抽出 文のみを抽出

Page 33: Web コーパスを活用した レベル別例文検索システムの開発と評価

対応:2)文として整っている対応:2)文として整っているかか

► 例文として適格か例文として適格か

 問題点 1 単語の切り出しの誤り 問題点 1 単語の切り出しの誤り  例:自分を必要以上に良く見せようとしないか  例:自分を必要以上に良く見せようとしないか

わりにわりに、、     お世辞やおべっかを使うのが苦手です。     お世辞やおべっかを使うのが苦手です。 ☆ ☆    ChaSenChaSen 辞書情報の変更によって修正は可能辞書情報の変更によって修正は可能

 問題点 2 同じ表記で読みが複数ある単語 問題点 2 同じ表記で読みが複数ある単語  例:表   例:表 [[ おもて・ひょうおもて・ひょう ]]   入れる   入れる [[ はいれる・はいれる・

いれるいれる ] ]   ☆ 形態素解析のみでの区別は不可能  ☆ 形態素解析のみでの区別は不可能

Page 34: Web コーパスを活用した レベル別例文検索システムの開発と評価

3)意味が通じるか3)意味が通じるか► そう政治力である。そう政治力である。

► 寂しいやつだの。 寂しいやつだの。

Page 35: Web コーパスを活用した レベル別例文検索システムの開発と評価

4)例文として適切か4)例文として適切か► 誤字脱字のある文 誤字脱字のある文  ・しかし扉の前の男はその唾またって、ドアをふ ・しかし扉の前の男はその唾またって、ドアをふ

さいでいる。                 さいでいる。                 (ミスタイプの可能性)(ミスタイプの可能性)

 ・人の話聞く注意力がない。        (助詞 ・人の話聞く注意力がない。        (助詞の脱落) の脱落)

 ・このように、この国の高層階は解釈している。 ・このように、この国の高層階は解釈している。        ((母語干渉?による誤り)母語干渉?による誤り)

Page 36: Web コーパスを活用した レベル別例文検索システムの開発と評価

対応:4)例文として適切か対応:4)例文として適切か► 誤字脱字のある文 誤字脱字のある文

► 言語教育には適さない文章   言語教育には適さない文章   

► 反社会的な文章反社会的な文章

 ⇒ 例文の修正・削除の方法を要検討 ⇒ 例文の修正・削除の方法を要検討

           ただし。。。           ただし。。。

Page 37: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 38: Web コーパスを活用した レベル別例文検索システムの開発と評価
Page 39: Web コーパスを活用した レベル別例文検索システムの開発と評価

5)レベルにあっているか 5)レベルにあっているか

► 単語レベルでみる限り学習者のレベルにあっ単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 た例文をほぼ全てのレベルで提示可能

   例外:再来年    例外:再来年  ((全体で全体で 1818 文のみ)文のみ)         Level Level 0 3文 0 3文  Level Level 2 2  11 文 文 

Level 3Level 3    11 文文

►Level 4Level 4  でも有用な例文を提示可能 でも有用な例文を提示可能

 ・人の話は右耳で聞け。 ・人の話は右耳で聞け。

 ・一日 ・一日 33回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。

Page 40: Web コーパスを活用した レベル別例文検索システムの開発と評価

人の話は右耳で聞け。人の話は右耳で聞け。

Page 41: Web コーパスを活用した レベル別例文検索システムの開発と評価

5)レベルにあっているか 5)レベルにあっているか

► 単語レベルでみる限り学習者のレベルにあっ単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能 た例文をほぼ全てのレベルで提示可能

   例外:再来年    例外:再来年  ((全体で全体で 1818 文のみ)文のみ)         Level Level 0 3文 0 3文  Level Level 2 2  11 文 文 

Level 3Level 3    11 文文

►Level 4Level 4  でも有用な例文を提示可能 でも有用な例文を提示可能

 ・人の話は右耳で聞け。 ・人の話は右耳で聞け。

 ・一日 ・一日 33回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。

Page 42: Web コーパスを活用した レベル別例文検索システムの開発と評価

一日一日 33 回、歯を磨く人にも悪い人はいない。回、歯を磨く人にも悪い人はいない。

Page 43: Web コーパスを活用した レベル別例文検索システムの開発と評価

5)レベルにあっているか 5)レベルにあっているか

► 単語レベルでみる限り学習者のレベルにあった例文を単語レベルでみる限り学習者のレベルにあった例文をほぼ全てのレベルで提示可能ほぼ全てのレベルで提示可能

► 文法・構文からみると、レベルにあっているとはいえ文法・構文からみると、レベルにあっているとはいえないものも含まれている。ないものも含まれている。

► 例:例: 「全部」( 「全部」( Level 4Level 4 コーパスの例文)コーパスの例文)  ・まだ  ・まだ全部全部読んでませんが。(「い」の省略、「が」の後が読んでませんが。(「い」の省略、「が」の後が略)略)

 「全部」 ( 「全部」 ( Level 3Level 3 コーパスの例文)コーパスの例文)  ・「  ・「全部全部できなくたって構わない。」(3級)問題: 「なくできなくたって構わない。」(3級)問題: 「なく

たって」たって」 「出来る」( ( 「出来る」( ( Level 4Level 4 コーパスの例文) )コーパスの例文) )  ・  ・出来る出来る人は、そういないでしょうね。(「出来る」の意味)人は、そういないでしょうね。(「出来る」の意味)

Page 44: Web コーパスを活用した レベル別例文検索システムの開発と評価

今後の課題今後の課題► レベル別コーパスの例文すべてが、当該レレベル別コーパスの例文すべてが、当該レ

ベルの学習者に適した例文かどうかに関しベルの学習者に適した例文かどうかに関してはより詳しい調査、特に学習者を対象にてはより詳しい調査、特に学習者を対象にした調査を行う必要がある。した調査を行う必要がある。

►評価実験の結果、明らかになった問題点に評価実験の結果、明らかになった問題点に関しては、適宜、改良していく。 関しては、適宜、改良していく。

► 例文検索システムを『リーディング・チュ例文検索システムを『リーディング・チュウ太』に組み入れることを検討中である。ウ太』に組み入れることを検討中である。

Page 45: Web コーパスを活用した レベル別例文検索システムの開発と評価

参考文献参考文献► 金庭久美子・川村よし子(金庭久美子・川村よし子( 20082008 )「多言語版日本語辞書における用)「多言語版日本語辞書における用

例作成の諸問題」『日本語教育方法研究会誌』例作成の諸問題」『日本語教育方法研究会誌』 vol.15, No.1,14-15vol.15, No.1,14-15 ..

► 川村よし子(川村よし子( 20062006 )「多言語版日本語辞書編集システムの開発と運)「多言語版日本語辞書編集システムの開発と運用実験」『ヨーロッパ日本語教育』用実験」『ヨーロッパ日本語教育』 vol.10, 146-151.vol.10, 146-151.

► 川村よし子・金庭久美子(川村よし子・金庭久美子( 20062006 )「国際共同編集による日本語学習)「国際共同編集による日本語学習者のための多言語版者のための多言語版 webweb 辞書の開発」『日本語教育学会春季大会予稿辞書の開発」『日本語教育学会春季大会予稿集』集』 61-6661-66 ..

► 松本裕治松本裕治 //北内啓北内啓 //山下達雄山下達雄 //平野善隆平野善隆 //松田寛松田寛 //高岡一馬高岡一馬 //浅原 正浅原 正幸幸 , , 形態素解析システム『茶筌』 形態素解析システム『茶筌』 version 2.2.1 version 2.2.1 使用説明書使用説明書 , 2000, f, 2000, from rom http://chasen.naist.jp/hiki/ChaSen/http://chasen.naist.jp/hiki/ChaSen/..

► Srdanovi , I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and WoćSrdanovi , I. & Erjavec, T. & Kilgarriff, A. (2008). A Web Corpus and Woćrd Sketches for Japanese. Journal of Natural Language Processing, 15/rd Sketches for Japanese. Journal of Natural Language Processing, 15/2, 137-159.2, 137-159.