日本語読解支援のための語義ごとの 用例抽出システムの構築 ...yuyi\ s\ y...
TRANSCRIPT
水野淳太 大山浩美 小林朋幸 坂田浩亮 Noah Evans 谷口雄作 松本裕治奈良先端科学技術大学院大学 情報科学研究科
言語処理学会 第14回年次大会 ワークショップ「教育・学習を支援する言語処理」
日本語読解支援のための語義ごとの用例抽出システムの構築
言語教育の支援を目的とした、大量の電子テキストを活用したシステムが開発されている一般的に、外国語学習者は目的言語を目的言語で理解したい日本語を日本語で理解したい学習の助けとなるのは国語辞典や英英辞典辞書の語釈文は初学者には難読例文の提示は語釈文の理解に有用
背景
2
関連システム:スペースアルク
3
関連システム:Rikai.com
4
関連システム:Rikai.com
4
関連システム:リーディングチュウ太
5
関連システム:あすなろ
6
関連システム:あすなろ
6
関連システム:あすなろ
6
関連システム:あすなろ
6
関連システム:あすなろ
6
日本語学習者のための語義ごとの例文の提示語釈文の理解の助けとなる語義ごとの用法の差異を学習できる様々な尺度を用いた例文の選択学習者難易度や文長
教師難易度や文長と、重みをかけた例文のランキング学習者にとって適切な例文を検索したり、作成の手助けになる
目的
7
システムの概要
8
課題
1. 語義曖昧性解消例文を語義ごとに分類して表示する
2. 例文の選択文章長や難易度によって例文を選択、並べ替える選択の尺度の設定
3. インターフェース例文の語義についての誤分類の訂正教師用と学習者用の違い
9
1. 語義曖昧性解消
例文を語義ごとに分類して表示するために必要一般的には教師あり学習を用いて解くあらゆる単語についての訓練データを用意するのは現実的に不可能
語釈文の情報を利用して半教師あり学習を行う訓練データが少なくても分類が行える高精度に分類するのは難しい学習者は誤分類を判断できない
10
1. 語義曖昧性解消
例文を語義ごとに分類して表示するために必要一般的には教師あり学習を用いて解くあらゆる単語についての訓練データを用意するのは現実的に不可能
語釈文の情報を利用して半教師あり学習を行う訓練データが少なくても分類が行える高精度に分類するのは難しい学習者は誤分類を判断できない
教師による例文の追加、誤分類の修正
10
教師による誤分類の修正
教師向けに “例文の誤分類修正機能” および “例文の追加機能” を提供する確信度の高い例文だけを使っても、誤分類を無くすのは難しい教師による修正が行えることで、正しく分類された例文が増える同時に分類性能の向上も期待できる
11
2. 例文の選択
学習者にとって習熟度によって適切な例文は異なる
教師にとって学習者ごとに適切な例文を提示したい
12
2. 例文の選択
学習者にとって習熟度によって適切な例文は異なる
教師にとって学習者ごとに適切な例文を提示したい
文の長さや難易度によって例文を選択する
12
文長の評価学習者にとって長すぎると難読になってしまうが、短すぎると理解の助けになりにくい
教師にとって学習者に提示する例文は、短すぎても長すぎても適切ではない
文の最大単語数(max)、最小単語数(min)を指定評価値は単語数 n の文について
1!!
max +min!2n
max!min+1
"2
ただし負数の場合は0
13
難易度の評価単語、漢字、文法について、日本国際教育支援協会(JEES)によって定められた級を利用して、その難易度を判定する日本語教育の現場では、就学している級より難易度の高い単語などを含む文を用いた指導はできない例文が指定難易度以上の単語などを含むとき、非表示にする注意付きで表示する
の2通りの表示方法を選べる
14
単語、漢字の難易度 (1/2)
JEESでは、例えば以下のように定められている
級を以下の式によって評価する
文法(後述)についても同じ式で評価する
単語会う 4級移民 1級
漢字語 4級蔵 1級
k + 15
kただし は級
15
単語、漢字の難易度 (2/2)
級の定められていない単語や漢字についてはコーパス内での出現頻度によって級を推定級別の単語のコーパス内での出現頻度 (毎日新聞2002年の1~6月)
16
1
10
100
1000
10000
0.5 1 1.5 2 2.5 3 3.5 4 4.5
Fre
quency
JEES-Rank
JEES
Freq
uenc
y
JEES-Rank1 2 3 4
単語、漢字の難易度 (2/2)
級の定められていない単語や漢字についてはコーパス内での出現頻度によって級を推定級別の単語のコーパス内での出現頻度 (毎日新聞2002年の1~6月)
16
1
10
100
1000
10000
0.5 1 1.5 2 2.5 3 3.5 4 4.5
Fre
quency
JEES-Rank
JEES
Freq
uenc
y
JEES-Rank1 2 3 4
文法の難易度JEESでは、例えば以下のように定められている
これらを正規表現のパターンとして利用する
~です 4級
~たところで 1級
17
選択基準
文長、単語、漢字、文法の難易度の4つの尺度をどう組み合わせるか学習者それぞれの尺度について、利用するかどうかを選ぶ
教師それぞれの尺度に重みをつけ、その重み線形和をとる
18
19
例文の選択例“正しい” の “道理や法にかなって、誤りが無い” についての例文設定したパラメータ
値 重み最小文長 10
0.1最大文長 25
単語級 2 0.2
漢字級 2 0.5
文法級 2 0.1
19
例文の選択例文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1
19
例文の選択例
08/03/20 10:23NAIST Language Tutor
ページ 1/1http://localhost:3000/dictionary/search
NAIST Language Tutor
for students
Sentence Length weighted
max: words
min: words
Grade
Word: Rank weighted
Kanji: Rank weighted
Grammar: Rank weighted
lookup dictionary show not adapted sentence
正しい日本語を話す
0.1
25
10
2 0.2
2 0.5
2 0.1
Input Text : 正しい日本語を話す
正しい1. きちんとしている。整っている。「正しい姿勢」▽「まさしい」と読めば別の意。<派生> 正しさ2. 道理や法にかなって、誤りが無い。「正しい行い」「正しい答」
continue reading...39 examples rest
1. 次につぎに 正しいただしい
漢字かんじ か どう か の 選択
せんたく 作業さぎょう
が 始まるはじまる
が 、 そこ に 誤りあやまり
が 起こりおこり
やすい 。 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375
2. —— テロ を 防ぐふせぐ ため に イスラム 教徒
きょうと に も
正しいただしい
イスラム 解釈かいしゃく
を 教えるおしえる
必要ひつよう
が ある わけ です か 。
20words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.590234375
3. 我々われわれ
が 求めるもとめる
の は 、 あくまで 正しいただしい
ジャッジ だ 」 と 慎重
しんちょう な 返答
へんとう に 終始
しゅうし し た 。
18words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375
4. 侵略しんりゃく
さ れ た 国くに が 自国
じこく を 守る
まもる 戦争せんそう
は 正しいただしい
戦争せんそう
と 言っいっ て 差し支え
さしつかえ ない 。
17words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375
5. だが 、 今いま も 「 あの 時
とき の 判断
はんだん は 正しかっ
ただしかっ た
」 と 胸むね を 張る
はる 。
16words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.556484375
話す1. 声に出してものを言う。口で述べる。「本当の事を話す」。互いに言葉を交わす。会話をする。「母と話す」「話せばわかる」2. その言語を音声言語として使う。「日本語で話そうよ「この国には英語を話す人が多い」
文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1
19
例文の選択例
08/03/20 10:23NAIST Language Tutor
ページ 1/1http://localhost:3000/dictionary/search
NAIST Language Tutor
for students
Sentence Length weighted
max: words
min: words
Grade
Word: Rank weighted
Kanji: Rank weighted
Grammar: Rank weighted
lookup dictionary show not adapted sentence
正しい日本語を話す
0.1
25
10
2 0.2
2 0.5
2 0.1
Input Text : 正しい日本語を話す
正しい1. きちんとしている。整っている。「正しい姿勢」▽「まさしい」と読めば別の意。<派生> 正しさ2. 道理や法にかなって、誤りが無い。「正しい行い」「正しい答」
continue reading...39 examples rest
1. 次につぎに 正しいただしい
漢字かんじ か どう か の 選択
せんたく 作業さぎょう
が 始まるはじまる
が 、 そこ に 誤りあやまり
が 起こりおこり
やすい 。 18words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.599609375
2. —— テロ を 防ぐふせぐ ため に イスラム 教徒
きょうと に も
正しいただしい
イスラム 解釈かいしゃく
を 教えるおしえる
必要ひつよう
が ある わけ です か 。
20words | WordRank 2 | KanjiRank 2 | GrammarRank 3 | 0.590234375
3. 我々われわれ
が 求めるもとめる
の は 、 あくまで 正しいただしい
ジャッジ だ 」 と 慎重
しんちょう な 返答
へんとう に 終始
しゅうし し た 。
18words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375
4. 侵略しんりゃく
さ れ た 国くに が 自国
じこく を 守る
まもる 戦争せんそう
は 正しいただしい
戦争せんそう
と 言っいっ て 差し支え
さしつかえ ない 。
17words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.559609375
5. だが 、 今いま も 「 あの 時
とき の 判断
はんだん は 正しかっ
ただしかっ た
」 と 胸むね を 張る
はる 。
16words | WordRank 1 | KanjiRank 2 | GrammarRank 3 | 0.556484375
話す1. 声に出してものを言う。口で述べる。「本当の事を話す」。互いに言葉を交わす。会話をする。「母と話す」「話せばわかる」2. その言語を音声言語として使う。「日本語で話そうよ「この国には英語を話す人が多い」
文長 10~25 w0.1 単語 2級 w0.2 漢字 2級 w0.5 文法 2級 w0.1
3. インターフェース
教師用インターフェースのみが有する機能例文選択のためのパラメータに重みを設定できる例文の語義分類を修正できる(未実装)
例文の追加ができる (未実装)
実際に利用してもらった上での主観評価が必要
20
まとめ
入力された文または単語について、辞書引きを行って語義の語釈文を提示し、語義ごとの例文を提示するシステムの開発例文を選択する基準を設定し、その効果を確認例文を語義ごとに表示するために、教師による誤分類の修正機能の重要性を確認
21
今後の課題
実際に利用してもらった上での主観評価サービスとしての運用
例文の語義についての誤分類修正機能の実装学習履歴を保存して活用以前に調べたことのある単語であれば、それを指摘検索するたびに異なる例文を提示
22