文脈の多様性に基づく名詞換言の提案
TRANSCRIPT
背景と目的 国語辞典を用いた換言 [梶原 13] 【語彙平易化】見出し語 → 語釈文中の語 課題1:語釈文の一部では見出し語と非等価 課題2:数語の語釈文では換言候補が少ない
→ 既存の換言知識に頼らず 大規模コーパスを用いて換言を生成
2
提案手法 コーパスを用いた名詞換言
分布仮説[Harris 54]
似た意味の語は似た文脈で用いられる 1. 入力文と同じ文脈で用いられる名詞を抽出 → 自然な文を出力するための制約
2. 抽出した各換言候補語と文脈の類似度を計算 → 意味を保持するための制約
3
2. 換言先の選択(類似度計算) 換言対象の語と換言候補の語が多くの種類 の文脈を共有するほど換言可能性は高い
換言候補の語が多くの種類の 文脈を持つほど換言可能性は低い sim(nt, nc) = com(nt, nc) * log(N/DF(nc))
nt:換言対象の名詞、 nc:換言候補の名詞 com(nt, nc):ntとncが共通して用いられる文脈の種類数 N:文脈の総数、 DF(nc):名詞ncが用いられる文脈の種類数 6
1 2
1 2
提案手法の特徴 • 入力文脈に応じた換言が可能
• 単語の出現頻度を使わない • 換言可能な語とは多くの種類の文脈を共有する • 高頻度の単語に影響を受けない • 頻度の偏りにも影響を受けない
→ 文脈の多様性に基づく名詞換言の提案
7
関連研究 • [Marton et al. 09] • [Bhagat and Ravichandran 08]
1. コーパス中で換言対象語の 文脈の語から特徴ベクトルを生成する
2. 特徴ベクトル同士のコサイン類似度を 計算し類似度最大の換言候補語へ換言する
8
関連研究 • [Marton et al. 09] • 未知語の換言により機械翻訳の精度を向上 • 文脈の語との共起頻度で特徴ベクトルを作成
• [Bhagat and Ravichandran 08] • 大規模コーパスから換言対を獲得 • 文脈の語とのPMIで特徴ベクトルを作成
9
関連研究 • [Marton et al. 09]:共起頻度 • 重要な文脈:多く共起する文脈 → 単体での出現頻度が高い単語の影響が強い
• [Bhagat and Ravichandran 08]:PMI • 重要な文脈:偏って共起する文脈 → 単体での出現頻度が低い単語の影響が強い
10
実験 • Web日本語Nグラム:1,365,705件を抽出 • 名詞 + … + 名詞 + … + 動詞原形 • このうち頻出の200件について実験 • 文頭ではない名詞が換言対象の名詞
• 京都大学格フレーム:文脈の類似度計算 • 述語:34,059語 • 名詞:824,639語 • 【荷物を積む】と【経験を積む】を区別できる
11
評価
12
類似度1位の名詞が換言可能 20%
類似度2位から10位までの名詞が換言可能 21%
同じ文脈で用いられる名詞がない 28%
類似度10位までに換言可能な名詞がない 31%
200文の換言結果
換言できた例
入力文 出力文
オーナーの【承認】が必要になる オーナーの【許可】が必要になる
重要な【課題】として取り組んでいる 重要な【問題】として取り組んでいる
良心的な【料金】を提供する 良心的な【価格】を提供する
国内農業の【発展】を阻害する 国内農業の【成長】を阻害する
教育の【拡充】などがあげられる 教育の【強化】などがあげられる
13
同じ文脈の名詞がない例
14
• 「畜産加工等の【案件】がある」 • 文脈に依存する共起の種類が少ない語 • 前文脈に依存する例が多い
• 「更新日順表示に【並び】かえる」 • 複合語の一部は換言できない
適切な換言ができない例
入力文 換言候補
① 浴衣にも【洋服】にも合う ドレス、着物、ジーンズ、 水着、普段着、カジュアル
② 以上の【評価】を受けている 活動、教育、事業、 サービス、調査、管理
15 ①類義語を換言候補に集めることはできるが、 上位下位関係の中で適切な階層の語を選択できない
②句単位の換言が必要 【評価を受ける】→【認められる】
まとめ • 本研究の目的 • 文脈の多様性に基づく名詞の換言手法の提案
• 提案手法の特徴
• 入力文脈に応じた換言 • 頻度を使用しない文脈の種類数に基づく換言
• 今後の課題 • 上位下位関係の中での語の選択 • 句単位の換言
16