sdmt:用例翻訳への新しいアプローチ

17
ー文献紹介ー SDMT:用例翻訳への新しい アプローチ 長岡技術科学大学 自然言語処理研究室 高橋寛治

Upload: takahashi-kanji

Post on 05-Dec-2014

238 views

Category:

Engineering


3 download

DESCRIPTION

Similarity-Driven Machine Translation

TRANSCRIPT

Page 1: SDMT:用例翻訳への新しいアプローチ

ー文献紹介ー

SDMT:用例翻訳への新しいアプローチ

長岡技術科学大学 自然言語処理研究室 高橋寛治

Page 2: SDMT:用例翻訳への新しいアプローチ

文献について●SDMT:用例翻訳への新しいアプローチ

●加藤直人(ATR音声言語コミュニケーション研究所)●情報処理学会研究報告 自然言語処理研究会報告、151-156、2005-12

Page 3: SDMT:用例翻訳への新しいアプローチ

はじめに用例翻訳への新しいアプローチ

●SDMT(Similarity-Driven Machine Translation)

●単言語内類似度と二言語間類似度に基づき、断片的に類似した複数用例を利用して翻訳を行う。●統計的手法を取り入れた用例翻訳

Page 4: SDMT:用例翻訳への新しいアプローチ

単言語内類似度と二言語間類似度●単言語内類似度

●一つの言語内における類似度●二言語間類似度

●原言語と目的言語の単言語内類似度の差

Page 5: SDMT:用例翻訳への新しいアプローチ

単言語内類似度●2つの文S1,S2間の共通する単語数の割合で定義●単言語内類似度は0から1.0まで

sim (S1, S2)=2⋅|S1∩S2|/(|S1|+|S2|)

Page 6: SDMT:用例翻訳への新しいアプローチ

具体例●J0:グラスゴーまで寝台の切符をお願いします

●J1:サンフランシスコまでの片道切符をお願いします

● sim(J0,J1) = 2・7 / (9 + 9) = 0.78

●J2:グラスゴーまで特急をお願いします● sim(J0,J2) = 0.75

●J3:ロンドンまでの指定券をお願いします● sim(J0,J3) = 0.71

●J4:シカゴ行き寝台の切符を二枚ください● sim(J0,J4) = 0.44

● E0:I'd like a sleeping car ticket to Glasgow, please.

● E1:I'd like a one-way tickect to San Francisco, please.

● sim(E0,E1) = 2・9 / (12 + 11) = 0.78

● E2:I would like a ticket on the limited express to Glasgow, please.

● sim(E0,E2) = 0.72

● E3:I'd like to reserve a seat to Lodon.● sim(E0,E3) = 0.55

● E4:Can I have sleeping car tickets to Chicago, please?

● sim(E0,E4) = 0.52

Page 7: SDMT:用例翻訳への新しいアプローチ

具体例●J0:グラスゴーまで寝台の切符をお願いします

J1:サンフランシスコまでの片道切符をお願いします● sim(J0,J1) = 2・7 / (9 + 9) = 0.78

●J2:グラスゴーまで特急をお願いします● sim(J0,J2) = 0.75

●J3:ロンドンまでの指定券をお願いします● sim(J0,J3) = 0.71

●J4:シカゴ行き寝台の切符を二枚ください● sim(J0,J4) = 0.44

● E0:I'd like a sleeping car ticket to Glasgow, please.

● E1:I'd like a one-way tickect to San Francisco, please.

● sim(E0,E1) = 2・9 / (12 + 11) = 0.78

● E2:I would like a ticket on the limited express to Glasgow, please.

● sim(E0,E2) = 0.72

● E3:I'd like to reserve a seat to Lodon.● sim(E0,E3) = 0.55

● E4:Can I have sleeping car tickets to Chicago, please?

● sim(E0,E4) = 0.52

J0

グラスゴー まで 寝台 の 切符

を お願い し ます

J1

サンフランシスコ まで の 片道 切符

を お願い し ます

sim(S1, S2)=2⋅∣S1∩S2∣/(∣S1∣+∣S2∣)

Page 8: SDMT:用例翻訳への新しいアプローチ

二言語間類似度原言語と目的言語の単言語内類似度の差を             と定義する

δが非常に小さい●原言語と目的言語での単言語内類似度がほぼ等しい

δ=|sim(J0 , J1)−sim(E0 ,E1)|

Page 9: SDMT:用例翻訳への新しいアプローチ

仮定

原言語と目的言語の単言語内類似度はそれぞれほぼ同じとなる

Page 10: SDMT:用例翻訳への新しいアプローチ

提案手法●STEP1 単言語内類似度による用例の収集●STEP2 マルチプルアライメント●STEP3 ワードグラフによる解候補の構成●STEP4 言語モデルと二言語間類似度による最適解の探索

Page 11: SDMT:用例翻訳への新しいアプローチ

1.単言語内類似度による用例の収集●基本用例

●単語内類似度が高い用例から上位Sbase個収集する●単語用例

●入力文の単語の中で、基本用例で被覆されなかった単語を含み、かつ、単言語内類似度が高い上位Swords個収集する

Page 12: SDMT:用例翻訳への新しいアプローチ

2.マルチプルアライメント最適解を生成する組み合わせ方

Page 13: SDMT:用例翻訳への新しいアプローチ

3.ワードグラフによる解候補の構成

Page 14: SDMT:用例翻訳への新しいアプローチ

4.言語モデルと二言語間類似度による最適解の探索

●最適パスは言語モデルと二言語間類似度の制約を用いて求める●言語モデルの制約

●目的言語でのn-gramを用いて、パスのNベスト集合を求める●二言語間類似度の制約

●Nベスト集合を再ランク付け●最適解はニ言語間類似度の総和が最大となるものがよいと考えられる

Page 15: SDMT:用例翻訳への新しいアプローチ

評価●IWSLT2004のデータを用いた

●(機械翻訳を対象とした評価型ワークショップ)●Small Data Trackの日英翻訳を利用

●用例2万文、テストセット500文の日本語文●翻訳評価は自動評価

Page 16: SDMT:用例翻訳への新しいアプローチ

自動評価結果●全体としてどの値が最適なのか不明●人手による評価も必要ではないか?

Page 17: SDMT:用例翻訳への新しいアプローチ

おわりに●SDMTという用例翻訳への新しいアプローチ●SDMTは変換処理がない

●単言語内類似度と二言語間類似度により翻訳