sdmt:用例翻訳への新しいアプローチ

Post on 05-Dec-2014

238 Views

Category:

Engineering

3 Downloads

Preview:

Click to see full reader

DESCRIPTION

Similarity-Driven Machine Translation

TRANSCRIPT

ー文献紹介ー

SDMT:用例翻訳への新しいアプローチ

長岡技術科学大学 自然言語処理研究室 高橋寛治

文献について●SDMT:用例翻訳への新しいアプローチ

●加藤直人(ATR音声言語コミュニケーション研究所)●情報処理学会研究報告 自然言語処理研究会報告、151-156、2005-12

はじめに用例翻訳への新しいアプローチ

●SDMT(Similarity-Driven Machine Translation)

●単言語内類似度と二言語間類似度に基づき、断片的に類似した複数用例を利用して翻訳を行う。●統計的手法を取り入れた用例翻訳

単言語内類似度と二言語間類似度●単言語内類似度

●一つの言語内における類似度●二言語間類似度

●原言語と目的言語の単言語内類似度の差

単言語内類似度●2つの文S1,S2間の共通する単語数の割合で定義●単言語内類似度は0から1.0まで

sim (S1, S2)=2⋅|S1∩S2|/(|S1|+|S2|)

具体例●J0:グラスゴーまで寝台の切符をお願いします

●J1:サンフランシスコまでの片道切符をお願いします

● sim(J0,J1) = 2・7 / (9 + 9) = 0.78

●J2:グラスゴーまで特急をお願いします● sim(J0,J2) = 0.75

●J3:ロンドンまでの指定券をお願いします● sim(J0,J3) = 0.71

●J4:シカゴ行き寝台の切符を二枚ください● sim(J0,J4) = 0.44

● E0:I'd like a sleeping car ticket to Glasgow, please.

● E1:I'd like a one-way tickect to San Francisco, please.

● sim(E0,E1) = 2・9 / (12 + 11) = 0.78

● E2:I would like a ticket on the limited express to Glasgow, please.

● sim(E0,E2) = 0.72

● E3:I'd like to reserve a seat to Lodon.● sim(E0,E3) = 0.55

● E4:Can I have sleeping car tickets to Chicago, please?

● sim(E0,E4) = 0.52

具体例●J0:グラスゴーまで寝台の切符をお願いします

J1:サンフランシスコまでの片道切符をお願いします● sim(J0,J1) = 2・7 / (9 + 9) = 0.78

●J2:グラスゴーまで特急をお願いします● sim(J0,J2) = 0.75

●J3:ロンドンまでの指定券をお願いします● sim(J0,J3) = 0.71

●J4:シカゴ行き寝台の切符を二枚ください● sim(J0,J4) = 0.44

● E0:I'd like a sleeping car ticket to Glasgow, please.

● E1:I'd like a one-way tickect to San Francisco, please.

● sim(E0,E1) = 2・9 / (12 + 11) = 0.78

● E2:I would like a ticket on the limited express to Glasgow, please.

● sim(E0,E2) = 0.72

● E3:I'd like to reserve a seat to Lodon.● sim(E0,E3) = 0.55

● E4:Can I have sleeping car tickets to Chicago, please?

● sim(E0,E4) = 0.52

J0

グラスゴー まで 寝台 の 切符

を お願い し ます

J1

サンフランシスコ まで の 片道 切符

を お願い し ます

sim(S1, S2)=2⋅∣S1∩S2∣/(∣S1∣+∣S2∣)

二言語間類似度原言語と目的言語の単言語内類似度の差を             と定義する

δが非常に小さい●原言語と目的言語での単言語内類似度がほぼ等しい

δ=|sim(J0 , J1)−sim(E0 ,E1)|

仮定

原言語と目的言語の単言語内類似度はそれぞれほぼ同じとなる

提案手法●STEP1 単言語内類似度による用例の収集●STEP2 マルチプルアライメント●STEP3 ワードグラフによる解候補の構成●STEP4 言語モデルと二言語間類似度による最適解の探索

1.単言語内類似度による用例の収集●基本用例

●単語内類似度が高い用例から上位Sbase個収集する●単語用例

●入力文の単語の中で、基本用例で被覆されなかった単語を含み、かつ、単言語内類似度が高い上位Swords個収集する

2.マルチプルアライメント最適解を生成する組み合わせ方

3.ワードグラフによる解候補の構成

4.言語モデルと二言語間類似度による最適解の探索

●最適パスは言語モデルと二言語間類似度の制約を用いて求める●言語モデルの制約

●目的言語でのn-gramを用いて、パスのNベスト集合を求める●二言語間類似度の制約

●Nベスト集合を再ランク付け●最適解はニ言語間類似度の総和が最大となるものがよいと考えられる

評価●IWSLT2004のデータを用いた

●(機械翻訳を対象とした評価型ワークショップ)●Small Data Trackの日英翻訳を利用

●用例2万文、テストセット500文の日本語文●翻訳評価は自動評価

自動評価結果●全体としてどの値が最適なのか不明●人手による評価も必要ではないか?

おわりに●SDMTという用例翻訳への新しいアプローチ●SDMTは変換処理がない

●単言語内類似度と二言語間類似度により翻訳

top related