graph propagation for paraphrasing out-of-vocabulary words in statistical machine translation
TRANSCRIPT
Graph Propagation for Paraphrasing Out-of-Vocabulary Words in
Statistical Machine Translation
Majid Razmara, Maryam Siahbani, Gholamreza Haffari, Anoop Sarker
文献
• タイトル: Graph Propagation for Paraphrasing Out-of-Vocabulary Words in
Statistical Machine Translation
• 著者: Majid Razmara, Maryam Siahbani, Gholamreza Haffari, Anoop Sparkar
• 会議: ACL 2013
概要
• 統計的機械翻訳で表れる未定義語(OOV)
• OOVの意味推定
• グラフを利用して推定
今までの未定義語推定
• ピボット法
– OOVを中間言語を利用して推定する手法
• スペリング・形態素変化
–綴りや語幹からの拡張
提案手法
Graph-based Lexicon Induction
• ノード構築– コーパスに存在する単語(フレーズ)よりノードを構築
• パラレルコーパス
• 原言語の大規模コーパス
• ノード結合– 意味的に類似するノード同士を結合
– 接続には分布プロファイル(DP)の構築が必要
– 各フレーズがグラフのノードで、他のノードとはDP類似尺度の重みで接続
Distribution Profile
• Rapp (1995)– フレーズの共起ベクトルを全て組み合わせた共起ベクトル
– 語彙空間Vにおいての点で表現できる– この語彙空間ないで近い点は意味的に類似
• Marton (2009)– 共起ベクトルを関連尺度を用いて関連度合いを示す– 関連尺度:
• 条件付き確率• PMI• 尤度• カイ二乗検定
ノード
• 3種類のノードが存在:
i. ラベル付きノード
• パラレル・コーパスに出現し対訳を持つ
ii. OOVノード
• dev/testセットから生成されたノードで、ラベル検索対象となるもの
iii. ラベルなし・ノード
• 単言語コーパスから生成されたノードで(i), (ii)のノードの間に存在する
エッジ
• 類似尺度
– コサイン類似度
– L1-ノルム
–ジェンセン・シャノン・ダイバージェンス
• 類似尺度と関連尺度との組み合わせで最適なものを使う
グラフ伝播
• グラフ構築後、グラフ伝播を使ってラベルなしノードやOOVノードへラベル伝播される
• ラベル伝播はsmoothness assumption (Chapelle et al., 2006)
– “2つのノードがグラフ上で類似しているといえるなら、それらが出力するラベルも類似している”
ラベル伝播
ベースライン
• ベースライン・アプローチ(Marton 2009)では2部グラフを2種類のノード・タイプで構築– ラベル付きノード(L)
– OOVノード(O)
– OOVノードはラベル付ノードと結合
– ラベル付きはOOVと結合
• ノードの類似度合いは先の類似尺度を利用
• ラベルはフレーズテーブルよりの訳と確率値
• その訳がOOVにラベル伝播テクニックより伝搬
提案手法
• グラフ G = ( V, E, W )のとき
– V:頂点集合
– E: エッジ集合
– W:重み行列
– Vはラベル付きV_LとラベルなしV_Uノードが存在
• 目的はラベリング伝播による
modified Adsorption (MAD) algorithm
• ソフト・ラベル・ベクトルYを以下より求める
• シード・ラベルYvと他のラベル・ノードを一致させる
• グラフ構造とエッジの重みに基づいたラベル平滑化
• 頂点vと事前ラベルRvと一致するためにソフト・ラベリングの正規化
EXPERIMENT
データ
OOV種類数&数
機械翻訳機
• Moses
– Word Alignment: GIZA++
– Distortion limit of 6
– Max-phrase-length of 10
Integration
• プロセス
1. パラレルコーパスよりフレーズテーブルの構築
2. dev/testセットのOOVsを抽出
3. グラフ伝播よりOOVsの翻訳
4. OOVsとそれらの訳をフレーズテーブルに追加
EVALUATION
MRR
• ランク付リストを出力する処理を評価するための情報検索尺度
Best Association Measure & Similarity Measure
Unigram Nodes Result
Bigram Comparison
具体例