Download - Phrase linguistic classification and generalization for improving statistical machine translation
![Page 1: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/1.jpg)
Phrase linguistic classification and generalization for improving statistical
machine translation
Hiroshi Matsumoto
![Page 2: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/2.jpg)
紹介文献
• De Gispert, Adrià.
• "Phrase linguistic classification and generalization for improving statistical machine translation."
• Proceedings of the ACL Student Research Workshop. Association for Computational Linguistics, 2005.
![Page 3: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/3.jpg)
概要
• 動詞(複合動詞)の形態素解析の情報をSMTに利用
• 活用された動詞/複合形態の動詞は同じ確率分布
• インスタンス・モデルでソースの動詞形態からターゲットの動詞形態を選択する
• 未定義動詞形態の汎化手法の提案
• 英ス翻訳(より複雑な活用)
![Page 4: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/4.jpg)
一般式
T = (Ei, Fj) : 汎化クラスのペア
![Page 5: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/5.jpg)
式の意味
• フレーズ翻訳・モデル
–分類データに基づく
• インスタンス・モデル
–各ターゲット・インスタンスに確率付与
![Page 6: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/6.jpg)
インスタンス・モデル
• インスタンスとそれがもつソース・フレーズを共通にもつ全てのタプルとの相対頻度
![Page 7: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/7.jpg)
未定義語の汎化
• 未定義語:
–テスト・セットの多くの動詞形態は学習データに出現しない
• 動詞の主辞の見出し語で分類
–見出し語が学習済み(インスタンスの存在):
• ターゲット・フレーズに翻訳
– インスタンス・モデル・確率存在しない
• 汎化手法に従う
![Page 8: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/8.jpg)
例
• 以下の文をスペイン語翻訳
“we would have payed it”
• 既知情報:– T1 ( V[pay], pagar)
• I would have payed | habria pagado
– T2 ( V[pay], hacer )• * would have payed | ------
– T3 ( V[pay] it, lo pagar)• I would have payed it | lo habria pagado
![Page 9: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/9.jpg)
• 既知の例文の人称をソース側の人称に揃えて様々なインスンタンスの生成
• 出現回数が新規翻訳候補に重み付けに対応
• 新しい形態に対してのインスタンス・確率になる
![Page 10: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/10.jpg)
インスタンス・確率
![Page 11: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/11.jpg)
Extended Generalization
• 先の汎化手法では1度でも出現する事例にも結びつく
• 他の翻訳確率の高いものを無視してしまう
• そこで、汎化事例を全探索させる
![Page 12: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/12.jpg)
実験&結果
![Page 13: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/13.jpg)
コーパス
• the parallel corpus developed in the framework of the LC-STAR project
–旅行案内用の発話システムのためのスクリプト
–予約スケジュール
–旅行プラン
![Page 14: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/14.jpg)
コーパス統計情報
![Page 15: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/15.jpg)
汎化情報
![Page 16: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/16.jpg)
アライメント結果
![Page 17: Phrase linguistic classification and generalization for improving statistical machine translation](https://reader033.vdocuments.pub/reader033/viewer/2022051016/55a5b9451a28ab5a0e8b45de/html5/thumbnails/17.jpg)
翻訳結果