第4回日英機械翻訳のための日本語長文自動短文分割と主語の補完

ー文献紹介ー

日英機械翻訳のための日本語長文自動短文分割と主語の補完

金淵培、江原暉将（日本放送協会放送技術研究所先端制作技術研究部）　情報処理学会論文誌、Vol.35, No. 6, pp.1018-1028、1994

長岡技術科学大学　自然言語処理研究室　高橋寛治

日英機械翻訳のための日本語長文自動短文分割と主語の補完 2/30

概要●機械翻訳精度の低下の要因

●文が長すぎて、構文解析ができない。●提案

●日本語の長文を複数の短文に自動的に分割●主語がなくなった文に対して自動的に主語を補完

●結果（約400文のニュース文に対して）●約88％の分割点認定率、76％の主語の補完率を得た


はじめに●長文は機械翻訳の精度を低下させる要因の1つ

●文が長いと係り受け構造が複雑となり、構文解析に失敗することが多い

●トランスファー方式では●解析・変換・生成の解析で失敗となる


短文分割


短文分割の有効性50文字以上の文の解析は非常に困難

●80文字以上はほとんど構文解析失敗●約500のニュース文に対して人手で分割実験

●原文と分割後の分割文を機械翻訳


短文分割の有効性●30単語未満の文

●分割前22.5％●分割後78.5%

●分割後70単語以上の文が、ほぼなくなった


機械翻訳での結果●分割文の翻訳の評価について

●1つの文の分割文すべてが翻訳に成功したとき●文意が誤りなく伝わるかどうか

構文解析に成功

機械翻訳に成功

総文数

原文 228 96 378

分割文 295 118 378


分割処理の概略フロー(ア)　形態素解析(イ)　情報素列の抽出(ウ)　分割点の認定(エ)　主語のない文の主語認定(オ)　形態素列の出力


短文への分割●長いニュース文は右表のような接続法を用いて作られている

●どう分割点を認定するか？


連用中止の分割●連用中止を「連用中止」、「連用形＋て」とする●例

●海部総理大臣はきょうの閣議のあと、吹田自治大臣と会談し、今後の政治改革への取り組みについて競技しました。●海部総理大臣はきょうの閣議の後、吹田自治大臣と会談しました。海部総理大臣は今後の政治改革への取り組みについて協議しました。


連用中止の例外●文脈により副詞的性質を表す連用形

●「をはじめ、に関し、に引き続き・・」など40個●連用形に接尾辞や接尾的な述語成分が持続

●「起きて以来、降りしだい・・」など●連用形にすぐ連体形が接続する場合

●「利用して出かけた人」（連体節の一部の可能性大）●主語のない連用節で始まる場合

●「カムチャッカで大やけどをして札幌医大で治療を受けている・・・」


●分割対象文を形態素解析●分割点のパターン・マッチングを効率よくかつ、効果的にするため形態素情報を工夫

分割点の認定手順


情報素列の抽出「記号素列」は「品詞」に相当


パターンマッチング●パターンの仕組み

●ポインタと組み合わせ検索●I ：表面素列●％：標準素列●Null：記号素列●＆：短文素列


パターンマッチング●Nパターン(分割不可)

●「合わせて＋凡そ＋数詞」●「連用形＋以来」●「連用形＋副詞」●「連用形＋接尾辞」

●Yパターン(分割可)●「連体形＋際＋に」●「終止形＋と＋共＋に＋“，”」●「連用形＋”，”」●「連用形」

パターンの長さ優先でマッチング

2重判断「Nパターンにマッチしない」かつ「Yパターンにマッチ」


主語補完


主語の補完●必要性

●主語がない場合、受動形化して機械翻訳を行う→英語は受動形より能動形が選好される傾向がある

●分割文の構文分析の失敗の大きな原因は主語省略→分割文の翻訳に、主語補完は必要


主語補完の前提●主語は補完対象述語の左側にある●主語は分割対象文内にある●主語は「は、では、が、には、を、の、も、に、で」のいずれかを持つ名詞である


主語補完手法（統計的）●「主語・述語」と「非主語・述語」のベクトル化

●主語になれる名詞、なれない名詞の特徴ベクトルの分布を推定●特徴ベクトルの確率分布が多次元正規分布と仮定

●各主語候補が主語になれる確率値を主語になれない確率値で割った値を判断基準とする


主語・述語間の特徴と数量化●７つの特徴に分けて捉える１．主語候補に付属する格助詞の種別２．連体節との関係３．主語候補と補完対象述語の意味的整合度　・主語候補と補完対象述語間の距離４．主語候補と述語との間にある「は」格要素の数５．主語候補と述語との間にある「が」格の要素の数６．主語候補と述語との間にある「は」と「が」以外の格要素の数７．主語候補と述語との間にある動詞の数


統計処理による主語の認定手法●学習データ

●処理対象から標本文を抽出し、各標本内のすべての述語に対する主語候補から主語と非主語を人手で分離

●主語になる名詞の特徴ベクトルの確率分布を求める●平均値ベクトルと分散共分散行列を学習データを用いて推定


統計処理による主語の認定手法●これらを用いて、ある特定の候補が主語になれる確率密度 P を算出

●主語になれない確率密度 Q も算出●P / Q を評価関数として利用

●その値が最大となる候補を主語として補完


評価


短文分割実験●テスト文

●テレビニュース文381文をランダムに選択●23文は短文で分割点がないため、実験の対象外

●実験●人手と機械による分割の比較

●両者のすべての分割点が完全一致する文を成功とする


短文分割実験●結果

●358文中、315文が成功（87.9%）●失敗例

●「連用形＋て」が副詞的に使用●「2年連続して全国で最も高い・・・」●パターン追加で解決


短文分割実験●連用節が連体節の一部分になる場合

●到着ロビーは、スキーや海水浴などで日焼けし、おみやげをいっぱい抱えた家族連れなどで、ごったがえし、宅急便の窓口や都心に向かうバス乗り場に一日中、長い列ができてしまいました。

●これは今後の課題


主語補完の実験分割によって主語のなくなった108個の分割文に対

して実験し、主語補完法の精度を評価●補完対象文の数が少ないため、75％を学習データとして利用

●残り25％を試験データとして利用●これを4回繰り返し、結果の平均値を精度評価の対象に


主語補完の実験


おわりに●日英機械翻訳のための分割法を提案

●長いニュース文の分割点の認定手法●主語のない分割文の主語補完手法

●まだ長い分割文が頻繁に生成●長い連体節の分割が難しい


おわりに●Nパターンの数が多くなる可能性あり

●どう効率的にパターンを記述するか●主語補完は統計的アプローチで良い結果を得た

●より的確な主語認定結果を得るために検討すべきこと●提案した主語・述語の特徴で充分か？●提案した数量化方式より効果的な方式は？●提案した学習モデルより優れたモデルは？

第4回 日英機械翻訳のための日本語長文自動短文分割と主語の補完

Education

第4回日英機械翻訳のための日本語長文自動短文分割と主語の補完