Download - 結合価文法による動詞と 名詞の訳語選択能力の評価
結合価文法による動詞と名詞の訳語選択能力の評価
鳥取大学大学院工学研究科 金出地真人 徳久雅人
村上仁一 池原悟
研究の背景複数の訳語を持つ語の
訳語選択の問題
例:送る I send a letter. I see her off.
I spend summer vacation.
結合価文法による翻訳方式
結合価文法による訳語選択
• N1 (人) が N2(休暇) を 送る N1 spend N2• N1 (人) が N2(生活) を 送る N1 live N2
用言と格要素(体言+助詞)の関係を記述一般名詞意味属性によって体言を制約
結合価パターン対の例見出し語:『送る』 パターン数12
…
一般名詞意味属性体系約40万語の一般名詞を最大12段の木構
造を構成する2710の意味属性に分類
人
事抽象物
抽 象
名 詞
具 体
主 体 場 所
[ ]岩波書店 1997日本語語彙体系より私、彼、彼女
…
パターンの例文への適用方法
例:彼は友人を家まで送った。1.用言『送る』のパターンを検索見出し語:送る(1) N1 (人) が N2(休暇) を 送る N1 spend N2(2) N1 (人) が N2(生活) を 送る N1 live N2(3) N1 (主体)が N2(主体) を N3(場所) に / へ / まで 送る N1 see N2 to N3
2.格要素、意味属性、助詞の適合率からパターンを決定3.パターンの意味属性による体言の訳語選択『家』の意味属性と訳語<家族>: home 、<居住施設>: house 、<家屋>: house
…
結合価文法の効果が定量的には不明
評価実験で定量的に検証
結合価文法の有効性を考察
研究の目的
評価実験実験の手順1.結合価文法を用いて例文を翻訳2.正解例と1の翻訳結果を比較、評価評価対象: IPAL 辞書 [情報処理振興事業協会技術センター
1996 ]
・重要な日本語基本動詞、名詞を収録・各単語の用法ごとに日本語例文付・例文の英訳は翻訳家により作成・例文は多くが単文・例文数:動詞 5242 文、名詞 1062 文
結合価文法の適用方法・結合価文法の人手ででの適用は困難 ↓・翻訳ソフト『 ALT-J/E 』を使用実験システム: ALT-J/E<特徴>・翻訳アルゴリズムに結合価文法を使用<問題点>・頻度情報によりパターンを決定 ↓・人手による適用より精度が高い可能性
評価基準
評価○: ALT の訳と対訳の訳語が一致した場合 例:二つの川がこの地点で合う。 対訳: The two rivers join at this point. ALT 訳: Two rivers join in this point.
・対象とする動詞、名詞部分のみ評価・評価は『○』『△』『 × 』の三段階・評価者1名で判断
評価△: ALT と対訳の訳語が異なるが、 意味的に正しい場合
例:彼は準備を急いだ。対訳: He prepared quickly.ALT 訳: He hurried preparation.
評価 × : ALT の訳が意味的にも間違っている場合 例:彼らは海底に沈んでいた船を陸に揚げた。 対訳: They salvaged the sunken vessel on the bottom of the sea. ALT 訳 :They deep-fried in land the ships that had sunk in the bottom of the sea.
比較対象
デフォルト訳語・各単語の訳語で最もよく使われる語・ PROCEED和英辞書の先頭に表記されている語 例:『送る』 ①【荷物などを】 send ← デフォルト訳語に決定 ②【人を】(見送る) see ③【時を過ごす】 spend・評価基準は ALT と同じ基準
実験結果(動詞)
評 価 ALT-J/E デフォルト○ 49% 2572 文 22% 1141 文
△ 40% 2081 文 33% 1740 文
× 11% 589 文 45% 2361 文
合 計 5242 文 5242 文正解率 89% 4653 文 55% 2881 文
評 価 ALT-J/E デフォルト
○ 62% 658 文 58% 615 文
△ 29% 312 文 27% 289 文
× 9% 92 文 15% 158 文
合 計 1062 文 1062 文
正解率 91% 970 文 85% 904 文
実験結果(名詞)
考察(動詞)
• 実験結果より結合価文法により89%の例文に対し、意味の正しい動詞の訳語を選択
• 11% の例文について訳語選択に失敗 ↓
原因を調査し結合価文法の 有効性の限界を調査
正しい動詞訳語を選択できなかった原因
翻訳失敗の原因 割 合1 パターンが登録されていない場
合21% 26 文
2 パターンの照合に失敗した場合 37% 45 文3 慣用表現が用いられている場合 11% 13 文4 形態素解析に失敗した場合 9% 11
文5 係り受け解析に失敗した場合 17% 21 文6 例文が複数の意味にとれる場合 5% 6 文
合計 122 文
・5242文中誤り589文→122文調査
例:学生が教授に教授の都合を電話で伺った。対訳: The student phoned the professor and asked him when he would be free.ALT : A student listened the professor’s circumstances with a telephone to a professor.
1.パターンが登録されていない場合(21%)
例文に対応したパターンなし↓
結合価文法を使えず訳語選択に失敗
足りないパターンの追加により解決例: N1 (人) が N2 (人) に N3 (状態) を 伺う N1 ask N2’s N3
2.パターンの照合に失敗した場合 (37%)例:彼は海外で夏休みを送った。
対訳: He spend his summer vacation abroad.ALT : He saw a summer vacation off at a foreign country .
動詞『送る』のパターン「 N1 ( 主体 ) が N2 (主体) を N3( 場所 ) で 送る N1 see N2 off at N3」「 N1 (人 ) が N2 (休暇、時間) を 送る N1 spend N2」 :
ALT がパターン照合に失敗↓
パターン照合アルゴリズムの修正により改善の余地有り
3.慣用表現が用いられている場合 (11%)
例:彼は話の腰を折った。 対訳: He interrupted a person’s speech. ALT 訳: He broke the waist of talk. 慣用表現専用のパターンの登録が必要 例: N1 (人)が話の腰を折る N1 interrupt a person’s speech
4.形態素解析に失敗した場合 (9%)5.係り受け解析に失敗した場合 (17%)
・訳語選択を行なう前処理の問題 ↓・正しく処理されることが前提条件
訳語選択の問題ではないので対象外
6.例文が複数の意味にとれる場合 (5%)
例:職場の不満から彼は家族の者に当たった。対訳: He was hard on his family because of complaints he had about his job.ALT 訳: He corresponded to the person of his family from the discontent of a place of work.
例文に対応するパターン「 N1 (人) が N2 (人) に当たる」
?
?
be hard on
correspond to
結合価文法による訳し分けの限界
パターン数別の正解率
パターン数
0個 1~5個 5~10個
11個以上
○ 50% 48% 56% 50%
△ 28% 43% 37% 37%
× 22% 9% 7% 13%
・パターン数の増加による訳語精度の向上・パターン数の増加によるパターン選択ミスの可能性 ↓パターンの数が多いとパターン選択が困難
動詞のまとめ
結合価文法の有効性・評価実験の結果、 89% の正解率・原因の解決により 9~ 10% の精度向上
結合価文法の限界・文脈上複数の意味にとれる文に対して
は一意に決定不可
考察(名詞)
• デフォルトの訳語に比べ6%の精度向上 ↓• 動詞の評価結果に比べ効果少
原因• IPAL 名詞の約5割が多義なし ↓ デフォルトの正解率の上昇・結合価文法は用言の訳語選択を目的に開発
正しい名詞訳語を選択できなかった原因
翻訳失敗の原因 割 合1 パターンが登録されていない場合 39% 36 文2 パターンの照合に失敗した場合 4% 4 文3 パターンの格要素の制約が弱い場
合17% 16 文
4 対象の名詞がパターンの要素外 8% 7 文5 形態素解析に失敗した場合 5% 5 文6 慣用表現 24% 22 文7 見出し語の名詞が辞書未登録の場
合 2% 2 文
合計 92 文
・調査文数 1062 文
3.パターンの格要素の制約が弱い場合 (17%)
例:彼は相手に 意向 を質した。対訳: He asked the other party of their intention.ALT 訳 :He asked his partner about a mind.
例文に対応するパターン「 N1(主体)が N2(主体)に N3(抽象)を質す」
意向の意味属性と英訳語<意図>: intention<思想>: mind ↓いずれの意味属性も<抽象>配下のため、一意に決定不可
名詞
具体 抽象
思想意図
解決手段の考察・意味属性の深いパターンを追加例:「 N1 (主体)が N2 (主体)に N3 (意図)を質す」 ↓ 正しいパターン選択は困難 ↓パターンですべての意味属性を一意に決定不可
原因・パターンは用言の訳し分けが目的 ↓・用言の英訳語が同じ場合、他のパターンと 区別できるだけの意味属性の定義で充分
4.対象の名詞がパターンの要素外の場合(8%)
例:逃亡した男は地方で生き延びている。対訳: The man who escaped is surviving in the countryside.ALT 訳: The man who escaped has survived in a district.
例に対応するパターン「 N1 (主体、動物)が生き延びる」 ↓『地方』を含む格要素はパターン外
解決の可能性パターンに任意格の追加例:「 N1 (主体、動物)が 【 N2(村落)で】 生き延びる」
6.慣用表現( 24% )例:彼女は亭主を尻に敷いている。対訳: She dominates her husband.ALT 訳: She is spreading her husband out on the back.
その他の原因パターンの追加などによる解決は不明(∵原因3、4より)
・動詞の場合と同様に個別のパターンを登録で解決例:「 N1 (主体)が N2 (主体)を尻に敷く N1dominate N2」
先行研究との比較先行研究(桐澤 2000 )・意味属性による IPAL の名詞の訳し分け精度を調査
分類 割合 名 詞 の 例
見出し 意味属性 英訳語
訳語多義なし 56.4%
岩 <岩石> rock
一意に絞り込み可能
24.0%
スキー
<スポーツ> skiing
<遊び道具、運動具>
ski
場合により可能 3.5% 委員 <成員><複数> committee
<成員><単数> member of committee
絞込み可能 10.5%
麻 <作物 繊維> flax 亜麻とその繊維
<作物 繊維> hemp 大麻とその繊維
<糸・布> linen 麻製品
不可能 5.7% 牙 <牙> tusk 象など
<牙> fang 犬や猫
分類(先行研究より)
各分類の訳し分け精度○ △ ×
訳語多義なし 71% 25% 4%一意に絞り込み可
能56% 32% 12%
場合により可能 49% 42% 9%
絞り込み可能 44% 40% 15%
不可能 52% 32% 16%
本研究の結果との対比
意味属性によって訳し分け精度が若干向上
分類 名 詞 の 例
見出し 意味属性 英訳語
訳語多義なし 岩 <岩石> rock
一意に絞り込み可能 スキー <スポーツ> skiing
<遊び道具、運動具>
ski
場合により可能 委員 <成員><複数> committee
<成員><単数> member of committee
絞込み可能 麻 <作物 繊維> flax 亜麻とその繊維
<作物 繊維> hemp 大麻とその繊維
<糸・布> linen 麻製品
不可能 牙 <牙> tusk 象など
<牙> fang 犬や猫
本研究における誤り率
4%
12%
9%
15%
16%
本研究の結果との対比
・意味属性決定による訳し分け精度の効果を確認
結合価文法の有効性・評価の結果、正解率がデフォルトより6%向上・慣用表現のパターン追加により3 % の精度向上
名詞のまとめ
結合価文法の限界・パターンの定義外の名詞は訳し分け不可・すべての名詞についてパターンの登録は不可
まとめ
・ IPAL 辞書の基本動詞、名詞の訳し分け精度を調査
限界動詞 98~ 99% 、名詞 94%
正解率
動詞 89%(デフォルト 55%) 、名詞 91%(85%)
今後の課題・ IPAL 辞書以外の動詞、名詞への効果調査