結合価文法による動詞と 名詞の訳語選択能力の評価

33
結結結結結結結結結結結 結結結結結結結結結結結結 結結結結結結結結結結結結 結結結結結 結結結結 結結結 結結結

Upload: haines

Post on 20-Jan-2016

72 views

Category:

Documents


0 download

DESCRIPTION

結合価文法による動詞と 名詞の訳語選択能力の評価. 鳥取大学大学院工学研究科 金出地真人  徳久雅人       村上仁一   池原悟. 研究の背景. 複数の訳語を持つ語の 訳語選択の問題. 例:送る     I send a letter. I see her off . I spend summer vacation. 結合価文法による翻訳方式. 結合価文法による訳語選択. 結合価パターン対の例 - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 結合価文法による動詞と 名詞の訳語選択能力の評価

結合価文法による動詞と名詞の訳語選択能力の評価

鳥取大学大学院工学研究科 金出地真人  徳久雅人  

    村上仁一   池原悟

Page 2: 結合価文法による動詞と 名詞の訳語選択能力の評価

研究の背景複数の訳語を持つ語の

訳語選択の問題

例:送る     I send a letter. I see her off.

I spend summer vacation.

結合価文法による翻訳方式

Page 3: 結合価文法による動詞と 名詞の訳語選択能力の評価

結合価文法による訳語選択

• N1 (人) が N2(休暇) を 送る  N1 spend N2• N1 (人) が N2(生活) を 送る  N1 live N2  

用言と格要素(体言+助詞)の関係を記述一般名詞意味属性によって体言を制約

結合価パターン対の例見出し語:『送る』  パターン数12

Page 4: 結合価文法による動詞と 名詞の訳語選択能力の評価

一般名詞意味属性体系約40万語の一般名詞を最大12段の木構

造を構成する2710の意味属性に分類

事抽象物

抽  象

名  詞

具  体

主  体 場  所

[   ]岩波書店 1997日本語語彙体系より私、彼、彼女

Page 5: 結合価文法による動詞と 名詞の訳語選択能力の評価

パターンの例文への適用方法

例:彼は友人を家まで送った。1.用言『送る』のパターンを検索見出し語:送る(1) N1 (人) が N2(休暇) を 送る   N1 spend N2(2) N1 (人) が N2(生活) を 送る   N1 live N2(3) N1 (主体)が N2(主体) を N3(場所) に / へ / まで 送る N1 see N2 to N3              

2.格要素、意味属性、助詞の適合率からパターンを決定3.パターンの意味属性による体言の訳語選択『家』の意味属性と訳語<家族>: home 、<居住施設>: house 、<家屋>: house

Page 6: 結合価文法による動詞と 名詞の訳語選択能力の評価

結合価文法の効果が定量的には不明

評価実験で定量的に検証

結合価文法の有効性を考察

研究の目的

Page 7: 結合価文法による動詞と 名詞の訳語選択能力の評価

評価実験実験の手順1.結合価文法を用いて例文を翻訳2.正解例と1の翻訳結果を比較、評価評価対象: IPAL 辞書 [情報処理振興事業協会技術センター

1996 ]

・重要な日本語基本動詞、名詞を収録・各単語の用法ごとに日本語例文付・例文の英訳は翻訳家により作成・例文は多くが単文・例文数:動詞 5242 文、名詞 1062 文

Page 8: 結合価文法による動詞と 名詞の訳語選択能力の評価

結合価文法の適用方法・結合価文法の人手ででの適用は困難            ↓・翻訳ソフト『 ALT-J/E 』を使用実験システム: ALT-J/E<特徴>・翻訳アルゴリズムに結合価文法を使用<問題点>・頻度情報によりパターンを決定          ↓・人手による適用より精度が高い可能性

Page 9: 結合価文法による動詞と 名詞の訳語選択能力の評価

評価基準

評価○: ALT の訳と対訳の訳語が一致した場合 例:二つの川がこの地点で合う。 対訳: The two rivers join at this point. ALT 訳: Two rivers join in this point.

・対象とする動詞、名詞部分のみ評価・評価は『○』『△』『 × 』の三段階・評価者1名で判断

Page 10: 結合価文法による動詞と 名詞の訳語選択能力の評価

評価△: ALT と対訳の訳語が異なるが、     意味的に正しい場合

例:彼は準備を急いだ。対訳: He prepared quickly.ALT 訳: He hurried preparation.

評価 × : ALT の訳が意味的にも間違っている場合  例:彼らは海底に沈んでいた船を陸に揚げた。  対訳: They salvaged the sunken vessel on the bottom of the sea. ALT 訳 :They deep-fried in land the ships that had sunk in the bottom of the sea.

Page 11: 結合価文法による動詞と 名詞の訳語選択能力の評価

比較対象

デフォルト訳語・各単語の訳語で最もよく使われる語・ PROCEED和英辞書の先頭に表記されている語  例:『送る』 ①【荷物などを】 send ← デフォルト訳語に決定 ②【人を】(見送る) see ③【時を過ごす】 spend・評価基準は ALT と同じ基準

Page 12: 結合価文法による動詞と 名詞の訳語選択能力の評価

実験結果(動詞)

評 価 ALT-J/E デフォルト○ 49% 2572 文 22% 1141 文

△ 40% 2081 文 33% 1740 文

× 11% 589 文 45% 2361 文

合 計 5242 文 5242 文正解率 89% 4653 文 55% 2881 文

Page 13: 結合価文法による動詞と 名詞の訳語選択能力の評価

評 価 ALT-J/E デフォルト

○ 62% 658 文 58% 615 文

△ 29% 312 文 27% 289 文

× 9% 92 文 15% 158 文

合 計 1062 文 1062 文

正解率 91% 970 文 85% 904 文

実験結果(名詞)

Page 14: 結合価文法による動詞と 名詞の訳語選択能力の評価

考察(動詞)

• 実験結果より結合価文法により89%の例文に対し、意味の正しい動詞の訳語を選択

• 11% の例文について訳語選択に失敗              ↓

    原因を調査し結合価文法の           有効性の限界を調査

Page 15: 結合価文法による動詞と 名詞の訳語選択能力の評価

正しい動詞訳語を選択できなかった原因

翻訳失敗の原因 割  合1 パターンが登録されていない場

合21% 26 文

2 パターンの照合に失敗した場合 37% 45 文3 慣用表現が用いられている場合 11% 13 文4 形態素解析に失敗した場合   9% 11

文5 係り受け解析に失敗した場合 17% 21 文6 例文が複数の意味にとれる場合   5% 6 文

合計   122 文

・5242文中誤り589文→122文調査

Page 16: 結合価文法による動詞と 名詞の訳語選択能力の評価

例:学生が教授に教授の都合を電話で伺った。対訳: The student phoned the professor and asked him when he would be free.ALT : A student listened the professor’s circumstances   with a telephone to a professor.

1.パターンが登録されていない場合(21%)

例文に対応したパターンなし↓

結合価文法を使えず訳語選択に失敗

足りないパターンの追加により解決例: N1 (人) が N2 (人) に N3 (状態) を 伺う  N1 ask N2’s N3

Page 17: 結合価文法による動詞と 名詞の訳語選択能力の評価

2.パターンの照合に失敗した場合 (37%)例:彼は海外で夏休みを送った。

対訳: He spend his summer vacation abroad.ALT : He saw a summer vacation off at a foreign country .

動詞『送る』のパターン「 N1 ( 主体 ) が N2 (主体) を N3( 場所 ) で 送る  N1 see N2 off at N3」「 N1 (人 )  が  N2 (休暇、時間) を 送る  N1 spend N2」                   :

ALT がパターン照合に失敗↓

パターン照合アルゴリズムの修正により改善の余地有り

Page 18: 結合価文法による動詞と 名詞の訳語選択能力の評価

3.慣用表現が用いられている場合 (11%)

例:彼は話の腰を折った。 対訳: He interrupted a person’s speech. ALT 訳: He broke the waist of talk.    慣用表現専用のパターンの登録が必要  例: N1 (人)が話の腰を折る N1 interrupt a person’s speech

Page 19: 結合価文法による動詞と 名詞の訳語選択能力の評価

4.形態素解析に失敗した場合 (9%)5.係り受け解析に失敗した場合 (17%)

・訳語選択を行なう前処理の問題         ↓・正しく処理されることが前提条件

訳語選択の問題ではないので対象外

Page 20: 結合価文法による動詞と 名詞の訳語選択能力の評価

6.例文が複数の意味にとれる場合 (5%)

例:職場の不満から彼は家族の者に当たった。対訳: He was hard on his family because of complaints he had about his job.ALT 訳: He corresponded to the person of his family from the discontent of a place of work.

例文に対応するパターン「 N1 (人) が N2 (人) に当たる」

?

?

be hard on

correspond to

結合価文法による訳し分けの限界

Page 21: 結合価文法による動詞と 名詞の訳語選択能力の評価

パターン数別の正解率

パターン数

0個 1~5個 5~10個

11個以上

○ 50% 48% 56% 50%

△ 28% 43% 37% 37%

× 22% 9% 7% 13%

・パターン数の増加による訳語精度の向上・パターン数の増加によるパターン選択ミスの可能性 ↓パターンの数が多いとパターン選択が困難

Page 22: 結合価文法による動詞と 名詞の訳語選択能力の評価

動詞のまとめ

結合価文法の有効性・評価実験の結果、 89% の正解率・原因の解決により 9~ 10% の精度向上

結合価文法の限界・文脈上複数の意味にとれる文に対して

は一意に決定不可

Page 23: 結合価文法による動詞と 名詞の訳語選択能力の評価

考察(名詞)

• デフォルトの訳語に比べ6%の精度向上            ↓• 動詞の評価結果に比べ効果少

原因• IPAL 名詞の約5割が多義なし         ↓ デフォルトの正解率の上昇・結合価文法は用言の訳語選択を目的に開発

Page 24: 結合価文法による動詞と 名詞の訳語選択能力の評価

正しい名詞訳語を選択できなかった原因

翻訳失敗の原因 割  合1 パターンが登録されていない場合 39% 36 文2 パターンの照合に失敗した場合 4% 4 文3 パターンの格要素の制約が弱い場

合17% 16 文

4 対象の名詞がパターンの要素外 8% 7 文5 形態素解析に失敗した場合 5% 5 文6 慣用表現 24% 22 文7 見出し語の名詞が辞書未登録の場

合 2% 2 文

合計 92 文

・調査文数 1062 文

Page 25: 結合価文法による動詞と 名詞の訳語選択能力の評価

3.パターンの格要素の制約が弱い場合 (17%)

例:彼は相手に 意向 を質した。対訳: He asked the other party of their intention.ALT 訳 :He asked his partner about a mind.

例文に対応するパターン「 N1(主体)が N2(主体)に N3(抽象)を質す」

意向の意味属性と英訳語<意図>: intention<思想>: mind     ↓いずれの意味属性も<抽象>配下のため、一意に決定不可

名詞

具体 抽象

思想意図

Page 26: 結合価文法による動詞と 名詞の訳語選択能力の評価

解決手段の考察・意味属性の深いパターンを追加例:「 N1 (主体)が N2 (主体)に N3 (意図)を質す」             ↓     正しいパターン選択は困難             ↓パターンですべての意味属性を一意に決定不可

原因・パターンは用言の訳し分けが目的          ↓・用言の英訳語が同じ場合、他のパターンと 区別できるだけの意味属性の定義で充分

Page 27: 結合価文法による動詞と 名詞の訳語選択能力の評価

4.対象の名詞がパターンの要素外の場合(8%)

例:逃亡した男は地方で生き延びている。対訳: The man who escaped is surviving in the countryside.ALT 訳: The man who escaped has survived in a district.

例に対応するパターン「 N1 (主体、動物)が生き延びる」         ↓『地方』を含む格要素はパターン外

解決の可能性パターンに任意格の追加例:「 N1 (主体、動物)が 【 N2(村落)で】 生き延びる」

Page 28: 結合価文法による動詞と 名詞の訳語選択能力の評価

6.慣用表現( 24% )例:彼女は亭主を尻に敷いている。対訳: She dominates her husband.ALT 訳: She is spreading her husband out on the back.

その他の原因パターンの追加などによる解決は不明(∵原因3、4より)

・動詞の場合と同様に個別のパターンを登録で解決例:「 N1 (主体)が N2 (主体)を尻に敷く  N1dominate N2」

Page 29: 結合価文法による動詞と 名詞の訳語選択能力の評価

先行研究との比較先行研究(桐澤 2000 )・意味属性による IPAL の名詞の訳し分け精度を調査

分類 割合 名 詞 の 例

見出し 意味属性 英訳語

訳語多義なし 56.4%

岩 <岩石> rock

一意に絞り込み可能

24.0%

スキー

<スポーツ> skiing

<遊び道具、運動具>

ski

場合により可能 3.5% 委員 <成員><複数> committee

<成員><単数> member of committee

絞込み可能 10.5%

麻 <作物 繊維> flax  亜麻とその繊維

<作物 繊維> hemp  大麻とその繊維

<糸・布> linen  麻製品

不可能 5.7% 牙 <牙> tusk   象など

<牙> fang   犬や猫

Page 30: 結合価文法による動詞と 名詞の訳語選択能力の評価

分類(先行研究より)

各分類の訳し分け精度○ △ ×

訳語多義なし 71% 25% 4%一意に絞り込み可

能56% 32% 12%

場合により可能 49% 42% 9%

絞り込み可能 44% 40% 15%

不可能 52% 32% 16%

本研究の結果との対比

意味属性によって訳し分け精度が若干向上

Page 31: 結合価文法による動詞と 名詞の訳語選択能力の評価

分類 名 詞 の 例

見出し 意味属性 英訳語

訳語多義なし 岩 <岩石> rock

一意に絞り込み可能 スキー <スポーツ> skiing

<遊び道具、運動具>

ski

場合により可能 委員 <成員><複数> committee

<成員><単数> member of committee

絞込み可能 麻 <作物 繊維> flax  亜麻とその繊維

<作物 繊維> hemp  大麻とその繊維

<糸・布> linen  麻製品

不可能 牙 <牙> tusk   象など

<牙> fang   犬や猫

本研究における誤り率

4%

12%

9%

15%

16%

本研究の結果との対比

・意味属性決定による訳し分け精度の効果を確認

Page 32: 結合価文法による動詞と 名詞の訳語選択能力の評価

      結合価文法の有効性・評価の結果、正解率がデフォルトより6%向上・慣用表現のパターン追加により3 % の精度向上

名詞のまとめ

      結合価文法の限界・パターンの定義外の名詞は訳し分け不可・すべての名詞についてパターンの登録は不可

Page 33: 結合価文法による動詞と 名詞の訳語選択能力の評価

まとめ

・ IPAL 辞書の基本動詞、名詞の訳し分け精度を調査

限界動詞 98~ 99% 、名詞 94%

正解率

動詞 89%(デフォルト 55%) 、名詞 91%(85%)

今後の課題・ IPAL 辞書以外の動詞、名詞への効果調査