jsai 1k3-2 知識ベースに基づく言語横断質問応答における訳質の影響

20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST 知知知知知知知知知知知知知知知知知 知知知知知知知知知 NAIST AHC-Lab. 知知 知知知

Upload: kyoshiro-sugiyama

Post on 11-Aug-2015

44 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

知識ベースに基づく言語横断質問応答における訳質の影響

NAIST AHC-Lab.杉山 享志朗

Page 2: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

背景:質問応答 ( 一問一答型 )

情報検索 ( 関連:キーワード検索 )入力:質問 ⇒ 出力:回答

応用先:コールセンター補助など

情報源

回答候補:・東京・江戸・平安京

日本の首都は?

東京です

04/15/2023 2/20

Page 3: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

背景:知識ベース

意味表現:「実体 (entity) 」    ×2「特性 (property) 」

意味表現の集合:知識ベース( 安倍晋三 , 出身 , ?) = 東京

のような問い合わせが可能代表例:

Freebase( 英語 ):2300 万 entitiesDBpedia( 日本語 ):210 万 entities

安倍晋三 東京

輩出

出身

安倍晋太郎

安倍洋子

親04/15/2023 3/20

Page 4: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

背景:知識ベース + 質問応答

従来:表層的な情報で検索複雑な質問は回答困難

→ 知識ベースを利用→ 回答可能に

安倍晋三の母の出身は?

安倍晋三 母 出身 検索

((( 安倍晋三 , 親 , ?), 性別 , 女 ), 出身 , ?)

04/15/2023 4/20

Page 5: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

問題点 1 :限られる知識ベース

知識ベース代表例:Freebase( 英語 ):2300 万 entitiesDBpedia( 日本語 ):210 万 entities

知識ベースがない言語も多数回答可能な質問範囲∝知識ベース規模

問題点 1 :知識ベースが存在する言語は限られる

04/15/2023 5/20

Page 6: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

問題点 2 :意味表現との対応

知識ベースを利用するために:自然言語→意味表現の対応が必要例:「安倍晋三」「安部総理」「今の総理」=安倍晋三

必要な言語資源:自然言語と対応する意味表現

コスト大

問題点 2 :任意言語から意味表現との対応獲得が困難

04/15/2023 6/20

Page 7: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

最も単純な解決法

英語での知識ベース利用:先例有り [Cai 13][Berant 13]

質問文を英語に翻訳翻訳の影響

[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.

質問 ( 任意言語 )

質問 ( 英語 )

質問応答 知識ベース( 英語 )

回答 ( 英語 )

機械翻訳回答 ( 任意言

語 )

04/15/2023 7/20

Page 8: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

最も単純な解決法

英語での知識ベース利用:先例有り [Cai 13][Berant 13]

質問文を英語に翻訳翻訳の影響

[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.

質問 ( 任意言語 )

質問 ( 英語 )

質問応答 知識ベース( 英語 )

回答 ( 英語 )

機械翻訳回答 ( 任意言

語 )

- 知識ベースを持つ英語を利用 = 問題 1 の解決- 意味表現との対応獲得不要 ( 英語以外 ) = 問題 2 の解決

04/15/2023 8/20

Page 9: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

翻訳の影響

質問応答に影響する翻訳とは?

関連研究 [Akiva 08] :文書からの検索内容語が強く影響

[Akiva 08] Tomoyosi Akiba, Kei Shimizu, and Atsushi Fujii. “Statistical machine translation based passage retrieval for cross-lingual question answering.” In Proc. IJCNLP, pp.751-756, 2008.

知識ベースを利用する場合はどうか?

04/15/2023 9/20

Page 10: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

アプローチ

目的:良い ( 悪い ) 影響を与える翻訳の傾向調査

アプローチ様々な翻訳手法によるデータ作成 + 複数観点から評価事例収集 -> ケーススタディ

04/15/2023 10/20

Page 11: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験設定:翻訳によるデータセット作成 1

質問データセット Free917 [Cai 13] :( 英語質問文 , 正解意味表現 )×917 問分割 :Train(512 問 ), Dev(129 問 ), Test(276 問 )Train+Dev で質問応答器を学習 ( 後述 )

Test セットの質問文を和訳 ( 人手 )( 日本語質問文 , 正解意味表現 )×276 問

OR :元の Test セット TR :和訳後 Test セット

[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.

Free917

Train

Dev

Test(OR)

学習

Test(TR)04/15/2023 11/20

Page 12: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験設定:翻訳によるデータセット作成 2

TR セットの質問文を英訳( 英語質問文 ( 翻訳後 ), 正解意味表現 )

                   ×276 問英訳方法:人手 + 機械翻訳 2 種

HT :人手GT, YT: 機械翻訳

Test(TR)

Test(HT)

Test(GT)

Test(YT)

04/15/2023 12/20

Page 13: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験設定:質問応答器

[Berant 13] の質問応答器を使用1. 質問文中のフレーズを

意味表現に変換2. 隣接意味表現を統合

(1 つになるまで繰返す )3. 様々な組合せを試し

信頼度の高いものを回答( 学習:この評価関数の最適化 )

[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.

質問文

フレーズ

フレーズ

フレーズ

意味表現 意味表現 意味表現

意味表現

意味表現

Freebase

04/15/2023 13/20

Page 14: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験

4 種の質問セット (OR, HT, GT, YT) の正答率同一の質問応答器で回答

機械翻訳自動評価尺度で各セットの訳質評価 ( 参照訳 :OR)

正答率と自動評価尺度の関係を調査ケーススタディ

04/15/2023 14/20

Page 15: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験結果

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

BLEU(r=0.846, p=0.077)Linear (BLEU(r=0.846, p=0.077))Linear (BLEU(r=0.846, p=0.077))RIBES(r=0.709, p=0.145)

評価値

正答

HTGT

YT

BLEU : n-gram 一致率

NIST: n-gram 一致率、単語重み

04/15/2023 15/20

Page 16: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

実験結果

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

BLEU(r=0.846, p=0.077)Linear (BLEU(r=0.846, p=0.077))Linear (BLEU(r=0.846, p=0.077))RIBES(r=0.709, p=0.145)

評価値

正答

HTGT

YT

RIBES : 大局的語順重視

WER : 単語誤り率

最も強い相関

04/15/2023 16/20

Page 17: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

ケーススタディ

〇 OR : when was interstate 579 formed- TR :州間高速道路 579号が作られたのはいつですか× HT : when was interstate highway 579 made× GT : when is the interstate highway no. 579 has been made× YT : when is it that expressway 579 between states was made

内容語が変化することによる回答の変化を確認

04/15/2023 17/20

Page 18: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

考察

内容語を重視する NIST スコアに高い相関内容語の変化による回答の変化→ 内容語が強く影響 ( 文書検索と似た傾向 )

内容語を正確に捉えることで正答率向上の可能性

文法はそこまで整っていなくても正解可能 ( 要調査 )

04/15/2023 18/20

Page 19: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

まとめ

知識ベースを用いて質問応答質問文翻訳翻訳の影響

内容語重視のスコアと高い相関内容語変化による回答の変化→ 内容語の強い影響

内容語を正確に翻訳することで正答率向上の可能性

04/15/2023 19/20

Page 20: JSAI 1K3-2 知識ベースに基づく言語横断質問応答における訳質の影響

Kyoshiro SUGIYAMA , AHC-Lab. , NAIST

今後の課題

04/15/2023

詳細な分析追加のケーススタディ推論過程における誤推論

質問応答に最適化した翻訳知識ベースに含まれるエンティティ名を考慮エンティティ名に関する辞書の作成言い換え資源の利用

20/20