jsai 1k3-2 知識ベースに基づく言語横断質問応答における訳質の影響
TRANSCRIPT
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
知識ベースに基づく言語横断質問応答における訳質の影響
NAIST AHC-Lab.杉山 享志朗
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:質問応答 ( 一問一答型 )
情報検索 ( 関連:キーワード検索 )入力:質問 ⇒ 出力:回答
応用先:コールセンター補助など
情報源
回答候補:・東京・江戸・平安京
日本の首都は?
東京です
04/15/2023 2/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース
意味表現:「実体 (entity) 」 ×2「特性 (property) 」
意味表現の集合:知識ベース( 安倍晋三 , 出身 , ?) = 東京
のような問い合わせが可能代表例:
Freebase( 英語 ):2300 万 entitiesDBpedia( 日本語 ):210 万 entities
安倍晋三 東京
輩出
出身
安倍晋太郎
安倍洋子
親
子
子
親04/15/2023 3/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
背景:知識ベース + 質問応答
従来:表層的な情報で検索複雑な質問は回答困難
→ 知識ベースを利用→ 回答可能に
安倍晋三の母の出身は?
安倍晋三 母 出身 検索
((( 安倍晋三 , 親 , ?), 性別 , 女 ), 出身 , ?)
04/15/2023 4/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点 1 :限られる知識ベース
知識ベース代表例:Freebase( 英語 ):2300 万 entitiesDBpedia( 日本語 ):210 万 entities
知識ベースがない言語も多数回答可能な質問範囲∝知識ベース規模
問題点 1 :知識ベースが存在する言語は限られる
04/15/2023 5/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
問題点 2 :意味表現との対応
知識ベースを利用するために:自然言語→意味表現の対応が必要例:「安倍晋三」「安部総理」「今の総理」=安倍晋三
必要な言語資源:自然言語と対応する意味表現
コスト大
問題点 2 :任意言語から意味表現との対応獲得が困難
04/15/2023 6/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問 ( 任意言語 )
質問 ( 英語 )
質問応答 知識ベース( 英語 )
回答 ( 英語 )
機械翻訳回答 ( 任意言
語 )
04/15/2023 7/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
最も単純な解決法
英語での知識ベース利用:先例有り [Cai 13][Berant 13]
質問文を英語に翻訳翻訳の影響
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問 ( 任意言語 )
質問 ( 英語 )
質問応答 知識ベース( 英語 )
回答 ( 英語 )
機械翻訳回答 ( 任意言
語 )
- 知識ベースを持つ英語を利用 = 問題 1 の解決- 意味表現との対応獲得不要 ( 英語以外 ) = 問題 2 の解決
04/15/2023 8/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
翻訳の影響
質問応答に影響する翻訳とは?
関連研究 [Akiva 08] :文書からの検索内容語が強く影響
[Akiva 08] Tomoyosi Akiba, Kei Shimizu, and Atsushi Fujii. “Statistical machine translation based passage retrieval for cross-lingual question answering.” In Proc. IJCNLP, pp.751-756, 2008.
知識ベースを利用する場合はどうか?
04/15/2023 9/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
アプローチ
目的:良い ( 悪い ) 影響を与える翻訳の傾向調査
アプローチ様々な翻訳手法によるデータ作成 + 複数観点から評価事例収集 -> ケーススタディ
04/15/2023 10/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成 1
質問データセット Free917 [Cai 13] :( 英語質問文 , 正解意味表現 )×917 問分割 :Train(512 問 ), Dev(129 問 ), Test(276 問 )Train+Dev で質問応答器を学習 ( 後述 )
Test セットの質問文を和訳 ( 人手 )( 日本語質問文 , 正解意味表現 )×276 問
OR :元の Test セット TR :和訳後 Test セット
[Cai 13] Qingqing Cai and Alexander Yates. “Large-scale semantic parsing via schema matching and lexicon extension.” In Proc. ACL, pp. 423-433, 2013.
Free917
Train
Dev
Test(OR)
学習
Test(TR)04/15/2023 11/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:翻訳によるデータセット作成 2
TR セットの質問文を英訳( 英語質問文 ( 翻訳後 ), 正解意味表現 )
×276 問英訳方法:人手 + 機械翻訳 2 種
HT :人手GT, YT: 機械翻訳
Test(TR)
Test(HT)
Test(GT)
Test(YT)
04/15/2023 12/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験設定:質問応答器
[Berant 13] の質問応答器を使用1. 質問文中のフレーズを
意味表現に変換2. 隣接意味表現を統合
(1 つになるまで繰返す )3. 様々な組合せを試し
信頼度の高いものを回答( 学習:この評価関数の最適化 )
[Berant 13] Jonathan Berant, Andrew Chou, Roy Frostig, and Percy Liang. “Semantic parsing on freebase from question-answer.” In Proc. EMNLP, pp.1533-1544, 2013.
質問文
フレーズ
フレーズ
フレーズ
意味表現 意味表現 意味表現
意味表現
意味表現
Freebase
04/15/2023 13/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験
4 種の質問セット (OR, HT, GT, YT) の正答率同一の質問応答器で回答
機械翻訳自動評価尺度で各セットの訳質評価 ( 参照訳 :OR)
正答率と自動評価尺度の関係を調査ケーススタディ
04/15/2023 14/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
BLEU(r=0.846, p=0.077)Linear (BLEU(r=0.846, p=0.077))Linear (BLEU(r=0.846, p=0.077))RIBES(r=0.709, p=0.145)
評価値
正答
率
HTGT
YT
BLEU : n-gram 一致率
NIST: n-gram 一致率、単語重み
04/15/2023 15/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
実験結果
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
BLEU(r=0.846, p=0.077)Linear (BLEU(r=0.846, p=0.077))Linear (BLEU(r=0.846, p=0.077))RIBES(r=0.709, p=0.145)
評価値
正答
率
HTGT
YT
RIBES : 大局的語順重視
WER : 単語誤り率
最も強い相関
04/15/2023 16/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
ケーススタディ
〇 OR : when was interstate 579 formed- TR :州間高速道路 579号が作られたのはいつですか× HT : when was interstate highway 579 made× GT : when is the interstate highway no. 579 has been made× YT : when is it that expressway 579 between states was made
内容語が変化することによる回答の変化を確認
04/15/2023 17/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
考察
内容語を重視する NIST スコアに高い相関内容語の変化による回答の変化→ 内容語が強く影響 ( 文書検索と似た傾向 )
内容語を正確に捉えることで正答率向上の可能性
文法はそこまで整っていなくても正解可能 ( 要調査 )
04/15/2023 18/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
まとめ
知識ベースを用いて質問応答質問文翻訳翻訳の影響
内容語重視のスコアと高い相関内容語変化による回答の変化→ 内容語の強い影響
内容語を正確に翻訳することで正答率向上の可能性
04/15/2023 19/20
Kyoshiro SUGIYAMA , AHC-Lab. , NAIST
今後の課題
04/15/2023
詳細な分析追加のケーススタディ推論過程における誤推論
質問応答に最適化した翻訳知識ベースに含まれるエンティティ名を考慮エンティティ名に関する辞書の作成言い換え資源の利用
20/20