reading wikipedia to answer open-domain questions (acl2017) and more
TRANSCRIPT
Reading Wikipedia to Answer
Open-Domain Questions
Danqi Chen, Adam Fisch
Jason Weston and Antoine Bordes
ACL2017読み人: 松田耕史(東北大)
図はすべて、著者のポスターから拝借していますhttp://cs.stanford.edu/people/danqi/presentations/acl2017_poster.pdf
1
どういう論文?
• Wikipedia全体を情報源に用いたオープンドメイン質問応答システムを作りました– machine reading at scale (MRS)
– Document Retriever: 答えを含む記事をざっくり検索する
– Document Reader: 答えを含むスパンを注意深く探し出す(読解)
• Finding: 読解モジュールの学習において、自動生成したパラグラフ-答えペアを使う(マルチタスク学習)ことで性能が改善される
2
おさらい: SQuAD[Rajpurkar+ EMNLP2016]
3from: https://rajpurkar.github.io/mlx/qa-and-squad/
①Qを単語にバラして検索Top n記事を取り出す
②読解モジュールでスパンを当てる
4
文書検索モジュール
• TF-IDFで重み付けされた BoW+ bigramの類似度
–超シンプル(学習なし)
5
文書読解モジュール
• 入力: 文書, 出力: 答え(スパン)
6
7
さっき見てみたら・・・
読解における工夫
• SQuADだけではなく、他のデータセットからも学習– CuratedTREC, WebQuestions, WikiMovies
8
9
まとめ
10
Heterogeneous Supervision for
Relation Extraction: A Representation
Learning Approach
Liyuan Liu, Xiang Ren , Qi Zhu , Huan Gui,
Shi Zhi, Heng Jiand Jiawei Han
EMNLP 2017
読み人: 松田耕史(東北大)
11
どういう論文?
• 関係抽出における Distant Supervisionの一般化:異種教師あり学習
–さまざまな種類の教師付け(ラベリング関数)
を統合して扱う仕組み
• 本論文:
–「ラベリング関数」と「事例」の相性をモデル化
–あるラベリング関数の信頼性が高い事例の集合(Proficient subset)を近くに埋め込む
12
13from: https://www.slideshare.net/naoakiokazaki/modeling-missing-data-in-distant-supervision-for-information-
extraction-ritter-tacl-2013
Heterogeneous Supervision異種教師あり学習(?)
• Distant Supervisionを含めた様々な「教師信号」を統合的に扱う枠組み
• 鍵となる概念: ラベリング関数1. 知識ベースのエントリにマッチしているかを返す
2. エキスパートが書いた表層パターン
3. ドメイン知識
4. 他の分類器の予測結果 etc…
14
ラベリング関数の例
関数によってエラー率やカバレッジにばらつきが存在する互いにコンフリクトする場合も存在するたがいに相関をもっているような場合もある(既存のルールとほとんど意味が同じルールを重複して書いてしまう)
⇒ラベリング関数の信頼性をモデル化 / Denoising
from: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
15
異種教師あり学習の例:
Data Programming [Ratner+, NIPS2016]
from: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf16
17
専門家を招いて8時間のハッカソンをしたらF値が10ポイント上がった [Ratner+, NIPS2016]
本論文: 異種教師あり学習に対する表現学習によるアプローチ
18
①文脈を埋め込む
②ラベリング関数を適用
③「真のラベル」を推定
④「真のラベル」から関係抽出器を訓練
④ ③①
Joint で訓練:
SGNS
Softmax
③ノイジーなアノテーションから真のラベルを推定
• ラベリング関数と事例の「相性」を考える
–ある事例において信頼できるラベリング関数は、似た事例でも信頼できるだろう
–あるラベリング関数 iが信頼できる事例の集合
• Proficient subset : Si へのメンバシップ確率をモデル
19
文脈 ラベリング結果
20
全ラベルを利用
文脈非依存なTruth Dicovery
提案: 文脈依存Truth Discovery
21