acl2011読み会: query weighting for ranking model adaptation
DESCRIPTION
ACL2011読み会の発表資料TRANSCRIPT
ACL2011読み会: Query Weighting for
Ranking Model Adapation
2011-09-03
Yoshihiko Suhara
@sleepy_yoshi
1012 Query Weighting for Ranking Model Adaptation
• by Peng Cai, Wei Gao, Aoying Zhou and Kam-Fai Wong
• ランキング学習+転移学習のはなし
2
おことわり
• ACLは自然言語処理の会議
• そう気が付いたのは昨夜の2時でした
3
1枚要約
• 目的
– 異なるドメインの訓練データを用いてランキング学習を行う
• 提案
– クエリ単位で事例転移 (instance transfer) を行うことを提案し,各クエリの重み付け方法を2種類提案
• 結論
– 転移元の訓練データだけを用いたベースライン,文書単位で事例転移する方法に比べて精度向上
4
2つのキーワード
• Learning to rank (ランキング学習)
• Transfer learning (転移学習) /Domain adapation (ドメイン適応)
5
Learning to rank
6
7
近代的なランキングの実現方法 • 多数のランキング素性を用いてランキングを実現
クエリq
クエリqを含む 文書d
𝜙1(𝑞, 𝑑)
𝜙𝑚(𝑞, 𝑑)
𝜙𝑚+1(𝑑)
𝜙𝑛(𝑑)
𝐰TΦ(𝑞, 𝑑)
・・・
・・・ 検索スコア
文書の重要度 (クエリ非依存)
ランキング関数
クエリ・文書関連度 (クエリ依存)
e.g., BM25
e.g., PageRank
= Φ(𝑞, 𝑑)
ランキング素性の例
• TF-TITLE □: 1
• TF-BODY □: 3
• IN-LINK: 5
• URL length: 12
<TITLE> hoge </TITLE>
<BODY> ... hoge .... ............................... ..... hoge ................ ............................... hoge ...................... </BODY>
http://www.hoge.com/
クエリq = “hoge” のときの文書1の例
Φ "hoge", 𝑑1 = 1, 3, 5, 12 𝑇 ⇒ 8
ランキング学習の訓練データ
Training data
(𝒙11, 𝑦1
1)
…
… (𝒙2
1, 𝑦2
1)
(𝒙𝑛11, 𝑦𝑛1
1)
(𝒙12, 𝑦1
2)
…
(𝒙22, 𝑦2
2)
(𝒙𝑛22, 𝑦𝑛2
2)
(𝒙1𝑁, 𝑦1
𝑁)
…
(𝒙2𝑁, 𝑦2
𝑁)
(𝒙𝑛𝑁𝑁, 𝑦𝑛𝑁
𝑁)
𝑞1 𝑞2 𝑞𝑁
素性や評価はクエリ毎に与えられる
9
正解データ (適合性評価) の作成方法
• クエリに対する検索結果集合の一部に対して,「クエリが表す意図」に適合しているかという観点で点数を付与 – 評価点数は多段階 – 複数の被験者の適合度を平均
10
クエリ:goo
1
2
3
5
0
4
適合度
クエリgooに対する適合度評価
gooトップ
スパムブログ
IT記事
被験者の事前知識 に依存するため, ブレなく評価するのは 難しい...
評価点数はクエリ・文書ペアに対して付与
(余談) 複数アノテータのモデル化 e.g., Amazon Mechanical Turks [Wu+ 11]
ランキング学習におけるモデルの生成
Training data
学習 アルゴリズム モデル
未知のクエリ
予測値 𝒚 = (𝑦 1, 𝑦 1, ..., 𝑦 𝑛𝑡)
学習/生成
入力
出力
(𝒙1𝑡, ? )
…
(𝒙2𝑡, ? )
(𝒙𝑛𝑡𝑡, ? )
𝑞𝑡𝑒𝑠𝑡
直接順列を出力 する手法もある 11
Transfer learning/ Domain adaptation
12
Transfer learning (転移学習)
• Domain adaptation (ドメイン適応) とも呼ばれる
• 通常のInductive learningでは訓練データとテストデータの分布が同一であることを仮定
• 半教師あり学習はテストデータと同じ分布を仮定
• 異なる分布のデータを利用できないか?
– 事例x and/or ラベルyが異なる分布
⇒ 転移学習
13
14
training items
Learning System
Learning System Knowledge
Traditional ML vs. TL
Learning Process of
Traditional ML
Learning Process of
Transfer Learning
training items
Learning System Learning System
([Pan+ 10]のスライドより引用)
source domain target domain
15
16
Transfer Learningの課題
• What to transfer
–何を?
• How to transfer
–どうやって?
• When to transfer
17
Clustering
… × × Unsupervised Transfer Learning
Classification
Regression
…
× √ Transductive Transfer Learning
√ √
Classification
Regression
…
√ × Inductive Transfer Learning
Tasks Labeled data in
a target domain
Labeled data in
a source domain
Transfer learning settings
([Pan+ 10]のスライドより引用)
Transfer Learningにおける問題設定
18
Inductive Transfer Learning
• 4つのアプローチ
– 1. instance transfer
– 2. feature representation transfer
– 3. parameter-transfer
– 4. relational knowledge transfer
19
Instance transfer
• “... which assumes the certain parts of the data in the source domain can be reused for the target domain by re-weighting.”
• major technique – (a) re-weighting
– (b) important sampling
source domainの訓練データを
「適切に重み付け」することによって target domainの分布に合わせる
転移学習文献
• [Pan+ 10]のほかに以下の文献が詳しい
• 神嶌 敏弘, "転移学習", 人工知能学会誌, vol.25, no.4, pp.572-580 (2010)
20
前座終了
21
本題
22
Introduction
23
背景
• Learning to rank のための訓練データ作成はコストが高い
• できれば,ドメイン毎に訓練データを用意するのは避けたい
• 既にあるドメインの訓練データを転用できるとうれしい
24
目的と問題設定
• 目的
– source domainの訓練データを用いて,target domainで有効に働くランキング関数を生成する
• 問題設定
– source domain
• labeled data (評価付きデータ)
– target domain
• unlabeled data (評価なしデータ)
25
文書単位 vs. クエリ単位
26
Query-weighting が妥当な例
• 文書単位では類似度が高くても,クエリ単位では類似度が高くない例
27
提案手法の概要
• 提案手法は以下の2ステップで実現
– (1) source domainのクエリの重み付け
– (2) クエリ重みを考慮したランキング学習
28
(1) Query weighting
29
クエリの重み付け方法
• Query weighting by
– (i) Document Feature Aggregation
– (ii) Comparing Queries across Domains
30
(i) Document Feature Aggregation
31
Query feature vector
• クエリに含まれる文書の特徴表現を用いてクエリの特徴表現を生成
– (1) 平均
𝜇 =1
|𝑞| 𝑓𝑖
𝑞
𝑖=1
– (2) 分散
𝜎 =1
|𝑞| 𝑓𝑖 − 𝜇
2
𝑞
𝑖=1
32
再掲: ランキング学習の訓練データ
Training data
(𝒙11, 𝑦1
1)
…
… (𝒙2
1, 𝑦2
1)
(𝒙𝑛11, 𝑦𝑛1
1)
(𝒙12, 𝑦1
2)
…
(𝒙22, 𝑦2
2)
(𝒙𝑛22, 𝑦𝑛2
2)
(𝒙1𝑁, 𝑦1
𝑁)
…
(𝒙2𝑁, 𝑦2
𝑁)
(𝒙𝑛𝑁𝑁, 𝑦𝑛𝑁
𝑁)
𝑞1 𝑞2 𝑞𝑁
素性や評価はクエリ毎に与えられる
33
平均と分散
34
入力はsource domain, target domainの訓練データ
出力はsource domainの 各クエリに対する重み情報
35
source domain の query feature vectorを生成
-1の事例とする
36
target domain の query feature vectorを生成
+1の事例とする
37
source domainとtarget domainの分類器を学習
38
source domainの各クエリの 予測結果を確率に変換 (*1)
39
補足: (*1) 超平面からの距離の確率的解釈
• SVMの超平面からの距離 (にシグモイド関数をかけたもの) は,事例の事後確率として解釈できまっせ (意訳) [Platt 99]
– 確率にするため,超平面からの距離にシグモイド関数を適用 (𝛼と𝛽はデータから学習)
𝑃 𝑞𝑠𝑖 ∈ 𝐷𝑡 =
1
1 + exp(𝛼 ∗ 𝐿 𝑞 𝑖𝑠 + 𝛽)
40
ロジスティック回帰と一緒
(i) Document Feature Aggregation のまとめ
• クエリに含まれる文書の平均と分散をクエリの特徴表現とする
• source domainのクエリとtarget domainのクエリを分離するマージン分類器を学習
• source domainの各クエリを,分類器の超平面からの距離に応じて重み付けする
そんな簡単な方法でいいの? 平均と分散って情報落としすぎじゃ・・・
41
(ii) Comparing Queries across Domains
42
(ii) Comparing Queries across Domains
• source domainの各クエリとtarget domainの各クエリの類似度を計算
– source domainのクエリ×target domainのクエリ
43
44
入力はsource domain, target domainの訓練データ
出力はsource domainの 各クエリに対する重み情報
45
source domainのクエリi の各文書を-1の事例とする
46
target domainのクエリi の各文書を+1の事例とする
47
source domainとtarget domainの分類器を学習
48
クエリiに含まれる各文書の
超平面からの距離を用いて事後確率を計算
49
それらの平均をクエリiの 重みとする
50
(2) Ranking Model Adapation via Query Weighting
51
RankingSVM (RSVM)
• Pairwise手法
–文書ペアで損失を設定し,二値分類問題として解く – あれ? クエリ毎に重み付けするモチベーションて,リストワイズ手法を意識して…ごほっごほっ
52 ただし,zij = sign( yi – yj )
RSVMとヒンジ損失
• ヒンジ損失を用いて以下のように変形できる
𝑧𝑖𝑗𝑤𝑇𝒙𝑛
loss
53
RSVM with Query Weighting
• ヒンジ損失に対してクエリ重みを適用
𝑧𝑖𝑗𝑤𝑇𝒙𝑛
loss
54
参考: IR-SVM [Cao+ 06] 引用されてない...
• (1) ペア毎に異なる損失重みを利用 – 評価指標に影響を与えるペアの誤りに対して大きな損失を与える (ヒンジロスの傾き)
• (2) クエリ毎のペアの偏りを排除 – 多くのペアを持つクエリに対して損失を小さくする
55 𝒚𝑛𝑤
𝑇𝒙𝑛
loss
Evaluation
56
実験
• データセット – LETOR3.0 (複数のデータセットから成る) を利用
• ベースライン手法
– source domainのみで学習 (no-weight) – 文書単位の instance transfer 手法であるdoc-pair, doc-avg, doc-comb
[Gao+ 10]
• 実験条件 – 類似度にはDomain Separator (DS) と Kullback-Leibler divergence (KL) を利用
• 評価指標
– MAPで評価
57
Experiment 1
58
0.2628 0.2628 0.2237 0.2237 target domain
Experiment 2
59
0.7408 0.6675 target domain 0.7408 0.6675
補足: LETOR3.0データセット
60 [Qin+ 10]より抜粋
クエリ重み付け妥当性の評価
• クエリ重みと,当該クエリで学習したモデルでtarget domainをランキングした際のMAP値の順位相関
61
Efficiency
• query-compでも,doc-pairに比べて高速
62
Conclusion
63
まとめ
• クエリ単位の事例転移を用いたランキング学習の枠組みを提案
– クエリ重み付け方法を2種類提案
• 文書単位で事例転移を行う既存手法に比べて高精度に学習可能
64
参考文献
• [Wu+ 11] O. Wu, W. Hu, J. Gao, “Learning to Rank under Multiple Annotators”, IJCAI2011.
• [Pan+ 10] S. J. Pan and Q. Yang, “A Survey on Transfer Learning”, IEEE Transactions on Knowledge and Data Engineering, pp.1345-1359, Vol.22(10), 2010.
• [Platt 99] J. C. Platt, “Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods”, In Advances in Large Margin Classifiers, pp.61-74, MIT Press.
• [Cao+ 06] Y. Cao, J. Xu, T.-Y. Liu, H. Li, Y. Huang, H.-W. Hon, “Adapting ranking SVM to document retrieval”, SIGIR2006.
• [Gao+ 10] W. Gao, P. Cai, K.-F. Wong, A. Zhou, “Learning to Rank Only Using Training Data from Related Domain”, SIGIR2010.
• [Qin+ 10] T. Qin, T.-Y. Liu, J. Xu, H. Li, “LETOR: A benchmark collection for research on learning to rank for information retrieval”, Information Retrieval, Vol.13(4), pp.346–374, 2010.
65