[rec sys2013勉強会]orthogonal query recommendation
TRANSCRIPT
No. 2-1:
Orthogonal Query Recommendationby H. Vahabi, M. Ackerman, D. Loker, R. Baeza-Yates and A. Lopez-Ortiz
担当: 脇山 宗也(リクルートテクノロジーズ)
No. S2-1: 担当:脇山宗也(リクルートテクノロジーズ)1
【RecSys2013勉強会】
研究背景
知りたいことは分かっているが、キーワードがわからない場合が存在する
long tailに該当するキーワードの場合、検索結果すら得られないことがある
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)2
研究対象としているクエリレコメンド
従来のクエリレコメンドの手法は、元の検索クエリとの類似性からレコメンドを行っており、レコメンドを行うのは難しい。提案手法では、ユーザが行う再検索した結果をCashしてレコメンドを行う。
提案手法(直交クエリ)のイメージ
提案手法(直交クエリ)は、元のクエリの単語とは異なるが、意味的には類似したクエリのレコメンドを行う
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)3
Result Overlap
提案手法
既存手法
Term Overlap:高
Term Overlap:低
論文中のFigure1を引用
インターネットの87%のクエリは4単語以下(Analysis of very large web search engine query log(1999)より)
4単語以下のクエリはTermOverlap < 0.333
Term Overlapの移動平均が0.333以下となるResult Overlap < 0.06を直交クエリの条件としている
アルゴリズム
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)4
過去クエリのCash(ユーザのクリック結果含む)
q1 = (r1,1, r1,2, …, r1,100)
q1 = (r1,1, r1,2, …, r1,100)
:q1 = (r1,1, r1,2, …, r1,100)
0 < Result Overlap(q, qi) ≦ 0.06(slideshareだと0.01以上?)
元のクエリqに対する直交クエリqiの抽出
直交クエリの中で、クリックが多いクエリ順に提示
直交クエリのアルゴリズム
Result Overlap
Avera
ge T
erm
Overlap
0.06
論文中のFigure2を引用
0.333
他手法との比較
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)5
S-1min S-10min S-20min S-30min
Overall
UF-IDF 5.87 4.83 4.54 4.40
OQ 4.97 4.07 3.72 3.64
SC 3.46 2.48 2.32 2.25
SQ 1.47 1.05 0.60 0.58
CG 0.64 0.49 0.46 0.43
Unseen queries(出現回数が1度のクエリ)
OQ 3.54 3.61 3.65 4.16
SC 0.78 0.80 0.79 0.79
SQ 0.74 0.72 0.72 0.71
UF-IDF 0.00 0.00 0.00 0.00
CG 0.00 0.00 0.00 0.00
S-1min S-10min S-20min S-30min
CG 1% 1% 1% 1%
UF-IDF 14% 14% 14% 14%
SC 5% 5% 5% 4%
SQ 2% 2% 2% 2%
正解したOQクエリと、正解した他手法の
クエリの重複率 論文中Table 7
Orthogonal Queryと他手法の重複率は低い。OQは従来カバーできていなかったクエリに対して効果的であるといえる
Orthogonal Queryの精度は比較的高く、特にlong tailに含まれるクエリでの精度が高い
上位10クエリをレコメンドした際の正解率。600,000クエリでテスト 論文中Table 6
1つ目のクエリでレコメンドを実施し、最後のクエリをレコメンドで的中できるかで評価。Cashは80,000クエリを使用。
q1 ・・・q1 qn
レコメンド
q1からXminまでを1セッション:S-Xmin
ユーザテスト TRECのテストベッドでユーザテストを実施
対象問題:50クエリ
評価者:関連研究を行っていない10人
OrthogonalQueryと他の6手法を比較
手法名を明かさずに、各手法の上位5クエリを提示
問題、手法の評価順はランダム
【TREC】
http://ja.wikipedia.org/wiki/TREC
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)6
useful somewhat not useful
Overall
OQ 20% 25% 55%
TQG 18% 23% 59%
UF-IDF 20% 20% 60%
CG 16% 22% 62%
SC 14% 16% 70%
GFG 13% 12% 75%
SQ 6% 4% 90%
Unseen queries(出現回数が1度のクエリ)
OQ 25% 8% 67%
TQG 8% 13% 79%
SC 5% 3% 92%
UF-IDF 0% 0% 100%
CG 0% 0% 100%
QFG 0% 0% 100%
SQ 0% 0% 100%
論文中Table 8
提案手法のOrthogonal Queryに対してユーザの評価が高い。特にlong tailに含まれるクエリへの評価が高い。
レビュー
新規性・独創性[3/5] 既存手法の多くが、クエリの類似性に着目しているのに対し、検索結果の類似性に着目している点は独創的と言える
ただ、発想としてはありきたりなので、本当に類似した既往研究が存在しなかったのかが気になる
有効性・重要性[4/5] 長所
手法自体は単純なものなので、導入は比較的容易である
ユーザの検索履歴をキャッシュして行うので、トレンドの変化にもキャッシュを更新するのみで対応することができる
短所 アルゴリズムの抽出条件(パラメータ)設定がやや恣意的であり、汎用性については疑問が残る
履歴をベースとした手法なので、Cold Start問題が存在する。他手法と組み合わせて利用するか、利用シーンを限定する必要がある。
No. S2-1: 担当:脇山 宗也(リクルートテクノロジーズ)7