[rec sys2013勉強会]orthogonal query recommendation

No. 2-1:

Orthogonal Query Recommendationby H. Vahabi, M. Ackerman, D. Loker, R. Baeza-Yates and A. Lopez-Ortiz

担当：脇山宗也（リクルートテクノロジーズ）

No. S2-1: 担当：脇山宗也（リクルートテクノロジーズ）1

【RecSys2013勉強会】

研究背景

知りたいことは分かっているが、キーワードがわからない場合が存在する

long tailに該当するキーワードの場合、検索結果すら得られないことがある


研究対象としているクエリレコメンド

従来のクエリレコメンドの手法は、元の検索クエリとの類似性からレコメンドを行っており、レコメンドを行うのは難しい。提案手法では、ユーザが行う再検索した結果をCashしてレコメンドを行う。

提案手法（直交クエリ）のイメージ

提案手法(直交クエリ)は、元のクエリの単語とは異なるが、意味的には類似したクエリのレコメンドを行う


Result Overlap

提案手法

既存手法

Term Overlap：高

Term Overlap：低

論文中のFigure1を引用

インターネットの87%のクエリは4単語以下(Analysis of very large web search engine query log(1999)より)

4単語以下のクエリはTermOverlap < 0.333

Term Overlapの移動平均が0.333以下となるResult Overlap < 0.06を直交クエリの条件としている

アルゴリズム


過去クエリのCash(ユーザのクリック結果含む)

q1 = (r1,1, r1,2, …, r1,100)

q1 = (r1,1, r1,2, …, r1,100)

：q1 = (r1,1, r1,2, …, r1,100)

0 < Result Overlap(q, qi) ≦ 0.06(slideshareだと0.01以上?)

元のクエリqに対する直交クエリqiの抽出

直交クエリの中で、クリックが多いクエリ順に提示

直交クエリのアルゴリズム

Result Overlap

Avera

ge T

erm

Overlap

0.06

論文中のFigure2を引用

0.333

他手法との比較


S-1min S-10min S-20min S-30min

Overall

UF-IDF 5.87 4.83 4.54 4.40

OQ 4.97 4.07 3.72 3.64

SC 3.46 2.48 2.32 2.25

SQ 1.47 1.05 0.60 0.58

CG 0.64 0.49 0.46 0.43

Unseen queries（出現回数が1度のクエリ）

OQ 3.54 3.61 3.65 4.16

SC 0.78 0.80 0.79 0.79

SQ 0.74 0.72 0.72 0.71

UF-IDF 0.00 0.00 0.00 0.00

CG 0.00 0.00 0.00 0.00

S-1min S-10min S-20min S-30min

CG 1% 1% 1% 1%

UF-IDF 14% 14% 14% 14%

SC 5% 5% 5% 4%

SQ 2% 2% 2% 2%

正解したOQクエリと、正解した他手法の

クエリの重複率論文中Table 7

Orthogonal Queryと他手法の重複率は低い。OQは従来カバーできていなかったクエリに対して効果的であるといえる

Orthogonal Queryの精度は比較的高く、特にlong tailに含まれるクエリでの精度が高い

上位10クエリをレコメンドした際の正解率。600,000クエリでテスト論文中Table 6

1つ目のクエリでレコメンドを実施し、最後のクエリをレコメンドで的中できるかで評価。Cashは80,000クエリを使用。

q1 ・・・q1 qn

レコメンド

q1からXminまでを1セッション：S-Xmin

ユーザテスト TRECのテストベッドでユーザテストを実施

対象問題：50クエリ

評価者：関連研究を行っていない10人

OrthogonalQueryと他の6手法を比較

手法名を明かさずに、各手法の上位5クエリを提示

問題、手法の評価順はランダム

【TREC】

http://ja.wikipedia.org/wiki/TREC


useful somewhat not useful

Overall

OQ 20% 25% 55%

TQG 18% 23% 59%

UF-IDF 20% 20% 60%

CG 16% 22% 62%

SC 14% 16% 70%

GFG 13% 12% 75%

SQ 6% 4% 90%

Unseen queries（出現回数が1度のクエリ）

OQ 25% 8% 67%

TQG 8% 13% 79%

SC 5% 3% 92%

UF-IDF 0% 0% 100%

CG 0% 0% 100%

QFG 0% 0% 100%

SQ 0% 0% 100%

論文中Table 8

提案手法のOrthogonal Queryに対してユーザの評価が高い。特にlong tailに含まれるクエリへの評価が高い。

レビュー

新規性・独創性[3/5] 既存手法の多くが、クエリの類似性に着目しているのに対し、検索結果の類似性に着目している点は独創的と言える

ただ、発想としてはありきたりなので、本当に類似した既往研究が存在しなかったのかが気になる

有効性・重要性[4/5] 長所

手法自体は単純なものなので、導入は比較的容易である

ユーザの検索履歴をキャッシュして行うので、トレンドの変化にもキャッシュを更新するのみで対応することができる

短所アルゴリズムの抽出条件(パラメータ)設定がやや恣意的であり、汎用性については疑問が残る

履歴をベースとした手法なので、Cold Start問題が存在する。他手法と組み合わせて利用するか、利用シーンを限定する必要がある。


[rec sys2013勉強会]orthogonal query recommendation

Technology