論文紹介@ gunosyデータマイニング研究会 #97

44
Practical Guide to Controlled Experiments on the Web: Listen to Your Customers not to the HiPPO Ron Kohavi Randal M. Henne Dan Sommerfield KDD 2007 Keisuke OSONE Gunosy データマイニング研究会 2015. 12. 21

Upload: -

Post on 15-Apr-2017

830 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 論文紹介@ Gunosyデータマイニング研究会 #97

Practical Guide to Controlled Experiments on the Web: Listen to Your Customers

not to the HiPPORon Kohavi

Randal M. Henne Dan Sommerfield

KDD 2007

Keisuke OSONE Gunosy データマイニング研究会

2015. 12. 21

Page 2: 論文紹介@ Gunosyデータマイニング研究会 #97

自己紹介• 2015年11月にGunosy入社

• 前職ではソーシャルゲームのデータ分析してました

• 可視化とかでも活動してます

@dr_paradi

Page 3: 論文紹介@ Gunosyデータマイニング研究会 #97

Practical Guide to Controlled Experiments on the Web: Listen to Your Customers

not to the HiPPORon Kohavi

Randal M. Henne Dan Sommerfield

KDD 2007

Keisuke OSONE Gunosy データマイニング研究会 論文紹介

2015. 12. 21

Page 4: 論文紹介@ Gunosyデータマイニング研究会 #97

選んだ理由• MicroSoftはA/Bテストで有名 (Usability Testでも有名, e.g. RITE)

• 現在は一部でアプリケーションの改善において当たり前になっているAB testingに早くから取り組んでおり実践におけるノウハウもある

• 改めてAB Testingをする理由について考える

Page 5: 論文紹介@ Gunosyデータマイニング研究会 #97

ABSTRACT

• Webではアイデアをすばやく検証できる

• ROIと学習効果を消費者の声を聞いて大きくできる (not to Hippo)

• データマイニングの手法で深い理解と新しい仮説をえる

Page 6: 論文紹介@ Gunosyデータマイニング研究会 #97

雑感

• 仮説の検証方法などをAbstractで挙げているが、手法よりもむしろ、実践においての注意点を多く述べている(e.g. 数値が悪い時はレスポンスタイムを疑え)

• まさにPractical Guide

Page 7: 論文紹介@ Gunosyデータマイニング研究会 #97

Practical Guide to Controlled Experiments on the Web:

Listen to Your Customers not to the HiPPO

Ron Kohavi Randal M. Henne Dan Sommerfield

Page 8: 論文紹介@ Gunosyデータマイニング研究会 #97

HiPPo

Page 9: 論文紹介@ Gunosyデータマイニング研究会 #97
Page 10: 論文紹介@ Gunosyデータマイニング研究会 #97

Highest Paid Person’s Opinion

Page 11: 論文紹介@ Gunosyデータマイニング研究会 #97

Intro

One accurate measure is worth more than thousand expert opinions

— Admiral Grace Hopper

Page 12: 論文紹介@ Gunosyデータマイニング研究会 #97

2. Motivating EXAMPLES

The fewer the facts, the stronger the opinion.

— Arnold Glasow

Page 13: 論文紹介@ Gunosyデータマイニング研究会 #97

2.1 Checkout Page at Doctor FootCare

Page 14: 論文紹介@ Gunosyデータマイニング研究会 #97

2.1 Checkout Page at Doctor FootCare

• 2つのUIに有意な差があるのか

• Conversion Rate は 購入者 / 訪問者

• デザイナーが訪ねてきたときにどちらがよいのか?

Page 15: 論文紹介@ Gunosyデータマイニング研究会 #97

2.2 Rating of Microsoftt Office Help Articles

• Microsoft OfficeのユーザはHelpのarticleを5段階で評価できる

• 5-starはライターを評価するためのよりよいFeed Backを得られる

• 5-starのウィジェトはユーザビリティをよくする

Page 16: 論文紹介@ Gunosyデータマイニング研究会 #97

2.1 Checkout Page at Doctor FootCare

Page 17: 論文紹介@ Gunosyデータマイニング研究会 #97

2.3 Results and ROI

• AのほうがBより優れていた、AからBにすることで90%の利益をロストした

• クーポンコードが致命的だった(Discountを表示することでユーザがもっと安くできないか考えてしまった)

Page 18: 論文紹介@ Gunosyデータマイニング研究会 #97

2.3 Results and ROI

• 評価は急落した

• 多くのユーザは5か1をつけた (ユーザを助けるか助けないかの2択だから)

• 両方ともUIの例だが、バックエンドのアルゴリズムにも同じことが言える

Page 19: 論文紹介@ Gunosyデータマイニング研究会 #97

3 CONTROLLED EXPERRIMENTS

Enlighten trial and error outperforms the planing of flawless execution.

— David Kelly, founder of ideo

Page 20: 論文紹介@ Gunosyデータマイニング研究会 #97

3 CONTROLLED EXPERRIMENTS

Page 21: 論文紹介@ Gunosyデータマイニング研究会 #97

3 CONTROLLED EXPERRIMENTS

• 重要なのは”ランダム”であること

• OECが必要

• Checkout ExampleであればOECはコンバージョン率、購入数、収入、利益、推定LTVなどなど、OECに統計的な有意差がでれば解析は完了

Page 22: 論文紹介@ Gunosyデータマイニング研究会 #97

3.1 Terminology

• Overall Evaluation Criterion 客観的に定量的な指標(従属変数とも呼ばれる)重み付けされたりしても、ひとつの指標が望ましいひとつの指標はトレードオフがない (複数だとあれは高くてこれは低いとなる)

• よいOECは短期的な指標でない(クリック)、長期のゴールを入れる(LTVや再訪率(repaet visits))

Page 23: 論文紹介@ Gunosyデータマイニング研究会 #97

3.1 Terminology• Factor

• Controllable experimental value、A/Bで分けているValueのこと

• Variant

• テストされているユーザ体験のこと、バグがある際はすぐやめる

• Experimentation Units

• 観察が生み出した実体、アイテムとも呼ばれる(独立している)

Page 24: 論文紹介@ Gunosyデータマイニング研究会 #97

3.1 Terminology• Null Hypothesis

• 帰無仮説

• Confidence Level

• 信頼水準

• Power

• 検出力

Page 25: 論文紹介@ Gunosyデータマイニング研究会 #97

3.1 Terminology• A/A Test

• 同じことを二つのグループにさせ、variavilityを見る

• Standard Deviation

• 標準偏差: σ

• Standard Error

• 標準誤差

Page 26: 論文紹介@ Gunosyデータマイニング研究会 #97

3.2 Hypothesis testing and Sample Size

• 比較対象との差は明確なのか

• 統計的なテストをする

• OECに統計的な差がなければ重要なのは以下のとおり

• 信頼水準

• 検出力

• 標準誤差

• 効果

Page 27: 論文紹介@ Gunosyデータマイニング研究会 #97

3.3 Extensions for online Setting

• online Settingでいろいろ変えられる

• Treatment Ramp-up数%のユーザで行われるの実験を徐々に拡大する

• Automation

• 明確なOECがあるなら自動(最適)化できる(Amazonはそうしている)

• Software Migration

• 徐々にA/Bテストを広げれば(new DBなどの)マイグレーションも助けることになる

Page 28: 論文紹介@ Gunosyデータマイニング研究会 #97

3.4 Limitations

• Quantitative Metrics, but No Explanations

• どっちのvariantがいいかはわかるがなぜかわからない

• Short Term vs Long Term Effects

• よいOECは容易に行かないである(ClickをあげるにはAdsを全面に出せばいいがそれでいいのか?)

• Primacy and Newness Effects

• ナビゲーションを変えたときなどはユーザが不必要に触る(ホーソン効果)、数週間はみるべき

Page 29: 論文紹介@ Gunosyデータマイニング研究会 #97

Limitations

• Consistency

• 友人や家族との比較で違いに気づく人がいるかもしれないが気にしない(すごく稀)

• Media

• メディアに気づかれるとユーザはそれを見たくなってしまう

• Features must be Implemented

• その機能を使う人はサンプル数より少ないかもしれない

Page 30: 論文紹介@ Gunosyデータマイニング研究会 #97

4. IMPLEMENTATRION ARCHITECTURE

• 実装には2つ必要

• ランダム化アルゴリズム (variantsにユーザを割り振る)

• 割当法 (Assignment method)

Page 31: 論文紹介@ Gunosyデータマイニング研究会 #97

4.1 Randomization Algorithm

• baisがない必要がある

• 同じユーザは同じvariantにいないといけない(訪問ごとにvariantが変化してはいけない)

• 複数の実験を行うときには相関があってはいけない

• 少しづつ広げる

Page 32: 論文紹介@ Gunosyデータマイニング研究会 #97

4.2 Assignment Method

• softwareでは異なったcodeを実行させる必要がある

• Traffic Splitting

• ロードバランサたプロキシサーバで分ける

• server-side selection

• サーバサイドで返すAPIで出し分けする

• client-side selection

• JavaScriptに埋め込む

Page 33: 論文紹介@ Gunosyデータマイニング研究会 #97

5. LESSONS LEARNED

The Difference between theory and practice is larger in practice than the difference between theory and practice in theory.

— Jan L.A. va de Snepscheut

Page 34: 論文紹介@ Gunosyデータマイニング研究会 #97

5.1.1 Mine the Data

• OECにおいてはひとつの統計的な有意差しかでないが、幅広いバージョンのユーザが利用しているの機械学習で何か発見できるかもしれない

Page 35: 論文紹介@ Gunosyデータマイニング研究会 #97

5.1.2 Speed Matter

• 読み込みの速度が落ちることで結果を悪くしている可能性もある (時間がOECでないとしても)

• Amazonでは、処理が100msec長引くと売上が1%下がる

• Googleでは500msecで利益が20%下がる

Page 36: 論文紹介@ Gunosyデータマイニング研究会 #97

5.1.3 Test One Factor at a Time (or Not)

• テストはひとつの指標でしたほうがよい

• 複数の指標でやるのは大変

Page 37: 論文紹介@ Gunosyデータマイニング研究会 #97

5.2 Trust and Execution

Run Continuous A/A Tests

• まずA/Aテストを行い、データがマッチしているかなど確認する

• A/Aテストの結果に有意差がないか確認 (A/Aテストはパラレルでよい)

Automate Ramp-up and Abort

• 有意に下がった場合には、すぐやめる (オンラインですぐにやめられるようにする)

Page 38: 論文紹介@ Gunosyデータマイニング研究会 #97

5.2 Trust and Execution

Determine the Minimum Sample Size

• ミニマムサイズを決める

Assign 50% of users to Treatment

• 半分のユーザをtreatmentに入れる (そうすれば99%/1%の25倍のテストができる)

Beware of Day of Week Effects

• 曜日の影響を考慮する (1週間は少なくともやったほうがよい、国によっても異なる)

Page 39: 論文紹介@ Gunosyデータマイニング研究会 #97

5.3 Culture and Business

Agree on the OEC Upfront

• Controlled Experimentsは定量的に新機能の効果を測定できる

• 一番いいのはlife time valueを推測すること

• 実験にひとつの指標は必ずしも必要ではないが、ゴールを明確にすることができる

Page 40: 論文紹介@ Gunosyデータマイニング研究会 #97

Beware of Launching Features that “Do not Hurt” Users

• 統計的に差が出なくても、ネガティブではなく検出されなかっただけ

Weigh the Feature Maintenance Costs

• 差があったとしてもメンテナスコストも考えよう

Change to Data Driven Culture

• オンラインの実験はユーザが新機能をどのように使っているかわかる

• Webの世界では消費者のFeedbackで動的に変化できる

• OECと吟味された実験でゴールを目指せ

5.3 Culture and Business

Page 41: 論文紹介@ Gunosyデータマイニング研究会 #97

SUMMARY

Almost any question can be answered cheaply, quickly and finally, by a test campaign.

And that's the way to answer them – not by arguments around a table.

Go to the court of last resort – buyers of your products.

— Claude Hopkins, Scientific Advertising, 1922

Page 42: 論文紹介@ Gunosyデータマイニング研究会 #97
Page 43: 論文紹介@ Gunosyデータマイニング研究会 #97

• 多くの組織はHiPPOがいるが、ユーザの声を聞くのが一番イノベーションに繋がる

• Webでは複雑な実験を簡単に安価にできる

• 企業は実験(消費者の経験)を通してイノベーションを加速することができる

SUMMARY

Page 44: 論文紹介@ Gunosyデータマイニング研究会 #97