論文紹介@ gunosyデータマイニング研究会 #97

Post on 15-Apr-2017

830 Views

Category:

Technology

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Practical Guide to Controlled Experiments on the Web: Listen to Your Customers

not to the HiPPORon Kohavi

Randal M. Henne Dan Sommerfield

KDD 2007

Keisuke OSONE Gunosy データマイニング研究会

2015. 12. 21

自己紹介• 2015年11月にGunosy入社

• 前職ではソーシャルゲームのデータ分析してました

• 可視化とかでも活動してます

@dr_paradi

Practical Guide to Controlled Experiments on the Web: Listen to Your Customers

not to the HiPPORon Kohavi

Randal M. Henne Dan Sommerfield

KDD 2007

Keisuke OSONE Gunosy データマイニング研究会 論文紹介

2015. 12. 21

選んだ理由• MicroSoftはA/Bテストで有名 (Usability Testでも有名, e.g. RITE)

• 現在は一部でアプリケーションの改善において当たり前になっているAB testingに早くから取り組んでおり実践におけるノウハウもある

• 改めてAB Testingをする理由について考える

ABSTRACT

• Webではアイデアをすばやく検証できる

• ROIと学習効果を消費者の声を聞いて大きくできる (not to Hippo)

• データマイニングの手法で深い理解と新しい仮説をえる

雑感

• 仮説の検証方法などをAbstractで挙げているが、手法よりもむしろ、実践においての注意点を多く述べている(e.g. 数値が悪い時はレスポンスタイムを疑え)

• まさにPractical Guide

Practical Guide to Controlled Experiments on the Web:

Listen to Your Customers not to the HiPPO

Ron Kohavi Randal M. Henne Dan Sommerfield

HiPPo

Highest Paid Person’s Opinion

Intro

One accurate measure is worth more than thousand expert opinions

— Admiral Grace Hopper

2. Motivating EXAMPLES

The fewer the facts, the stronger the opinion.

— Arnold Glasow

2.1 Checkout Page at Doctor FootCare

2.1 Checkout Page at Doctor FootCare

• 2つのUIに有意な差があるのか

• Conversion Rate は 購入者 / 訪問者

• デザイナーが訪ねてきたときにどちらがよいのか?

2.2 Rating of Microsoftt Office Help Articles

• Microsoft OfficeのユーザはHelpのarticleを5段階で評価できる

• 5-starはライターを評価するためのよりよいFeed Backを得られる

• 5-starのウィジェトはユーザビリティをよくする

2.1 Checkout Page at Doctor FootCare

2.3 Results and ROI

• AのほうがBより優れていた、AからBにすることで90%の利益をロストした

• クーポンコードが致命的だった(Discountを表示することでユーザがもっと安くできないか考えてしまった)

2.3 Results and ROI

• 評価は急落した

• 多くのユーザは5か1をつけた (ユーザを助けるか助けないかの2択だから)

• 両方ともUIの例だが、バックエンドのアルゴリズムにも同じことが言える

3 CONTROLLED EXPERRIMENTS

Enlighten trial and error outperforms the planing of flawless execution.

— David Kelly, founder of ideo

3 CONTROLLED EXPERRIMENTS

3 CONTROLLED EXPERRIMENTS

• 重要なのは”ランダム”であること

• OECが必要

• Checkout ExampleであればOECはコンバージョン率、購入数、収入、利益、推定LTVなどなど、OECに統計的な有意差がでれば解析は完了

3.1 Terminology

• Overall Evaluation Criterion 客観的に定量的な指標(従属変数とも呼ばれる)重み付けされたりしても、ひとつの指標が望ましいひとつの指標はトレードオフがない (複数だとあれは高くてこれは低いとなる)

• よいOECは短期的な指標でない(クリック)、長期のゴールを入れる(LTVや再訪率(repaet visits))

3.1 Terminology• Factor

• Controllable experimental value、A/Bで分けているValueのこと

• Variant

• テストされているユーザ体験のこと、バグがある際はすぐやめる

• Experimentation Units

• 観察が生み出した実体、アイテムとも呼ばれる(独立している)

3.1 Terminology• Null Hypothesis

• 帰無仮説

• Confidence Level

• 信頼水準

• Power

• 検出力

3.1 Terminology• A/A Test

• 同じことを二つのグループにさせ、variavilityを見る

• Standard Deviation

• 標準偏差: σ

• Standard Error

• 標準誤差

3.2 Hypothesis testing and Sample Size

• 比較対象との差は明確なのか

• 統計的なテストをする

• OECに統計的な差がなければ重要なのは以下のとおり

• 信頼水準

• 検出力

• 標準誤差

• 効果

3.3 Extensions for online Setting

• online Settingでいろいろ変えられる

• Treatment Ramp-up数%のユーザで行われるの実験を徐々に拡大する

• Automation

• 明確なOECがあるなら自動(最適)化できる(Amazonはそうしている)

• Software Migration

• 徐々にA/Bテストを広げれば(new DBなどの)マイグレーションも助けることになる

3.4 Limitations

• Quantitative Metrics, but No Explanations

• どっちのvariantがいいかはわかるがなぜかわからない

• Short Term vs Long Term Effects

• よいOECは容易に行かないである(ClickをあげるにはAdsを全面に出せばいいがそれでいいのか?)

• Primacy and Newness Effects

• ナビゲーションを変えたときなどはユーザが不必要に触る(ホーソン効果)、数週間はみるべき

Limitations

• Consistency

• 友人や家族との比較で違いに気づく人がいるかもしれないが気にしない(すごく稀)

• Media

• メディアに気づかれるとユーザはそれを見たくなってしまう

• Features must be Implemented

• その機能を使う人はサンプル数より少ないかもしれない

4. IMPLEMENTATRION ARCHITECTURE

• 実装には2つ必要

• ランダム化アルゴリズム (variantsにユーザを割り振る)

• 割当法 (Assignment method)

4.1 Randomization Algorithm

• baisがない必要がある

• 同じユーザは同じvariantにいないといけない(訪問ごとにvariantが変化してはいけない)

• 複数の実験を行うときには相関があってはいけない

• 少しづつ広げる

4.2 Assignment Method

• softwareでは異なったcodeを実行させる必要がある

• Traffic Splitting

• ロードバランサたプロキシサーバで分ける

• server-side selection

• サーバサイドで返すAPIで出し分けする

• client-side selection

• JavaScriptに埋め込む

5. LESSONS LEARNED

The Difference between theory and practice is larger in practice than the difference between theory and practice in theory.

— Jan L.A. va de Snepscheut

5.1.1 Mine the Data

• OECにおいてはひとつの統計的な有意差しかでないが、幅広いバージョンのユーザが利用しているの機械学習で何か発見できるかもしれない

5.1.2 Speed Matter

• 読み込みの速度が落ちることで結果を悪くしている可能性もある (時間がOECでないとしても)

• Amazonでは、処理が100msec長引くと売上が1%下がる

• Googleでは500msecで利益が20%下がる

5.1.3 Test One Factor at a Time (or Not)

• テストはひとつの指標でしたほうがよい

• 複数の指標でやるのは大変

5.2 Trust and Execution

Run Continuous A/A Tests

• まずA/Aテストを行い、データがマッチしているかなど確認する

• A/Aテストの結果に有意差がないか確認 (A/Aテストはパラレルでよい)

Automate Ramp-up and Abort

• 有意に下がった場合には、すぐやめる (オンラインですぐにやめられるようにする)

5.2 Trust and Execution

Determine the Minimum Sample Size

• ミニマムサイズを決める

Assign 50% of users to Treatment

• 半分のユーザをtreatmentに入れる (そうすれば99%/1%の25倍のテストができる)

Beware of Day of Week Effects

• 曜日の影響を考慮する (1週間は少なくともやったほうがよい、国によっても異なる)

5.3 Culture and Business

Agree on the OEC Upfront

• Controlled Experimentsは定量的に新機能の効果を測定できる

• 一番いいのはlife time valueを推測すること

• 実験にひとつの指標は必ずしも必要ではないが、ゴールを明確にすることができる

Beware of Launching Features that “Do not Hurt” Users

• 統計的に差が出なくても、ネガティブではなく検出されなかっただけ

Weigh the Feature Maintenance Costs

• 差があったとしてもメンテナスコストも考えよう

Change to Data Driven Culture

• オンラインの実験はユーザが新機能をどのように使っているかわかる

• Webの世界では消費者のFeedbackで動的に変化できる

• OECと吟味された実験でゴールを目指せ

5.3 Culture and Business

SUMMARY

Almost any question can be answered cheaply, quickly and finally, by a test campaign.

And that's the way to answer them – not by arguments around a table.

Go to the court of last resort – buyers of your products.

— Claude Hopkins, Scientific Advertising, 1922

• 多くの組織はHiPPOがいるが、ユーザの声を聞くのが一番イノベーションに繋がる

• Webでは複雑な実験を簡単に安価にできる

• 企業は実験(消費者の経験)を通してイノベーションを加速することができる

SUMMARY

top related