sano hmm 20150512

Post on 25-Jul-2015

960 Views

Category:

Data & Analytics

5 Downloads

Preview:

Click to see full reader

TRANSCRIPT

ネット広告で機械学習Hivemallの活用例

2015/05/12(火 )19:00第一回 Hivemall Meetup

アジェンダ

• 自己紹介• FreakOut• 分析チームの紹介• 機械学習 – Hivemall の活用例

自己紹介

• 佐野正和 ( さのまさかず , @Masa_S3)

• FreakOut のデータマイニングエンジニア

• 5年くらいネット広告分野で分析業務を担当

• バックグラウンドは素粒子物理学

• FreakOut

FreakOut

• ネット広告の会社です。

• 広告入札システムを提供しています。

ネット広告売買の世界: Real Time Bidding(RTB)• SSP(Supply-Side Platform)が impressionのオークションを仕切って、それに複数の DSP(Demand-Side Platform )がセリに参加するイメージ。

DSP1

DSP2

DSP3

SSP

いくらで配信するの?

¥10

¥30

¥20

DSP2を配信

ユーザ ID, 広告サイズ等を開示

6

DSP ( Demand-Side Platform)とは

7

これまで 現在

広告枠

広告主

広告枠

メディア

ユーザ

広告枠

?広告主のロジックでの買い付けが可能に

ネット広告のパラダイムシフト取引対象が、「広告枠」から「人」へ変化

手売りでの広告販売

RTB による自動買い付け

広告枠

50ms or die.フリークアウトの Tech チームが掲げるミッション。

月間 2200 億のリクエスト、

その 1 つ 1 つに対して 50ms でレスポンスを返さない

と、

事業そのものが成り立たない

50ms でやっていること

広告主側のロジックで、必要な枠、必要な人、必要な瞬間だけをリアルタイムに判定して入札↓入札ロジックの洗練が利益に直結

分析チームの紹介

分析チームの紹介

• 5 名 +3 名アルバイト ( 現時点 )

• FreakOut と M.T.Burn( スマホ向けアドネットワーク ) のプロダクト改善

• 広告配信アルゴリズム改善のための分析に関わること全般を担当

• メンバーは実装できることが必須。

分析チームの紹介

• 使用言語は自由:よく使われているのは Python, Perl, C++

• 集計には Hive を活用

• 機械学習などの論文を参考にモデルを実装

• 検証 ( オンライン・オフライン ) を繰り返す

• 必要に応じて集計ベースの仮説検証も実施

• 機械学習 – Hivemall の活用例

• FreakOut では常時複数のアルゴリズムが実行・検証されています

• 使用されているアルゴリズムの一例としてクリック予測モデルを例に Hivemall の活用例を紹介します

ロジックの一例:クリック予測モデル

Hivemall のロジスティック回帰を活用

• 操作がとても簡単。 jar を読み込んですぐ使える

• Hue からも使えるので、コーディングが得意ではない人も簡単に使える

• 大規模データに対して学習可能

• Hive で学習から検証まで実行することができるようになり作業効率が良い

• 学習用のログは直近数日分の impression & click log

• 学習時間は数時間程度

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

ユーザ

入札価格の決定

Feature - weight

実配信

Hiveの操作

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

検証

Hiveの操作

評価

ロジックの一例:クリック予測モデル工夫した点

• amplify を使うと処理の途中過程で学習データが 10 倍程度になる ( 設定による ) 。

• オンプレ環境ではデータ容量を大きくできない

• 使用容量が多いと特徴量の種類を増やすことも容易ではない

• 精度を落とさず容量を減らしたい

ロジックの一例:クリック予測モデル

Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]

NegativeSamples

(impresion log)PositiveSamples(click log)

ロジックの一例:クリック予測モデル

Subsampling の導入Simple and scalable response prediction for display advertising[CHAPELLE, MANAVOGLU, ROSALES]

Negativesamples

Positivesamples

Subsampling rate r(<1)で negative sample からサンプリング。

subsampling

学習器

Impression log

click log

Hivemallで学習(ロジスティ回

帰 )

Clickする確率

ユーザ

入札価格の決定

Feature - weight

実配信

Hiveの操作

subsampling

ロジックの一例:クリック予測モデル

• 学習データを作る部分で Subsampling の導入

• Hive 内の処理で完結するので Hivemall と合わせて簡単に使うことができる

精度をほぼ変えずに消費リソースの削減を実現• r=0.2• 60-80% の消費リソース減少• 学習時間も半分以下に

まとめ

• Hivemall の利用は簡単

• 大規模データに対して機械学習が簡単にできます

• Hive query が使えれば複雑な実装をしなくてもよい

top related