tokyo webmining発表資料 20111127

27
事業企画室 由紀子 データマイニング データマイニング データマイニング データマイニング現場 現場 現場 現場24 24 24 24時 16 +WEB @東京 @東京 @東京 @東京 ( #TokyoWebmining 16th)-分散 -分散 -分散 -分散 Web解析自然言語処理 解析自然言語処理 解析自然言語処理 解析自然言語処理 祭- 祭- 祭- 祭-

Upload: kanyukiko

Post on 12-Jul-2015

5.940 views

Category:

Documents


1 download

TRANSCRIPT

事業企画室マネージャー 菅 由紀子

データマイニングデータマイニングデータマイニングデータマイニング現場現場現場現場24242424時時時時

第第第第16回回回回 データマイニングデータマイニングデータマイニングデータマイニング+WEB @東京@東京@東京@東京 ( #TokyoWebmining 16th)-リアルタイム分散-リアルタイム分散-リアルタイム分散-リアルタイム分散 Web解析・自然言語処理解析・自然言語処理解析・自然言語処理解析・自然言語処理 祭り-祭り-祭り-祭り-

会社概要会社概要会社概要会社概要

社名 株式会社ALBERT

設立 2005年7月1日

資本金 3億3,900万円

株主 デジタル・アドバタイジング・コンソーシアム株式会社、IVP Incubator, L.P、株式会社ニッセンホールディングス、MUハンズオンキャピタル株式会社、OYベンチャービジネス育成ファンド、

オリックス・キャピタル株式会社、株式会社ジャフコ、三生キャピタル株式会社、東洋キャピタル株式会社、ニュー・フロンティア・パートナーズ株式会社、SMBCベンチャーキャピタル株式会社、信金キャピタル株式会社、PE&HR株式会社、大和企業投資株式会社、株式会社シーエー・モバイル、役員および従業員

役員 代表取締役会長 山川 義介代表取締役社長 上村 崇取締役 徳久 昭彦(DAC取締役CTO)非常勤監査役 保月 英機

顧問 北 研二 (徳島大学工学部教授、工学博士)獅々堀 正幹 (徳島大学工学部准教授、工学博士)

事業内容 CRMソリューションの開発・提供・Web最適化システム・One to oneマーケティングソリューション・コンタクトセンターソリューション

レコメンドエンジンの開発・提供・Webレコメンドエンジン・モバイルレコメンドエンジン・感性検索システム

行動ターゲティング広告システムの開発・提供・広告配信の最適化・広告クリエイティブの最適化

会社概要会社概要会社概要会社概要 事業概要事業概要事業概要事業概要

2005年7月設立。事業コンセプトは『分析力をコアとする情報最適化企業』。高度なレコメンデーション、情報の最適化を実現するテクノロジーとして、前身のインタースコープで培ったマーケティングリサーチ、統計解析、データマイニング、テキスト解析に加え、徳島大学との共同開発による画像解析、豊富な導入実績に裏付けられた信頼のWeb、モバイル、ITインフラ技術を保有。これらのキーテクノロジーをベースに独自開発のレコメンドエンジンとして、行動履歴を使った推薦を安く簡単に『おまかせ!ログレコメンダー』のほか、対話型の意思決定システム『Bull's eye』等をECサイトやメーカーダイレクトサイトに提供。行動ターゲティング広告、広告のマッチングや最適化、Webサイトの最適化、One to oneマーケティングを実現するCRMソリューション等の情報の最適化など、分析力を強みとしたマーケティング支援も行なっています。

300サイトを超える導入実績

ヤマダ電機

GENOソニー銀⾏

インフォコム新星堂

アイ・オー・データ機器

マネックス証券

三菱東京UFJ銀⾏

ケーズホールディングス

イマージュ

サルース

ハースト婦人画報社

ナラカミーチェ

楽天銀⾏

menueリテールコム ネオ・ウィング

あみあみ

ハピネットオンライン

豊通エレクトロニクス

家電系サイト アパレルサイト

モバイルサイト ホビー商材サイト

金融サイト

mediba

自己紹介自己紹介自己紹介自己紹介

中央大学経済学部卒中央大学経済学部卒中央大学経済学部卒中央大学経済学部卒。。。。2004200420042004年株式会社年株式会社年株式会社年株式会社サイバーエージェントサイバーエージェントサイバーエージェントサイバーエージェント入社。入社。入社。入社。インタースコープ社との協業でネットリサーチ事業立ち上げや営業、広インタースコープ社との協業でネットリサーチ事業立ち上げや営業、広インタースコープ社との協業でネットリサーチ事業立ち上げや営業、広インタースコープ社との協業でネットリサーチ事業立ち上げや営業、広告の販売や企画などに携わ告の販売や企画などに携わ告の販売や企画などに携わ告の販売や企画などに携わる。る。る。る。2006200620062006年年年年3333月に株式会社月に株式会社月に株式会社月に株式会社ALBERTALBERTALBERTALBERTに転じ、消費者向けウェブサイトの立ちに転じ、消費者向けウェブサイトの立ちに転じ、消費者向けウェブサイトの立ちに転じ、消費者向けウェブサイトの立ち上げ等に関わる。上げ等に関わる。上げ等に関わる。上げ等に関わる。2008200820082008年年年年8888月頃より、データ分析を担当月頃より、データ分析を担当月頃より、データ分析を担当月頃より、データ分析を担当。。。。

株式株式株式株式会社会社会社会社ALBERT ALBERT ALBERT ALBERT 事業企画室事業企画室事業企画室事業企画室 マネージャーマネージャーマネージャーマネージャー

菅菅菅菅 由紀子由紀子由紀子由紀子

@@@@kan_yukikokan_yukikokan_yukikokan_yukiko

http://http://http://http://www.facebook.com/kan.yukikowww.facebook.com/kan.yukikowww.facebook.com/kan.yukikowww.facebook.com/kan.yukiko

こんなことをおこんなことをおこんなことをおこんなことをお話話話話しますしますしますします

・・・・ALBERTALBERTALBERTALBERTのデータマイニングのデータマイニングのデータマイニングのデータマイニング現場現場現場現場ごごごご紹介紹介紹介紹介

・データマイニングは・データマイニングは・データマイニングは・データマイニングは直感直感直感直感???? ひらめきをひらめきをひらめきをひらめきを得得得得るにはるにはるにはるには

・・・・ALBERTALBERTALBERTALBERTのののの分析最新事例分析最新事例分析最新事例分析最新事例

ALBERTALBERTALBERTALBERTのデータマイニングのデータマイニングのデータマイニングのデータマイニング現場現場現場現場ごごごご紹介紹介紹介紹介

ALBERT 事業企画室

・広告配信最適化のための・広告配信最適化のための・広告配信最適化のための・広告配信最適化のためのデータマイニングデータマイニングデータマイニングデータマイニング

レコメンドエンジンレコメンドエンジンレコメンドエンジンレコメンドエンジンASPASPASPASP

広告配信最適化広告配信最適化広告配信最適化広告配信最適化

コンサルティングコンサルティングコンサルティングコンサルティング

そのそのそのその他一切他一切他一切他一切のデータのデータのデータのデータ分析分析分析分析

・・・・ASPASPASPASPのレコメンドエンジンのチューニングとのレコメンドエンジンのチューニングとのレコメンドエンジンのチューニングとのレコメンドエンジンのチューニングとそれに必要なデータ分析それに必要なデータ分析それに必要なデータ分析それに必要なデータ分析

・顧客からの分析依頼対応・顧客からの分析依頼対応・顧客からの分析依頼対応・顧客からの分析依頼対応

・レコメンドエンジン開発のクライアントに・レコメンドエンジン開発のクライアントに・レコメンドエンジン開発のクライアントに・レコメンドエンジン開発のクライアントに独自のアルゴリズム策定コンサルティング独自のアルゴリズム策定コンサルティング独自のアルゴリズム策定コンサルティング独自のアルゴリズム策定コンサルティング

・マーケティングリサーチ結果の分析・マーケティングリサーチ結果の分析・マーケティングリサーチ結果の分析・マーケティングリサーチ結果の分析・レコメンドアルゴリズム等の研究・開発・レコメンドアルゴリズム等の研究・開発・レコメンドアルゴリズム等の研究・開発・レコメンドアルゴリズム等の研究・開発

約300サイト以上の導入実績多様な業種・業態

多様なデータ

大規模EC/コンテンツ系大容量かつ趣味嗜好が現れやすい

データ

超大規模データ変数多数

リアルタイム性

場合によっては小サンプル高度なレポーティング

大規模大規模大規模大規模からからからから小規模小規模小規模小規模、、、、レコメンドにとどまらずレコメンドにとどまらずレコメンドにとどまらずレコメンドにとどまらず多種多様多種多様多種多様多種多様なななな分析分析分析分析をををを行行行行なっておりますなっておりますなっておりますなっております。。。。

データマイニングと統計の違い

圧倒的データ量の違い→ 金鉱を掘り当てる

手法自体は似ている

統計は仮説検証、データマイニングは知識発見

試行錯誤の連続

ALBERTALBERTALBERTALBERTのデータマイニングのデータマイニングのデータマイニングのデータマイニング現場現場現場現場

知識にたどり着かない場合どうするか?

課題に直面した際に突破口になるのは「直感」「ひらめき」ではないか?

(#tokyowebmining 第14回 での議論)

直感やひらめきを呼び起こすには?

分析分析分析分析をををを行行行行うううう際際際際のののの大前提大前提大前提大前提

(1)分析しようとする問題そのものについての理解

そのデータの意味やその背景にある状況が分からなければ分析方針を決められない。分析課題の整理からはじめ、問題そのものやデータについての理解を深める

データマイニングすれば「それなりの結果」は出てしまうが、分析手法を理解していないと相応しくない分析をしていたときに気づかない。

予想通りか? 予想外か?データの取得方法や処理方法が間違っていたのか、分析手法が間違っていたのか? 見極めが必要。

(2)分析手法についての理解

(3)分析結果に対する判断力

これらをこれらをこれらをこれらを大前提大前提大前提大前提としたうえでとしたうえでとしたうえでとしたうえで「「「「ひらめきをひらめきをひらめきをひらめきを得得得得るためのアクションるためのアクションるためのアクションるためのアクション」」」」をををを実行実行実行実行

想定外の結果が出たときこそ、柔軟想定外の結果が出たときこそ、柔軟想定外の結果が出たときこそ、柔軟想定外の結果が出たときこそ、柔軟 に頭を働かせて様々な可能性を考えるべきに頭を働かせて様々な可能性を考えるべきに頭を働かせて様々な可能性を考えるべきに頭を働かせて様々な可能性を考えるべき

ひらめきをひらめきをひらめきをひらめきを得得得得るためにるためにるためにるために

大胆に変える

データのデータのデータのデータの形式形式形式形式をををを大胆大胆大胆大胆にににに変変変変えるえるえるえる

集計集計集計集計したデータをしたデータをしたデータをしたデータを用用用用いたいたいたいた分析分析分析分析

商品商品商品商品IDIDIDID単位単位単位単位のののの集計集計集計集計ではなくではなくではなくではなく1111レイヤーレイヤーレイヤーレイヤー、、、、2222レイヤーレイヤーレイヤーレイヤー上上上上のののの概念概念概念概念でのでのでのでの分析分析分析分析

分析分析分析分析にににに耐耐耐耐えうるデータでないえうるデータでないえうるデータでないえうるデータでない場合場合場合場合はははは、、、、データのデータのデータのデータの階層階層階層階層をををを「「「「考考考考えるえるえるえる」」」」

データのデータのデータのデータの形式形式形式形式をををを大胆大胆大胆大胆にににに変変変変えるえるえるえる////集計集計集計集計したデータをしたデータをしたデータをしたデータを用用用用いたいたいたいた分析分析分析分析

例例例例1111::::データデータデータデータ形式形式形式形式のののの変換変換変換変換

1/0データ n/0 データ

大胆大胆大胆大胆にににに変変変変えるえるえるえる

例例例例2222::::集計集計集計集計したデータをしたデータをしたデータをしたデータを用用用用いたいたいたいた分析分析分析分析

121846ALB0001

105602ALB0010

120388ALB0008

190466ALB0005

102820ALB0004

170161ALB0002

112000ALB0001

199242ALB0001

商品ID顧客ID

購入数顧客ID

1ALB0010

1ALB0008

1ALB0005

1ALB0004

1ALB0002

3ALB0001

1ALB0010

1ALB0008

1ALB0005

1ALB0004

1ALB0002

111ALB0001

199242190466170161121846120388112000105602102820顧客ID

クラスタークラスタークラスタークラスター分析分析分析分析ではではではでは、、、、大大大大きなきなきなきな違違違違いがいがいがいが出出出出ることもありますることもありますることもありますることもあります

ひとつひとつひとつひとつ上上上上・ふたつ・ふたつ・ふたつ・ふたつ上上上上のレイヤーでのレイヤーでのレイヤーでのレイヤーで考考考考えるえるえるえる

商品ID

カテゴリ テイスト ブランド

大胆大胆大胆大胆にににに変変変変えるえるえるえる

Tシャツ(レディース)Tシャツ(メンズ)

ブールパンプスサンダルバッグ

インナー・下着・・・

(色)レッド

ワインレッドピンク

オレンジイエローブラウンブラックホワイト

オフホワイト・・・

(色)ブランドAAAブランドBBBブランドCCCブランドDDDブランドEEEブランドXXX

・・・

たとえば、商品たとえば、商品たとえば、商品たとえば、商品ID単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等

とかけあわせることで、様々な情報を得ることができます。とかけあわせることで、様々な情報を得ることができます。とかけあわせることで、様々な情報を得ることができます。とかけあわせることで、様々な情報を得ることができます。

分析分析分析分析にににに耐耐耐耐えうるデータでないえうるデータでないえうるデータでないえうるデータでない場合場合場合場合データのデータのデータのデータの階層階層階層階層をををを「「「「考考考考えるえるえるえる」」」」

例例例例4444:分析に耐えうるデータでない場合は、データの階層を「考える」:分析に耐えうるデータでない場合は、データの階層を「考える」:分析に耐えうるデータでない場合は、データの階層を「考える」:分析に耐えうるデータでない場合は、データの階層を「考える」

生データにおけるタグ数が生データにおけるタグ数が生データにおけるタグ数が生データにおけるタグ数が2,0002,0002,0002,000そのうちそのうちそのうちそのうち8888割以上に履歴がない(ほかのデータと紐付かない)割以上に履歴がない(ほかのデータと紐付かない)割以上に履歴がない(ほかのデータと紐付かない)割以上に履歴がない(ほかのデータと紐付かない)ただし、ただし、ただし、ただし、1111でもでもでもでも2222でもデータとして存在するので無視はできないでもデータとして存在するので無視はできないでもデータとして存在するので無視はできないでもデータとして存在するので無視はできない

(例)(例)(例)(例)

タグそのものの情報を分析し、意味がありかつ履歴数が一定以上になるようタグそのものの情報を分析し、意味がありかつ履歴数が一定以上になるようタグそのものの情報を分析し、意味がありかつ履歴数が一定以上になるようタグそのものの情報を分析し、意味がありかつ履歴数が一定以上になるよう階層構造を持たせるデータに変換階層構造を持たせるデータに変換階層構造を持たせるデータに変換階層構造を持たせるデータに変換

【before】 【after】

データ数ジャンル名

ジャンル5

ジャンル4

ジャンル3

ジャンル2

ジャンル1

100

1

100

1

1

大ジャンル3

大ジャンル2

大ジャンル1

ジャンル6

ジャンル5

ジャンル3

ジャンル4

ジャンル2

ジャンル1

※階層構造は、データ分析を行った結果と内容が適しているかどうかを検証しています。

大胆大胆大胆大胆にににに変変変変えるえるえるえる

~ なぜパンパースとアサヒではなくおむつとビールなのか ~

パンパース コットンケア ウルトラジャンボ S 104枚 パンパース

アサヒ スーパードライ350ml×24缶

ASIN: B001TZAWD0ASIN: B0015XN55S

おむつおむつ ビールビール

つまり、SKU単位の相関よりカテゴリ単位カテゴリ単位カテゴリ単位カテゴリ単位の相関のほうがはるかにパワフルで精緻な購買予測が可能となります。

SKUレベルでは大量のデータが必要となり、すべての商品の相関関係を見いだすことは不可能です。より低いレベルの相関関係を根拠に顧客行動を予測することは困難ですが、カテゴリは普遍的であるため予測が可能です。

カテゴリレベルの分析の重要性カテゴリレベルの分析の重要性カテゴリレベルの分析の重要性カテゴリレベルの分析の重要性

パワフルな購買予測手法「CTB分析」を提唱

CCCCategoryategoryategoryategory

TTTTasteasteasteaste

BBBBrandrandrandrand

色、模様、サイズ

ブランド、キャラクター

大分類、小分類

「カテゴリ」に加え、同じ上位概念である「テイスト」「ブランド」の分析により顧客の理解が深まる。

カテゴリレベルのカテゴリレベルのカテゴリレベルのカテゴリレベルの分析分析分析分析のののの重要性重要性重要性重要性

事例:買ってくれるお客さんはどんな人?

ロイヤルカスタマーのロイヤルカスタマーのロイヤルカスタマーのロイヤルカスタマーの分析分析分析分析

優良顧客が何をどのように購入しているかを分析し、非優良顧客と比較することで顧客単価、購入頻度を向上させるきっかけを見出します。

高高高高 低低低低

優良顧客優良顧客優良顧客優良顧客

非優良非優良非優良非優良顧客顧客顧客顧客

平均的な平均的な平均的な平均的な顧客顧客顧客顧客

きっかけとなる特徴をきっかけとなる特徴をきっかけとなる特徴をきっかけとなる特徴をデータマイニングによって導出データマイニングによって導出データマイニングによって導出データマイニングによって導出

高高高高

低低低低

Monetary購入金額

Frequency:購入頻度

M(金額)で優良顧客を特定し分析した事例

購買実績データのうち、3カ月分のデータを用いて顧客別の「購入金額」を集計、売上全体の7割を占める25.6%の顧客を優良顧客:H(High)、20%を占める22.4%の中間層をM(Middle)、売上全体の10%であるが52%超を占める下位層をL

(Low)として購入した商品に特徴がみられるかを分析。

25.6

%

22.4% 52.0%

H M L

顧客の中での割合

消耗品購入率の違い

購買層別にカテゴリ単位での購入率を算出してみたところ、購入金額が高い層、購入頻度の多い層の方が低い層に比べ、特定の消耗品カテゴリを購入する割合が高いことがわかりました。

n=3887 n=4448 n=9019

消耗品カテゴリの購入率消耗品カテゴリの購入率消耗品カテゴリの購入率消耗品カテゴリの購入率

事例:買いたいタイミングを予測

STP-M

4P・4C-M

RT-M

ライトタイム・マーケティングのライトタイム・マーケティングのライトタイム・マーケティングのライトタイム・マーケティングの登場登場登場登場

ここ60年のマーケティングコンセプトは、製品中心の4P・4Cマーケティングから顧客中心のSTPマーケティングに移行してきた。そして今、環境の変化に伴い、STPマーケティングを超えたライトタイム・マーケシングへのパラダイムシフトが起きています。

最適最適最適最適なななな顧客顧客顧客顧客にににに最適最適最適最適なななな商品商品商品商品・・・・情報情報情報情報をををを適切適切適切適切なタイミング・チャネルでなタイミング・チャネルでなタイミング・チャネルでなタイミング・チャネルで送送送送るるるる

どのカテゴリがいつ売れるのか?

雑貨_化粧品_乳液

レディース_スポーツウエア_トレーナー

レディース_アウター_セーター

メンズ_アウター_セーター

メンズ_アウター_ブルゾン

子供服_雑貨_ブーツ

レディース_雑貨_ブーツ1

レディース_アウター_コート

食品_生鮮食品_その他

メンズ_スポーツウェア_パンツ

子供服_アウター_コート

雑貨_清掃_歯ブラシ

メンズ_アウター_コート

レディース衣料_アウター_ベスト

雑貨_清掃_清掃用具

雑貨_その他_家電

インテリア_寝具_毛布

インテリア_寝具_こたつ布団

雑貨_衛生_ハンドクリーム

インテリア_家具_シーツ・カバー

子供_寝具_子供用毛布

雑貨_トイレタリー_トイレ雑貨

雑貨_トイレタリー_風呂雑貨

スポーツ_スポーツグッズ_スノーボード

スポーツ_スポーツグッズ_スキー

食品_加工食品_魚

食品_加工食品_肉

スポーツ_衣料_ブルゾン・ジャケット

スポーツ_衣料_トレーナー

インテリア_寝具_毛布

メンズ_スポーツウェア_トレーナー

メンズ_スポーツウェア_トップス

インテリア_寝具_毛布

食品_生鮮食品_乳製品

子供_玩具_大型玩具

雑貨_雑貨その他_カイロ

雑貨_化粧品_ハンドクリーム

メンズ_スポーツウェア_インナー

スポーツ_衣料_スノーボードウェア

スポーツ_衣料_スキーウェア

11月上旬 11月中旬 11月下旬

毛布カバー類こたつ

スキースポーツ⾐料

食品

スキースノーボードスポーツ⾐料

メンズ_衣料_コート

スポーツ_スポーツウェア_トレーニング

雑貨_トイレタリー_トイレ雑貨

雑貨_トイレタリー_風呂雑貨

スポーツ_スポーツグッズ_スノーボード

子供_寝具_子供用毛布

スポーツ_衣料_トレーナー

子供_衣料_機能性ウェア

レディース_衣料_機能性ウェア

スポーツ_衣料_トレーナー

スポーツ_衣料_機能性ウェア

生活雑貨_衛生用品_カイロ

メンズ_スポーツウェア_機能性ウェア

食品_生鮮食品_肉類

インテリア_寝具_毛布

インテリア_カバー類_カバーその他

メンズ_スポーツウェア_インナー

食品_生鮮食品_野菜

スポーツ_衣料_スノーボードウェア

スポーツ_衣料_スキーウェア

推薦推薦推薦推薦すべきカテゴリとそのタイミングすべきカテゴリとそのタイミングすべきカテゴリとそのタイミングすべきカテゴリとそのタイミング

■分析方法

Aパターン:短期間に複数回購入されるカテゴリ

■分析結果:上位3カテゴリTシャツ・カットソー 1.71回ソックス 1.63回ワンピース・ドレス 1.32回約400日間

▲ ▲

購入日( )

10/3 10/30 12/04

Bパターン:短期間内に複数回購入のないカテゴリ

約400日間

10/1 ■分析結果:下位3カテゴリコート 1.09回バッグ 1.02回ラック 1.02回

商品カテゴリによって推薦すべきタイミングに違いがあることがわかります。

カテゴリ単位で分析することにより、知見を得ることが可能に。

ご清聴ありがとうございました@kan_yukiko

[email protected]