トピックモデルを用いた 潜在ファッション嗜好の推定
TRANSCRIPT
トピックモデルを用いた 潜在ファッション嗜好の推定
Fashion Tech Meetup #1 2015/11/10
Takashi Kaneda Ryosuke Goto
自己紹介
金田 卓士 @kndt84データサイエンティスト
• 2009年に大学院を修了 専攻は計量経済学 • 一休.com、ソフトバンク・テクノロジーを経て現職
• 趣味では、VRミニ四駆という作品を作って、Maker Faire に出展したりしてます!
1 A B O U T i Q O N
!
60,000 !
!
500
600 !
10,000
4.3 4.5
( :7,009 )
( :7,009 )
iQON No.1 !
!LIKE
No.1 No.1 No.1
No.1 No.1 No.1
200 !
600 1/3
現在ユーザーのタイムラインには、フォロースタイリストのコンテンツを除き、全てのユーザーに同じコンテンツが表示されている
新着コーデ 人気コーデ
問題意識
ユーザーの嗜好に近いコンテンツを露出することで、より感動体験を届けることができるのでは?
モード系 かわいい系
モチベーション
しかし、ファッションの嗜好という抽象的な概念をどうサービスに組み込めばよいのか?
トピックモデルが使えるのでは!
課題
どうにかして、行動データからユーザーのファッションの潜在的な嗜好を推定したい
トピックモデルとは?
• 自然言語処理における潜在意味解析の分野から発展してきた手法で、主に文章解析に使われることが多い
• 大量の文章から人の手を介すことなく、話題になっているトピックの抽出が可能
• また、それぞれの文章がどのトピックに属すのかを判別することもできる
出典:岩田具治『トピックモデル』講談社, 2015年
国会 首相 内閣 衆議院 選挙 :
選手 ゴール ボール 試合 球場 :
病院 薬 健康 手術 難病 :
トピックを抽出
それぞれの文章がもつトピックを推定
サッカー協会は代表の強化のため…
時期衆議院選挙に向けて与党は…
難病医療に関する法律案が国会
文章集合
スポーツ 政治 医療+政治
政治 スポーツ 医療
• 明示的に「ファッション」という単語が出ていなくても、ファッションの話題であることを理解できる
• トピックごとに確率的に出現しやすい単語があると考える
人とカブらないのがいい!ヴィンテージ柄コーデでおしゃれ上級者に
今買い足すならトレンド感も取り入れたおしゃれなデザインを選びたい。
今 買い足す トレンド 取り入れた おしゃれ デザイン1 1 1 1 1 1
• 文章を単語ベクトル(Bag of Words)に変換 • ベクトル化することで共起を統計モデルとして扱える • 単語の順番や、文章の構造は無視
Bag of Words (BoW)
出典:Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM
文章中の単語は、文章のトピック分布から確率的に生成されると仮定してモデル化
ユーザーのファッション嗜好の推定に使えるのでは!
パンツ:dazzlin ブラウス:COCO DEAL カーディガン:MERCURYDUO カチューシャ:Jennifer Ouellette イヤーカフ:Serendip three バッグ:INDEX 靴:CARVEN ROND POINT
ファッションも、その人が何のブランドを着ているかで、なんとなくその人の嗜好がわかる!ex. 赤文字系、モード系、きれいめOL系
文章からトピックを判別するのと同じでは!?
Cartier Christian Louboutin DRESSTERIOR Grace Continental IENA TOMORROWLAND
1 1 1 1 1 1
• ユーザーのブランドLike情報をベクトル化 • ベクトル化してしまえば、文章と同様に扱える!
Bag of Brands
CHANEL Chloe MOUSSY Dior CELINE :
EGOIST SLY moussy MURUA rienda :
addidas X-girl NIKE WEGO VANS :
ファッションのカテゴリを抽出
それぞれのユーザーが嗜好するカテゴリを推定
EGOIST SLY EMODA
STUSSY TOMMY CONVERSE
MOUSSY EGOIST MURUA
ユーザーの ブランドLike集合
ギャル ストリート OL+ギャル
OL系 ギャル系 ストリート系
LDAのグラフィカル表現
出典:Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM
一般的な文章解析の場合 ファッションの嗜好推定
α θの事前分布を生成するパラメータ 同左
η βの事前分布を生成するパラメータ 同左
θ 潜在トピックの確率分布 ファッションカテゴリの確率分布
β 単語の確率分布 ブランドLikeの確率分布
D 文章数 ユーザー数
N 1文章の単語出現回数 ユーザーのブランドLike
K トピック数 ファッションのカテゴリ数
Z 単語の潜在トピック ファッションカテゴリ
W 単語の集合 ブランドLike集合
文章解析との比較
• 約7000ブランドから上位1000ブランドに限定
• 70万人分の500万個のブランドLikeデータを使用
• GoogleのCloud Dataproc上で、SparkのMLlibを利用して計算
• LDAの推定には、EMアルゴリズムを利用
データと計算環境
• ユーザーのブランドLike情報をベクトル化して、トピックモデルを適用したところ、ファッションカテゴリの抽出に成功
• また、それぞれのユーザーが、どういったファッションのカテゴリを嗜好するかの判別も可能に
推定結果
青山・表参道OL系
1 CHANEL
2 Chloe
3 BLACK BY MOUSSY
4 Christian Louboutin
5 Christian Dior
6 BURBERRY
7 CELINE
8 Cher
9 FRAY I.D
10 deicy
ペルソナ
青山・表参道 sweet モテ OL 28-35 さえこ 元vivi読者 結婚 主婦 ママ友 セレブ好き
ランウェイ系
1 EGOIST
2 LIP SERVICE
3 EMODA
4 SLY
5 moussy
6 MURUA
7 rienda
8 SPIRAL GIRL
9 DURAS
10 CECIL McBEE
ペルソナ
渋谷・原宿 runway系 ギャルと言われがちな人 22-28歳 クラブ・フェス好き SNS好き
セレクトショップ系
1 URBAN RESEARCH
2 URBAN RESEARCH DOORS
3 UNITED ARROWS
4 ROSSO
5 kate spade new york
6 KBF
7 IÉNA
8 nano・universe
9 TOMORROWLAND
10 Spick and Span
ペルソナ
セレクトショップ好き ニューバランス スニーカーはマスト 海外旅行いく 25-32歳 ベーシックそこそこいいものが欲しい 単価12000円くらい モール好き
ストリート系
1 adidas
2 adidas Originals
3 X-girl
4 NIKE
5 adidas NEO Label
6 WEGO
7 VANS
8 STUSSY
9 TOMMY HILFIGER
10 adidas by Stella McCartney
ペルソナ
原宿・渋谷 スポーツエッジ 髪の毛に気合い入れる 彼氏もストリート系 ナイロンが愛読書 20-28歳
ユーザーの嗜好カテゴリの推定
今後の課題
• 実際のプロダクトへの実装
• ブランドLike情報以外の、閲覧履歴情報の取り込み
• 階層構造や補助情報を取り込んだモデルへの拡張
まとめ
• ユーザーのブランドLike情報をトピックモデルに適用することで、ファッションカテゴリを抽出することが可能に
• また、個々のユーザーのファッションカテゴリの嗜好も数値として表せるように ⇒ プロダクトへ実装可能
We are hiring !
「ファッション×ビックデータ」 の分野を一緒に開拓しましょう!