京都大学鹿島研究室勉強会資料-配布用-

79
株株株株株株 株株株株株 株株株株株株株株株株株 株株株株株株株株株株株 株株株 1 株株株株 株株株株株 株株株株株株株株 株株株株株株株株株株株株株株株株株株株株株株

Upload: koichiro-kondo

Post on 19-Aug-2015

279 views

Category:

Data & Analytics


3 download

TRANSCRIPT

Page 1: 京都大学鹿島研究室勉強会資料-配布用-

株式会社電通統合データ・ソリューションセンターデータサイエンティスト

近藤康一朗

1

京都大学 鹿島研究室 公開セミナー資料

データを価値化する解析プロセスの俯瞰と効率化

Page 2: 京都大学鹿島研究室勉強会資料-配布用-

スピーカー紹介

2

近藤康一朗株式会社電通 統合データ・ソリューションセンターデータサイエンティスト

愛知出身、洛南高校→東大工学部→東大工学系研究科2010 年~ 2011 年

:電通入社、デジタル・ビジネス局配属    社のトップクライアントのデジタル施策 PDCA 、

 分析ツール開発・運用 (Ignition One) を担当。

2012 年 :社内試験によりクリエーティブ局配属 コピーライター・ CM プランナーを担当。 テレビ・ラジオ広告賞を複数受賞。

2013 年~:統合データ・ソリューションセンターに再配属 チーフアナリストとして、広告コンサルティング DMP 導入・運用を推進。

Page 3: 京都大学鹿島研究室勉強会資料-配布用-

データ分析サバイバル術60 分

+分析家のキャリア論

30 分

3

本日のテーマ

Page 4: 京都大学鹿島研究室勉強会資料-配布用-

4

最近注目を集めている「ビジュアライゼーション」「機械学習」は大量の情報を「人間が使いやすい形に圧縮する」技術。

近年のトレンド:ビッグデータの山から価値を創出する

複雑且つ多量のデータ

ビジュアライゼーション 機械学習

情報量を圧縮し人間の認知しやすい形に落とす

情報量を圧縮しシンプルなパターン / 法則に落とす

Page 5: 京都大学鹿島研究室勉強会資料-配布用-

一般的な分析の流れデータ分析の大きな流れを整理。要件定義~ビジュアライズまで 60 分で説明します。今日伝えたいことは、スキルではなく、”アウトプットの出し方”です。(※資料は公開するので、後でカタログ的に周辺領域を見直して頂くと学びも多いです)

要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ

・リサーチ・課題抽出・前提条件確認     - 時間     - 金額     - データ     - インフラ

・ダウンロード・ API・スクレイピング

・データ統合・修正・ RDBM 化

タスク

必要スキル・技能

・単純集計・クロス集計・統計解析・機械学習

・表化・グラフ化・ダッシュボード化

・コンサルティング・プロジェクトマネジメント・業界知見・ビジネス知見(会計、その他)

・クローリング

・ HTML/FTP 等のサーバーインフラ系知識

・データ加工のプログラミング

・データベース設計

・ SQL 系のデータベース

・ R 、 SAS 系の予測分析、機械学習系のプログラミング

・ PowerPoint でのプレゼン

・ Tableau 系のダッシュボードツール

時間 3 日~ 1週間25%

1 日~ 2 日10%

3 日~ 1週間25%

1 日~ 1週間20%

1 日~ 1週間20%

5

Page 6: 京都大学鹿島研究室勉強会資料-配布用-

本日のケース今回は国立情報学研究所のダウンロードサービスにより株式会社ドワンゴから提供を受けた「ニコニコ動画コメント等データ」を使います。

要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ

・リサーチ・課題抽出・前提条件確認     - 時間     - 金額     - データ     - インフラ

・ダウンロード・ API・スクレイピング

・データ統合・修正・ RDBM 化

タスク

・分析設計・単純集計・クロス集計・統計解析・機械学習

・表化・グラフ化・ダッシュボード化・メッセージング

本日の内容

皆さんにわかりやすく楽しいデータ

” 分析例”を提供wget 一撃

json⇒SQLPython

UNIX による加工

SQL による集計とサンプリングPentaho 集計R による解析

Tableau で可視化ダッシュボード化

所要時間1 日 30 分 1 時間 1 日~ 3 日 4 時間

6

Page 7: 京都大学鹿島研究室勉強会資料-配布用-

分析用データ

本日の分析フロー全体像

7

データ収集

データ加工

分析用データ

分析用データ

クレンジング・デー

タ圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

Page 8: 京都大学鹿島研究室勉強会資料-配布用-

1. データ収集~分析用データの作成まで

8

分析用データ

データ収集

データ加工

分析用データ

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

下ごしらえ

Page 9: 京都大学鹿島研究室勉強会資料-配布用-

今回の利用データについて

http://www.nii.ac.jp/cscenter/idr/nico/nico.html

国立情報学研究所が公開している「ニコニコ動画コメント等データ」を使います。

ニコニコ動画コメント等データ- 動画メタデータ

【理由】 ・無料 / 使いやすい ・実サービスで、結果の解釈がしやすい ・時系列、テキストマイニング等、  あらゆるものをはめられる。 ・大きさもそこそこ( 12GB くらい) ・ブログ書いてます  ( http://d.hatena.ne.jp/monnalisasmile/)

9

Page 10: 京都大学鹿島研究室勉強会資料-配布用-

データ収集:スクレイピングwget で一撃必 殺。 (-r オプションで、全てのリンク先を繰り返し download)

wget –r example.com  ≪格納先≫

参考 URL:http://girigiribauer.com/archives/925

【 wget コマンドをクローラーとして使う】

wget --recursive--level inf--no-clobber--random-wait--restrict-file-names=windows--convert-links--no-parent--adjust-extension

example.com

10

Page 11: 京都大学鹿島研究室勉強会資料-配布用-

11

野生の解析屋さんがいっぱい。Deep Learning はほぼ使わないです。Boosting の方がメジャー。

解析したい、でもデータがない・・・!

Kaggle は企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社。情報科学、統計学、経済学、数学などの分野から全世界で約 95,000 人のデータサイエンティストが登録しており [3] 、同社はアメリカ航空宇宙局、ウィキペディア、デロイト トウシュ トーマツ、オールステート保険等の組織と提携している。 (wikipedia)

自習用

Page 12: 京都大学鹿島研究室勉強会資料-配布用-

wget 後、データサイズと形式の確認動画メタデータ (video) を利用。データサイズ 12.87GB 、約 1900個の dat ファイル。

12

Page 13: 京都大学鹿島研究室勉強会資料-配布用-

生データ確認: dat ファイル内の形式dat ファイルの中身は json 形式。Python の組み込み型の一つである辞書 ( ディクショナリ ) と同じ形式。じゃ、 Python で処理して、扱いやすい SQL 形式に変えてしまおう。

13

Page 14: 京都大学鹿島研究室勉強会資料-配布用-

Python→SQL で RDB 化Dictionary処理を Python コードで書いてみる。 Tag の扱いに注意。 (_ でくっつけた )SQLite にデータを格納。自分の扱いやすいデータ形式への加工をしてみます。

14

Page 15: 京都大学鹿島研究室勉強会資料-配布用-

SQLite の設定.show で SQLite の設定を確認します。デフォルトで separator(区切り文字 ) が” |” になっていたり、癖があるので注意。

【各設定の説明】Headers: カラム名の出力有無⇒ONOutput:画面出力 or ファイル出力⇒.output ファイル名で、ファイル出力separator:区切り文字の説明⇒.separator , でカンマ区切り

旧設定

設定変更

新設定

15

Page 16: 京都大学鹿島研究室勉強会資料-配布用-

【自習教材】 初心者向け SQL文の勉強①基礎を学ぶ②やりたいことから逆算で学ぶ③体系的な学習の順でやってみる。

http://www.sql-reference.com/

②やりたいことから逆算

③体系的に学習

http://www.1keydata.com/jp/sql/

①クエリの読み方 /書き方

16

自習用

Page 17: 京都大学鹿島研究室勉強会資料-配布用-

17

【自習教材】 中上級者向け SQL文の勉強SQLは、プログラミング言語として、かなり特殊。「書き方」のお作法を間違えると、ものすごく効率の悪い(時間のかかる)クエリになる。

【知っておいた方が良い概念】1.SELECT で列選択、 WHERE で行選択2.INDEX の張り方、 容 量とのトレードオフ  WHERE での条件指定にも依存。3.場合分けは WHERE ではなく CASE WHEN4.HAVING は、可視性以外の用途なし。  FROM 内に SELECT を入れるのと同じ。5.INNER JOIN を活用しまくる。 横連結+行フィルターの同時施行。

【中級者以上におすすめの書籍】・ SQL パズル・達人に学ぶ SQL徹底指南書

自習用

Page 18: 京都大学鹿島研究室勉強会資料-配布用-

SQLite にてデータ構造を確認

【各カラムの説明】video_id :ビデオの ID番号Title :ビデオのタイトルview_counter :再生数mylist_counter :マイリスト数Length :動画の長さ(秒)comment_counter :コメント数upload_time :アップロードした時間Tags :タグ(複数の場合、” _” で接続。

データ構造の確認 .schema

実際のデータ select * from table limit 10

18

.schema で流し込んだデータのデータ構造を確認します。

Page 19: 京都大学鹿島研究室勉強会資料-配布用-

SQL_Lite にて単純集計動画数 & 再生数&コメント数&マイリスト数を集計。約 830万動画の平均、最大値を下記に集約。単純集計で肌感を掴んでおくのは意外と大事。(異常値に対する感性が出てくる)

再生数 コメント数マイリスト数

コメント率マイリスト率

平均 4174.7 297.7 67.76 7.1% 1.6%

最大 15,454,295 517,528 65,535 (※) (※)

Select avg(view_count),avg(xxxx), ・・・ from yyyy;

19

Page 20: 京都大学鹿島研究室勉強会資料-配布用-

分析設計と分析用データ再作成

20

分析用データ

データ収集

データ加工

分析用データ

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

献立立案・料理

Page 21: 京都大学鹿島研究室勉強会資料-配布用-

どんな分析をしたら面白い (意味がある ) データなのか考えてみる

どの時間帯に動画が多くアップロードされているの?

どのカテゴリの動画がお気に入り率が高いの?

最近動画アップロード数は増えてる?減ってるの?

動画時間と再生数、コメント数との相関はあるの?

一番動画が見られるのはアップロードしてからどれ位なの?

各カテゴリの動画数はどれだけ?

再生数トップ 5 の動画は?

ボーカロイドやっぱり流行ってるの?どの時間帯に一番再生されているの?

21

Page 22: 京都大学鹿島研究室勉強会資料-配布用-

分析の切り口=アイディア

22

分析の基本は「まとめる / 分ける」「新指標を作る」「比較する」。この 3 つをヒントに、意思決定につながりやすいアウトプットの切り口を練る。

①まとめる / 分ける-MECE、ペア思考、フレームワーク- ターゲットと「それ以外」A = B + B’

②新指標を作る-因数分解をしてみる(率の開発)-四則演算をしてみるC = B/A

③比較する- 時系列での比較 (変化 )- 属性毎での対比

A > B

Page 23: 京都大学鹿島研究室勉強会資料-配布用-

【自習】アイディアを出しやすい分析フレームを盗むコンサルタント等の書籍から「自分が使いやすい」分析フレームをくみ上げる。参考書籍:意思決定のための「分析の技術」 後正武著

分析の体系

23

自習用

Page 24: 京都大学鹿島研究室勉強会資料-配布用-

時系列の分析用データを作る (Pentaho)動画毎の集計データを日 × 時間帯別のデータへ集計 & 加工

加工前は動画毎のデータ 加工後は日付× 時間帯別に集計されたデータに

24

Page 25: 京都大学鹿島研究室勉強会資料-配布用-

Pentaho 等のデータ加工ツールのメリット一度設定を行えば、再生ボタンを押すだけで、それ以降の処理が全て自動化される。「定期的に発生する同じ作業」や「コードを書けない人によるデータ加工処理」に適切。

25

再生ボタン

Page 26: 京都大学鹿島研究室勉強会資料-配布用-

データクレンジング by UNIXタイトルやタグ内に区切り文字が入っていると、 pentaho が列を分けてしまう。列のズレを避けるために、 export 後にデータのクレンジングを行う必要が ある。

①SQL 内で区切り文字を xxyyzz のような「タイトルやタグに含まれなさそうな文字」に変換。②一度 sqlite から export して、 UNIX の sed コマンドにて” ,” を” _” に変換する。 (希望区切り文字を消す)③”xxyyzz” を sed で” ,” に変換。 (希望区切り文字に変換 )④もう一度 SQL に入れ直す。

区切り文字を Sqlite3上で xxyyzzへ変換 Sed コマンドによる置換

26

Page 27: 京都大学鹿島研究室勉強会資料-配布用-

【自習】 UNIX によるテキストファイル加工UNIX によるデータ加工の良さは、①速い②カンタン③安い(タダ)。Awk の 1liner でいろんな加工を解決するヒトは、現場で超重宝します。

http://orangain.hatenablog.com/entry/20100916/1284631280

テキスト加工のイメージ学習

・ cat :縦結合・ paste/join :横結合・ head :行頭 x 行だけ抜く・ grep :条件による行抽出・ cut :列抽出・ sed :置換・ sort :並び変え、 uniq の前処理・ uniq :ユニーク化・ wc :行数を数える(答え併せ用 )・ nkf: エンコーディング ( 要インスト)・ awk :スクリプト言語

便利な UNIX コマンド一覧UNIX コマンドの基礎学習

27

自習用

Page 28: 京都大学鹿島研究室勉強会資料-配布用-

分析:アップロードの時間帯、曜日傾向は?やはり深夜が多く、休日は 12 時、 13 時からアップロードが増える。朝方のアップロードが一番少なく、 21 時~ 0 時が最もアップロードが多い。

28

曜日

時間帯

Page 29: 京都大学鹿島研究室勉強会資料-配布用-

簡易データビジュアリゼーション

29

分析用データ

データ収集

データ加工

分析用データ

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

盛り付け・飾り付け

Page 30: 京都大学鹿島研究室勉強会資料-配布用-

メッセージが決まると、「わかりやすい表現」が決まるビジュアリゼーションによって「わかりやすさ」を向上させるためには、そもそも「何をわかってほしいのか=メッセージ」を考える必要が ある。

30

曜日

時間帯

Page 31: 京都大学鹿島研究室勉強会資料-配布用-

わかって欲しいことの整理

31

時間と曜日のアップロード傾向を一目で理解してほしい。その際に下記ファクトが、ビジュアルで確認出来ることが条件となる。

【わかってほしいこと】

①深夜帯のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

Page 32: 京都大学鹿島研究室勉強会資料-配布用-

改善①要素を加える

32

色の濃淡を付けることで、濃いところが多く、薄いところが少ないとわかる。でも、これはまだ「直観的な理解」を促すに至らない。

Page 33: 京都大学鹿島研究室勉強会資料-配布用-

改善②要素を抜く

33

「深夜が多い」「休日は昼からアップロードが増える」「朝方が少ない」これらの事実を一番わかりやすく示すために、要素をどんどん減らし、複雑さを排除。

Page 34: 京都大学鹿島研究室勉強会資料-配布用-

わかりやすさを兎に角突き詰める

34

色を変えたり、粒度を変えたりしながら、わかってほしいことと見比べる。

多少

【わかってほしいこと】

①夜のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

Page 35: 京都大学鹿島研究室勉強会資料-配布用-

アウトプットから、アクションを導き出す

35

ここ最近は分析担当に「エグゼキューション」も任されることが多い。

【アウトプット】

①深夜帯のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

⇒深夜帯のアップロードは朝方の x倍である。

【アクション】

アップロード量をモデル化し、サーバー許 容 量等を予測。違法動画等の監視員の時間帯別最適配置数を予測

Page 36: 京都大学鹿島研究室勉強会資料-配布用-

36

目的に応じて、データの見せ方を変える

左脳的なビジュアライゼーション

わかりやすい示唆に富む

“意思決定”を導くデータをメッセージに加工する余計な部分を切り捨てる

キレイカッコいい

“感動”を導くデータに潜むストーリーを掘り出すデータの持つ表現力を最大化する

右脳的なビジュアライゼーション

Page 37: 京都大学鹿島研究室勉強会資料-配布用-

ダッシュボードデザイン

37

分析用データ

データ収集

データ加工

分析用データ

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

Page 38: 京都大学鹿島研究室勉強会資料-配布用-

【ツール紹介】 Tableau とは?

38

Page 39: 京都大学鹿島研究室勉強会資料-配布用-

【ツール紹介】 Excel に代わる分析プラットフォーム

39

Page 40: 京都大学鹿島研究室勉強会資料-配布用-

ダッシュボード構築 ( 再生数 10,000以上の動画のみ )実際に、データを少し絞り込んで、ダッシュボードを構築してみました。

本日のまとめ俯瞰ダッシュボード 本日のまとめ分布ダッシュボード

カテゴリ毎の動画特性を俯瞰各カテゴリのトレンド、コメント、マイリスト等の反応

人気動画ランキング

動画特性に加えて、更に詳細な属性を分析KW を含む動画の分布、ニコニコカテゴリによる属性分

析アップロード時間、流行し始めた時間

40

Page 41: 京都大学鹿島研究室勉強会資料-配布用-

俯瞰ダッシュボードの説明

カテゴリ毎の動画数シェア ランキング

41

時系列推移

フィルタリング状況

動画の分数分布

Page 42: 京都大学鹿島研究室勉強会資料-配布用-

キーワードダッシュボードの説明

42

分析設定入力

任意軸での散布図

動画カテゴリの内訳

動画の盛り上がったタイミング

動画がアッ

プロー

ドされた時間帯

Page 43: 京都大学鹿島研究室勉強会資料-配布用-

【自習用】ダッシュボードの作り方を学ぶ際の教材

書籍による学習 普段の情報収集Occam’s Razor by Avinash Kaushikhttp://www.kaushik.net/avinash/The information Labhttp://www.theinformationlab.co.uk/The Datographerhttp://datographer.blogspot.jp/サイエンスメディアな日々、インフォグラフィックな日々http://scivis.hateblo.jp/

ノウハウ例: Stephen Few on Data Visualization: 8 Core Principles

1. シンプルなダッシュボードを作ろう。 19個以上の要素はいらない。2. センセーショナルな”比較”を入れよう。詳細なんて覚えられない。3. よりデータにアクセスしやすい環境を提供しよう4. ただ、見ること、それだけで何かが発見出来るようにしよう5. 多様性が確認出来るような包括的なものを作ろう6. 何が起きたかよりも何故起きたかを考えよう7. 懐疑的になって、色んな質問を繰り返そう8. データを様々な場所にシェアしよう

43

自習用

Page 44: 京都大学鹿島研究室勉強会資料-配布用-

【参考】ダッシュボードに関する過去の議論

参考【第 38 回 Tokyo webmining 資料 LT20140726 用】http://www.slideshare.net/koichirokondo/tokyo-webmining20140726

44

自習用

誰に見せるか?どんなアクションを促すかが極めて重要。

Page 45: 京都大学鹿島研究室勉強会資料-配布用-

モデル化・解析・機械学習

45

分析用データ

データ収集

データ加工

分析用データ

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

Page 46: 京都大学鹿島研究室勉強会資料-配布用-

摩耗分析:動画アップロード後、どれ位がホットなの?再生数 / アップロード経過日数により、日あたりの再生数をプロット。アップされた動画への依存は強いが、初速に対し、 2 日目~ 4 日目で 6割、1週間経つと 4割程度の再生数に落ち込むことがわかる。

経過日数

※ 正確にアップロード経過日数の再生数を記録しているわけではなく、  ある時点でのアップロードから 3 日経過した動画の平均値を出している。

46

Page 47: 京都大学鹿島研究室勉強会資料-配布用-

【参考】ニーズに「ぴったり」のデータが存在しない時本来、摩耗分析を行うには、日別の各動画の再生数、コメント数等のデータが欲しい。だが、今回のように「ぴったり」のデータはなかなか存在しない。その際は「厳密には異なる」ことを意識しつつ、代わりに使えるデータがないか検証する。

47

動画タイトル 日付 再生数AAAAAAA 2014/ 9/ 20 8,241AAAAAAA 2014/ 9/ 21 6,125AAAAAAA 2014/ 9/ 22 5,391AAAAAAA 2014/ 9/ 23 531AAAAAAA 2014/ 9/ 24 4,399AAAAAAA 2014/ 9/ 25 3,123AAAAAAA 2014/ 9/ 26 4,574BBBBBBB 2014/ 9/ 14 3,715BBBBBBB 2014/ 9/ 15 2,717BBBBBBB 2014/ 9/ 16 8,460BBBBBBB 2014/ 9/ 17 2,454BBBBBBB 2014/ 9/ 18 1,982BBBBBBB 2014/ 9/ 19 2,092BBBBBBB 2014/ 9/ 20 7,444BBBBBBB 2014/ 9/ 21 3,663BBBBBBB 2014/ 9/ 22 4,246BBBBBBB 2014/ 9/ 23 5,155BBBBBBB 2014/ 9/ 24 9,400BBBBBBB 2014/ 9/ 25 9,163BBBBBBB 2014/ 9/ 26 1,855

本当に欲しいデータ 実際にあるデータ

動画タイトル アップロード日付 再生数 経過期間AAAAAAA 2014/ 8/ 20 9,642 42BBBBBBBB 2014/ 7/ 11 1,252 82CCCCCCCC 2014/ 6/ 1 3,532 122DDDDDDDD 2014/ 5/ 22 1,576 132EEEEEEEEEE 2014/ 5/ 12 7,681 142DF 2014/ 2/ 1 9,555 242asdjhgtagaqg 2013/ 10/ 24 3,804 342sgajghjahgah 2013/ 11/ 13 5,270 322gdahdjkgahlgal 2013/ 12/ 3 3,669 302ajsghjasdhgaklg 2013/ 8/ 25 1,437 402sghajhjehahg 2013/ 7/ 16 7,166 442aghajhgahjkerga 2013/ 6/ 6 8,006 482egahjghaehgajkl 2013/ 7/ 27 8,983 431gajseghjahjlghaj 2013/ 9/ 16 557 380gnasjgjhdfakh@ 2013/ 11/ 6 9,941 329nlghakjhiarh; 2013/ 12/ 27 1,282 278algjoiwheghal 2012/ 11/ 18 4,090 682gnalkgh;aoeugp 2011/ 10/ 11 2,327 1,086gnklanhgheoha 2012/ 8/ 30 1,341 762gnklao;ho;gweh 2013/ 7/ 20 5,367 438

アップロードからの経過日数を疑似的に摩耗期間と捉えられないだろうか?

Page 48: 京都大学鹿島研究室勉強会資料-配布用-

Excel の回帰で単純なモデル化を行ってみるモデル式は 415.55×経過日数 ^*-0.666 、 R^2=0.9161Rで分析する場合に更に精度の高いモデルを作れるのか。

0 200 400 600 800 1000 1200 1400 16000

100

200

300

400

500

600

700

800

f(x) = 415.549468026469 x^-0.665668523216655R² = 0.916063011903028

view_countPower (view_count)

48

Page 49: 京都大学鹿島研究室勉強会資料-配布用-

【教材】理論学習のお勧め書籍

固いが、基本については一番しっかり書いてある。

いや、使ってみて決めるわというヒトに。知識俯瞰にも有効。

データサイエンスを一番よく俯瞰している。ここから各専門書へ。

久保さんが神。最小二乗法⇒尤度推定⇒階層ベイズの説明の流れは神です。

49

自習用

Page 50: 京都大学鹿島研究室勉強会資料-配布用-

【教材】 R のお勧め書籍

R の学習をしながら統計の勉強も出来るおトクな一冊

様々なデータセットを使って実際に勉強できる。米系データセットが多いので、分析結果にピンとこないものも。

会話形式で進むわかりやすい入門書。取り敢えずR で色々な分析回したい人にはうってつけの書籍。

50

自習用

Page 51: 京都大学鹿島研究室勉強会資料-配布用-

Levernberg-Marquardt 法による非線形回帰 (1)

Nls.lm関数を使って減衰系のモデルを求めてみる。モデル式は下記の通り。nls (非線形回帰)の関数は初期値を求めてくるので、局所解等から初期値を設定。コードは Github にあげておきます。

モデル式: view_count=a+b*date^c⇒ パラメータ a,b,c を推定

参考:「でたぁっ 感動と失敗の備忘録」    佐藤さんのブログ http://deta.hateblo.jp/entry/2014/05/08/052916

> source('~/Desktop/R/decrease_model.R')It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525

51

R^2=0.9849772> 0.9161 (Excel)

Page 52: 京都大学鹿島研究室勉強会資料-配布用-

0 5 10 15 20 25 30 350.0%

20.0%

40.0%

60.0%

80.0%

100.0%

120.0%

view_countpredictionRprediction_xls

Levernberg-Marquardt 法による非線形回帰 (1)エクセル回帰よりも R の方が精緻に最初の 10 日間の動きを表現出来ている。モデルでは、 2 日目で初速再生数の 6割、 1週間で 25% 、 1ヵ月で 8.5% に摩耗する。

アップロードからの経過日数

初速に対する摩耗率

1日あたりの再生数摩耗状況

52

Page 53: 京都大学鹿島研究室勉強会資料-配布用-

パラメーター数を一つ増やしたことによるペナルティ当てはまりはよくなるものの、パラメーター数も 2 つから 3 つへと増えている。モデルを精緻に評価するために、モデルの複雑さと当てはまりの両方を考慮したAIC(赤池情報規準:大きくなるほど悪いモデル)でモデルを選択する。

53

Y = a + b*x^c モデル      AIC : 2401.326Y = b*x^c モデル        AIC : 2431.819

当てはまりの良さ パラメーター数によるペナルティ

Page 54: 京都大学鹿島研究室勉強会資料-配布用-

「役立つ」アウトプットにするために「アクション」を入れる②

54

【アウトプットから得られる知見】

2 日で初速の 6割、 1週間で 25% に再生数は落ちる。その後、 1 カ月で 8.5% に落ちる

【アクション】

もしも動画に誘導枠を貼るなら、 1 カ月経ってからの方が良い。

【さらなる深掘り分析】

カテゴリ別に摩耗の「しやすい」「しにくい」の傾向はないか?

Page 55: 京都大学鹿島研究室勉強会資料-配布用-

55

機械学習によるアウトプット

SVM

Random ForestDecision Tree

Bagging

Clustering

Deep Learning

Linear Regression

ERM algorithm

Multi Dimensional Scaling

Neural NetworksAssociation Analysis

Bayesian Network

Boosting

手法の名前は山ほど聞くけれど、どうやって正しくそれを使うのか?

Page 56: 京都大学鹿島研究室勉強会資料-配布用-

56

機械学習 / 統計解析における価値創出

シンプルなアウトプット

超複雑なインプットデータ(可視化しても謎)

機械学習 / 統計解析(情報の単純化 / 法則化)

今後を予測できるモデル式

よい /悪いパターン

何らかの相性 / 法則

Page 57: 京都大学鹿島研究室勉強会資料-配布用-

57

機械学習が普及した背景

Input/Storage

Modeling/Speed Execution

データの拡充 マシン性能の 向上 施策出口の拡充

IoT 、センサーデータの増加

ストレージ単価の減少

データ処理の高速化

ライブラリ / オープン化

One to One マーケティング

Operating Automation

Page 58: 京都大学鹿島研究室勉強会資料-配布用-

58

コモディティ化する機械学習

計算量でこれまでの匠の技を全てカバーしていく世界観

超高単価 &難解な「専門家の趣味」から、「汎用技術」へと進化している

破壊的アルゴリズム パッケージング化

決定木→ Random Forest のパラダイム

クラウドサービス、ストレージなど他サービスへの統合、合わせ売り

Amazon Machine Learning

【引用】 AWS ブログ http://aws.typepad.com/aws_japan/2015/04/amazon-machine-learning.html

Page 59: 京都大学鹿島研究室勉強会資料-配布用-

59

データがあるから機械学習、ではなく解決したい課題を解く。

欲しいアウトプットの想定

解決したい課題

機械学習 / 統計解析

設計されたインプットデータ

あるべき姿

よくわからないままの機械学習

何かしらのビッグデータ(笑 )

(汚い、バイアスあり)

解決されない課題

さらにわからないアウトプット

よくある姿

Page 60: 京都大学鹿島研究室勉強会資料-配布用-

データ・サイエンティスト キャリア論

60

Page 61: 京都大学鹿島研究室勉強会資料-配布用-

学生時代の専攻:技術経営(MOT)

61

研究テーマ:「テクノロジーの進展が、経営行動に与える影響の定量化」同期は、コンサルとか、商社、代理店などクライアントワークをする人が多い。

Page 62: 京都大学鹿島研究室勉強会資料-配布用-

データサイエンティストって?

62

人材需要がこれから爆発的に伸びるのに対し、供給が追い付かない、21世紀、最もセクシー(おいしい)職業だと言われています。

Page 63: 京都大学鹿島研究室勉強会資料-配布用-

デジタルメディアの成長=マーケティングデータの拡大

63

特にデジタルはローコスト、リアルタイムでデータが集まる世界

どのサイトに訪れている

どんな呟きをしているか

Amazon で何を買ったか

どの広告に反応したか

性別・年代お得意様?初めて?

どのサイトによく行くの

Page 64: 京都大学鹿島研究室勉強会資料-配布用-

コミュニケーションにおける活用例

64

データに基づいてインサイトを推定し、コミュニケーションを設計する

車種検討期 購入検討期

①価格訴求

②オプション訴求

買い替え検討期

③アフターサービス訴求

買い替えは〇○○で!今だけキャンペーン中!

for 家族持ち

for独身

for アウトドア

≪ターゲットを見つける≫

車を買って何年目か例:車購入後 8 年目

≪相手の好みに合わせる≫他に見ているサイトは?例:アウトドアサイト

閲覧履歴

≪最後の一押し≫年収・オプション履歴例:第三者データ

 顧客データ

Page 65: 京都大学鹿島研究室勉強会資料-配布用-

広告界の「呪い」の解消

65

Page 66: 京都大学鹿島研究室勉強会資料-配布用-

成長に事欠かない環境

66

・線形代数学や微積分の基礎知識があり、論文も一通り読める・ AWS 等のクラウドサービスをコントロールできる・ SQL, UNIX 等でデータのクレンジングや整形ができる・ Python, R, SAS, SPSS などで統計解析、機械学習を回せる・ Tableau 等のBIツールでダッシュボードの構築が出来る・メッセージが明確なプレゼンテーションが可 能で ある・解析、広告配信ツールのエグゼキューションが出来る・制作チームに対し、クリエーティブ開発 /指示が出来る・様々なベンダーに対し、リーダーシップを取れる・アドテクノロジーに精通し、適切なロードマップが描ける

私が会社に入って身に着けたスキル

Page 67: 京都大学鹿島研究室勉強会資料-配布用-

67

代理店のデータサイエンティスト=データから宝を探す

好奇心

論理的思考

粘り強さ

Page 68: 京都大学鹿島研究室勉強会資料-配布用-

68

ご清聴ありがとうございました。

おわり

Page 69: 京都大学鹿島研究室勉強会資料-配布用-

APPENDIX

69

Page 70: 京都大学鹿島研究室勉強会資料-配布用-

【参考】 JSON 形式について [JavaScript Object Notation]JSON (ジェイソン、 JavaScript Object Notation )は軽量なデータ記述言語の 1 つである。様々なソフトウェアやプログラミング言語間におけるデータの受け渡しに使えるよう設計されている。 (wikipedia)⇒今や WEB上でデータベース化されている情報の多くが json 形式を取っている

⇒ネスト構造も可能⇒そのままでは RDBMS に入らない

http://thinkit.co.jp/article/70/1/

70

Page 71: 京都大学鹿島研究室勉強会資料-配布用-

【参考】 Dashboard構築前に考えるべきコト

ビジュアライズ対象データ 処理 & 分析

・スケーラビリティ・リアルタイム性 (更新頻度)・クレンジング有無

・分析インフラ・集計インフラ・ DB 、データマート化?

ビジュアライズプロジェクト運用における検討ポイント

ビジュアライズプロジェクト開始における検討ポイント・誰が何を確認するためのビジュアライズなのか? ( ビジュアライズ大方針 )

- 目的 (Purpose) は何か?- 閲覧者、意思決定者 (Target) は誰か?⇒ 例:外部要因・内部要因から、明日の売上を予測するダッシュボード?

           お客様の属性別に購買行動を可視化するためのダッシュボード?・いつ、どこで、どのように確認するのか? ( ビジュアライズのディティール )

-どのデバイス (where) で確認するのか?⇒スマホ? PC ?スクリーン?-どのくらいの頻度 (when) で確認するのか?⇒毎日?週次?月次?-どのようなオケージョン (How) で確認するのか?⇒会議?朝の電車?

デザイン

・ツール・デバイス・インタラクションの増減

組織共有

・オンライン・アプリケーション・メール・紙

選択オプショ

評価ポイン

・属性データ・トランザクションデータ・ウェブログ等

・速度・高度分析の有無・デザインツールとの連携

・見やすさ / わかりやすさ・包括性・情報量とメッセージング・深掘りの可否・アクション誘引

・アベイラビリティ・意思決定者のリテラシー

71

Page 72: 京都大学鹿島研究室勉強会資料-配布用-

【参考】近似値分析:ジャンル別の動画摩耗分析動画摩耗分析を動画ジャンル別に分析すると、政治やアニメといった「生放送」要素のあるものはかなり摩耗率が高い。比べて、ゲームや御三家、音楽等は繰り返し見られるため、摩耗率は低い。ただし、カテゴリ別に分けると、個々の動画の成績が影響してしまい、正確性に欠ける可能 性が高い。

経過日数

摩耗率少ない

摩耗率少ない

摩耗率高い

摩耗率超高い

摩耗率高い

摩耗率普通

摩耗率普通

摩耗率少ない

摩耗率少ない

摩耗率少ない

72

Page 73: 京都大学鹿島研究室勉強会資料-配布用-

ダッシュボードって?

【ダッシュボードの定義】1.A dashboard is a visual display( ディスプレイ上のビジュアル ) of2.the most important information needed to achieve one or more objectives(目標を達成するための最も大切な情報を集約している) that has been3.consolidated on a single computer screen (一つのスクリーンで見ることが出来る) so it can be4.monitored at a glance( 一目で確認が出来る )

73

Page 74: 京都大学鹿島研究室勉強会資料-配布用-

【参考】為替推 移 ダッシュボード任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。

対象期間の設定

対象通貨の設定

74

Page 75: 京都大学鹿島研究室勉強会資料-配布用-

【参考】為替推 移 ダッシュボード任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。

対象期間の設定

対象通貨の設定

75

Page 76: 京都大学鹿島研究室勉強会資料-配布用-

俯瞰ダッシュボードの改善(Before)色が少ない文字が多い、文字の説明がいい加減、文字割れしている、回帰線いらない

76

Page 77: 京都大学鹿島研究室勉強会資料-配布用-

俯瞰ダッシュボードの改善(After)何がどこにあるのかわかる、タイトルが見やすい、色もわかりやすい。

77

Page 78: 京都大学鹿島研究室勉強会資料-配布用-

分布ダッシュボードの改善(Before)色を使い過ぎ、動画の分類の定義がわからない、時間分布と動画分類で同じ色が使われる数字がほとんど隠れている、百分率某チャートが多すぎる、散布図 の○が汚い

78

Page 79: 京都大学鹿島研究室勉強会資料-配布用-

分布ダッシュボードの改善(After)

79

散布図 はカテゴリの絞り方に依存するものの、書かれている項目はシンプルでわかりやすい。