京都大学鹿島研究室勉強会資料-配布用-

株式会社電通統合データ・ソリューションセンターデータサイエンティスト

近藤康一朗

京都大学鹿島研究室公開セミナー資料

データを価値化する解析プロセスの俯瞰と効率化

スピーカー紹介

近藤康一朗株式会社電通　統合データ・ソリューションセンターデータサイエンティスト

愛知出身、洛南高校→東大工学部→東大工学系研究科2010 年～ 2011 年

：電通入社、デジタル・ビジネス局配属　　　社のトップクライアントのデジタル施策 PDCA 、

　分析ツール開発・運用 (Ignition One) を担当。

2012 年　：社内試験によりクリエーティブ局配属　コピーライター・ CM プランナーを担当。　テレビ・ラジオ広告賞を複数受賞。

2013 年～：統合データ・ソリューションセンターに再配属チーフアナリストとして、広告コンサルティング DMP 導入・運用を推進。

データ分析サバイバル術60 分

＋分析家のキャリア論

30 分

本日のテーマ

最近注目を集めている「ビジュアライゼーション」「機械学習」は大量の情報を「人間が使いやすい形に圧縮する」技術。

近年のトレンド：ビッグデータの山から価値を創出する

複雑且つ多量のデータ

ビジュアライゼーション機械学習

情報量を圧縮し人間の認知しやすい形に落とす

情報量を圧縮しシンプルなパターン / 法則に落とす

一般的な分析の流れデータ分析の大きな流れを整理。要件定義～ビジュアライズまで 60 分で説明します。今日伝えたいことは、スキルではなく、”アウトプットの出し方”です。（※資料は公開するので、後でカタログ的に周辺領域を見直して頂くと学びも多いです）

要件定義データ収集クレンジング・加工集計・分析ビジュアライズ

・リサーチ・課題抽出・前提条件確認　　　　 - 時間　　　　 - 金額　　　　 - データ　　　　 - インフラ

・ダウンロード・ API・スクレイピング

・データ統合・修正・ RDBM 化

タスク

必要スキル・技能

・単純集計・クロス集計・統計解析・機械学習

・表化・グラフ化・ダッシュボード化

・コンサルティング・プロジェクトマネジメント・業界知見・ビジネス知見（会計、その他）

・クローリング

・ HTML/FTP 等のサーバーインフラ系知識

・データ加工のプログラミング

・データベース設計

・ SQL 系のデータベース

・ R 、 SAS 系の予測分析、機械学習系のプログラミング

・ PowerPoint でのプレゼン

・ Tableau 系のダッシュボードツール

時間 3 日～ 1週間25%

1 日～ 2 日10%

3 日～ 1週間25%

1 日～ 1週間20%

本日のケース今回は国立情報学研究所のダウンロードサービスにより株式会社ドワンゴから提供を受けた「ニコニコ動画コメント等データ」を使います。

要件定義データ収集クレンジング・加工集計・分析ビジュアライズ

・リサーチ・課題抽出・前提条件確認　　　　 - 時間　　　　 - 金額　　　　 - データ　　　　 - インフラ

・ダウンロード・ API・スクレイピング

・データ統合・修正・ RDBM 化

タスク

・分析設計・単純集計・クロス集計・統計解析・機械学習

・表化・グラフ化・ダッシュボード化・メッセージング

本日の内容

皆さんにわかりやすく楽しいデータ

” 分析例”を提供wget 一撃

json⇒SQLPython

UNIX による加工

SQL による集計とサンプリングPentaho 集計R による解析

Tableau で可視化ダッシュボード化

所要時間1 日 30 分 1 時間 1 日～ 3 日 4 時間

分析用データ

本日の分析フロー全体像

データ収集

データ加工

分析用データ

クレンジング・デー

タ圧縮

集計・単純分析

ビジュアリゼーション

モデル化・解析

ダッシュボード化

1. データ収集～分析用データの作成まで

分析用データ

データ収集

データ加工

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

下ごしらえ

今回の利用データについて

http://www.nii.ac.jp/cscenter/idr/nico/nico.html

国立情報学研究所が公開している「ニコニコ動画コメント等データ」を使います。

ニコニコ動画コメント等データ- 動画メタデータ

【理由】　・無料 / 使いやすい　・実サービスで、結果の解釈がしやすい・時系列、テキストマイニング等、　　あらゆるものをはめられる。　・大きさもそこそこ（ 12GB くらい）　・ブログ書いてます　　（ http://d.hatena.ne.jp/monnalisasmile/）

データ収集：スクレイピングwget で一撃必殺。 (-r オプションで、全てのリンク先を繰り返し download)

wget –r example.com 　≪格納先≫

参考 URL:http://girigiribauer.com/archives/925

【 wget コマンドをクローラーとして使う】

wget --recursive--level inf--no-clobber--random-wait--restrict-file-names=windows--convert-links--no-parent--adjust-extension

example.com

野生の解析屋さんがいっぱい。Deep Learning はほぼ使わないです。Boosting の方がメジャー。

解析したい、でもデータがない・・・！

Kaggle は企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社。情報科学、統計学、経済学、数学などの分野から全世界で約 95,000 人のデータサイエンティストが登録しており [3] 、同社はアメリカ航空宇宙局、ウィキペディア、デロイトトウシュトーマツ、オールステート保険等の組織と提携している。 (wikipedia)

自習用

wget 後、データサイズと形式の確認動画メタデータ (video) を利用。データサイズ 12.87GB 、約 1900個の dat ファイル。

生データ確認： dat ファイル内の形式dat ファイルの中身は json 形式。Python の組み込み型の一つである辞書 ( ディクショナリ ) と同じ形式。じゃ、 Python で処理して、扱いやすい SQL 形式に変えてしまおう。

Python→SQL で RDB 化Dictionary処理を Python コードで書いてみる。 Tag の扱いに注意。 (_ でくっつけた )SQLite にデータを格納。自分の扱いやすいデータ形式への加工をしてみます。

SQLite の設定.show で SQLite の設定を確認します。デフォルトで separator(区切り文字 ) が” |” になっていたり、癖があるので注意。

【各設定の説明】Headers: カラム名の出力有無⇒ONOutput:画面出力 or ファイル出力⇒.output ファイル名で、ファイル出力separator:区切り文字の説明⇒.separator , でカンマ区切り

旧設定

設定変更

新設定

【自習教材】初心者向け SQL文の勉強①基礎を学ぶ②やりたいことから逆算で学ぶ③体系的な学習の順でやってみる。

http://www.sql-reference.com/

②やりたいことから逆算

③体系的に学習

http://www.1keydata.com/jp/sql/

①クエリの読み方 /書き方

自習用

【自習教材】中上級者向け SQL文の勉強ＳＱＬは、プログラミング言語として、かなり特殊。「書き方」のお作法を間違えると、ものすごく効率の悪い（時間のかかる）クエリになる。

【知っておいた方が良い概念】1.SELECT で列選択、 WHERE で行選択2.INDEX の張り方、容量とのトレードオフ　 WHERE での条件指定にも依存。3.場合分けは WHERE ではなく CASE WHEN4.HAVING は、可視性以外の用途なし。　 FROM 内に SELECT を入れるのと同じ。5.INNER JOIN を活用しまくる。　横連結＋行フィルターの同時施行。

【中級者以上におすすめの書籍】・ SQL パズル・達人に学ぶ SQL徹底指南書

自習用

SQLite にてデータ構造を確認

【各カラムの説明】video_id ：ビデオの ID番号Title ：ビデオのタイトルview_counter ：再生数mylist_counter ：マイリスト数Length ：動画の長さ（秒）comment_counter ：コメント数upload_time ：アップロードした時間Tags ：タグ（複数の場合、” _” で接続。

データ構造の確認 .schema

実際のデータ select * from table limit 10

.schema で流し込んだデータのデータ構造を確認します。

SQL_Lite にて単純集計動画数 & 再生数＆コメント数＆マイリスト数を集計。約 830万動画の平均、最大値を下記に集約。単純集計で肌感を掴んでおくのは意外と大事。（異常値に対する感性が出てくる）

再生数コメント数マイリスト数

コメント率マイリスト率

平均 4174.7 297.7 67.76 7.1% 1.6%

最大 15,454,295 517,528 65,535 （※）（※）

Select avg(view_count),avg(xxxx), ・・・ from yyyy;

分析設計と分析用データ再作成

分析用データ

データ収集

データ加工

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

献立立案・料理

どんな分析をしたら面白い (意味がある ) データなのか考えてみる

どの時間帯に動画が多くアップロードされているの？

どのカテゴリの動画がお気に入り率が高いの？

最近動画アップロード数は増えてる？減ってるの？

動画時間と再生数、コメント数との相関はあるの？

一番動画が見られるのはアップロードしてからどれ位なの？

各カテゴリの動画数はどれだけ？

再生数トップ 5 の動画は？

ボーカロイドやっぱり流行ってるの？どの時間帯に一番再生されているの？

分析の切り口＝アイディア

分析の基本は「まとめる / 分ける」「新指標を作る」「比較する」。この 3 つをヒントに、意思決定につながりやすいアウトプットの切り口を練る。

①まとめる / 分ける-ＭＥＣＥ、ペア思考、フレームワーク- ターゲットと「それ以外」A = B + B’

②新指標を作る-因数分解をしてみる（率の開発）-四則演算をしてみるC = B/A

③比較する- 時系列での比較 (変化 )- 属性毎での対比

【自習】アイディアを出しやすい分析フレームを盗むコンサルタント等の書籍から「自分が使いやすい」分析フレームをくみ上げる。参考書籍：意思決定のための「分析の技術」　後正武著

分析の体系

自習用

時系列の分析用データを作る (Pentaho)動画毎の集計データを日 × 時間帯別のデータへ集計 & 加工

加工前は動画毎のデータ加工後は日付× 時間帯別に集計されたデータに

Pentaho 等のデータ加工ツールのメリット一度設定を行えば、再生ボタンを押すだけで、それ以降の処理が全て自動化される。「定期的に発生する同じ作業」や「コードを書けない人によるデータ加工処理」に適切。

再生ボタン

データクレンジング by UNIXタイトルやタグ内に区切り文字が入っていると、 pentaho が列を分けてしまう。列のズレを避けるために、 export 後にデータのクレンジングを行う必要がある。

①SQL 内で区切り文字を xxyyzz のような「タイトルやタグに含まれなさそうな文字」に変換。②一度 sqlite から export して、 UNIX の sed コマンドにて” ,” を” _” に変換する。　（希望区切り文字を消す）③”xxyyzz” を sed で” ,” に変換。 (希望区切り文字に変換 )④もう一度 SQL に入れ直す。

区切り文字を Sqlite3上で xxyyzzへ変換 Sed コマンドによる置換

【自習】 UNIX によるテキストファイル加工UNIX によるデータ加工の良さは、①速い②カンタン③安い（タダ）。Awk の 1liner でいろんな加工を解決するヒトは、現場で超重宝します。

http://orangain.hatenablog.com/entry/20100916/1284631280

テキスト加工のイメージ学習

・ cat ：縦結合・ paste/join ：横結合・ head ：行頭 x 行だけ抜く・ grep ：条件による行抽出・ cut ：列抽出・ sed ：置換・ sort ：並び変え、 uniq の前処理・ uniq ：ユニーク化・ wc ：行数を数える（答え併せ用 )・ nkf: エンコーディング ( 要インスト）・ awk ：スクリプト言語

便利な UNIX コマンド一覧UNIX コマンドの基礎学習

自習用

分析：アップロードの時間帯、曜日傾向は？やはり深夜が多く、休日は 12 時、 13 時からアップロードが増える。朝方のアップロードが一番少なく、 21 時～ 0 時が最もアップロードが多い。

曜日

時間帯

簡易データビジュアリゼーション

分析用データ

データ収集

データ加工

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

盛り付け・飾り付け

メッセージが決まると、「わかりやすい表現」が決まるビジュアリゼーションによって「わかりやすさ」を向上させるためには、そもそも「何をわかってほしいのか＝メッセージ」を考える必要がある。

曜日

時間帯

わかって欲しいことの整理

時間と曜日のアップロード傾向を一目で理解してほしい。その際に下記ファクトが、ビジュアルで確認出来ることが条件となる。

【わかってほしいこと】

①深夜帯のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

改善①要素を加える

色の濃淡を付けることで、濃いところが多く、薄いところが少ないとわかる。でも、これはまだ「直観的な理解」を促すに至らない。

改善②要素を抜く

「深夜が多い」「休日は昼からアップロードが増える」「朝方が少ない」これらの事実を一番わかりやすく示すために、要素をどんどん減らし、複雑さを排除。

わかりやすさを兎に角突き詰める

色を変えたり、粒度を変えたりしながら、わかってほしいことと見比べる。

多少

【わかってほしいこと】

①夜のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

アウトプットから、アクションを導き出す

ここ最近は分析担当に「エグゼキューション」も任されることが多い。

【アウトプット】

①深夜帯のアップロードが多い②平日に比べ、休日が多い③日曜は、昼からアップロードが増え始める④朝方のアップロードは少ない

⇒深夜帯のアップロードは朝方の x倍である。

【アクション】

アップロード量をモデル化し、サーバー許容量等を予測。違法動画等の監視員の時間帯別最適配置数を予測

目的に応じて、データの見せ方を変える

左脳的なビジュアライゼーション

わかりやすい示唆に富む

“意思決定”を導くデータをメッセージに加工する余計な部分を切り捨てる

キレイカッコいい

“感動”を導くデータに潜むストーリーを掘り出すデータの持つ表現力を最大化する

右脳的なビジュアライゼーション

ダッシュボードデザイン

分析用データ

データ収集

データ加工

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

【ツール紹介】 Tableau とは？

【ツール紹介】 Excel に代わる分析プラットフォーム

ダッシュボード構築 ( 再生数 10,000以上の動画のみ )実際に、データを少し絞り込んで、ダッシュボードを構築してみました。

本日のまとめ俯瞰ダッシュボード本日のまとめ分布ダッシュボード

カテゴリ毎の動画特性を俯瞰各カテゴリのトレンド、コメント、マイリスト等の反応

人気動画ランキング

動画特性に加えて、更に詳細な属性を分析KW を含む動画の分布、ニコニコカテゴリによる属性分

析アップロード時間、流行し始めた時間

俯瞰ダッシュボードの説明

カテゴリ毎の動画数シェアランキング

時系列推移

フィルタリング状況

動画の分数分布

キーワードダッシュボードの説明

分析設定入力

任意軸での散布図

動画カテゴリの内訳

動画の盛り上がったタイミング

動画がアッ

プロー

ドされた時間帯

【自習用】ダッシュボードの作り方を学ぶ際の教材

書籍による学習普段の情報収集Occam’s Razor by Avinash Kaushikhttp://www.kaushik.net/avinash/The information Labhttp://www.theinformationlab.co.uk/The Datographerhttp://datographer.blogspot.jp/サイエンスメディアな日々、インフォグラフィックな日々http://scivis.hateblo.jp/

ノウハウ例： Stephen Few on Data Visualization: 8 Core Principles

1. シンプルなダッシュボードを作ろう。 19個以上の要素はいらない。2. センセーショナルな”比較”を入れよう。詳細なんて覚えられない。3. よりデータにアクセスしやすい環境を提供しよう4. ただ、見ること、それだけで何かが発見出来るようにしよう5. 多様性が確認出来るような包括的なものを作ろう6. 何が起きたかよりも何故起きたかを考えよう7. 懐疑的になって、色んな質問を繰り返そう8. データを様々な場所にシェアしよう

自習用

【参考】ダッシュボードに関する過去の議論

参考【第 38 回 Tokyo webmining 資料 LT20140726 用】http://www.slideshare.net/koichirokondo/tokyo-webmining20140726

自習用

誰に見せるか？どんなアクションを促すかが極めて重要。

モデル化・解析・機械学習

分析用データ

データ収集

データ加工

分析用データ

クレ

ンジ

ング

・デ

ータ

圧縮

摩耗分析：動画アップロード後、どれ位がホットなの？再生数 / アップロード経過日数により、日あたりの再生数をプロット。アップされた動画への依存は強いが、初速に対し、 2 日目～ 4 日目で 6割、1週間経つと 4割程度の再生数に落ち込むことがわかる。

経過日数

※ 正確にアップロード経過日数の再生数を記録しているわけではなく、　　ある時点でのアップロードから 3 日経過した動画の平均値を出している。

【参考】ニーズに「ぴったり」のデータが存在しない時本来、摩耗分析を行うには、日別の各動画の再生数、コメント数等のデータが欲しい。だが、今回のように「ぴったり」のデータはなかなか存在しない。その際は「厳密には異なる」ことを意識しつつ、代わりに使えるデータがないか検証する。

動画タイトル日付再生数ＡＡＡＡＡＡＡ 2014/ 9/ 20 8,241ＡＡＡＡＡＡＡ 2014/ 9/ 21 6,125ＡＡＡＡＡＡＡ 2014/ 9/ 22 5,391ＡＡＡＡＡＡＡ 2014/ 9/ 23 531ＡＡＡＡＡＡＡ 2014/ 9/ 24 4,399ＡＡＡＡＡＡＡ 2014/ 9/ 25 3,123ＡＡＡＡＡＡＡ 2014/ 9/ 26 4,574ＢＢＢＢＢＢＢ 2014/ 9/ 14 3,715ＢＢＢＢＢＢＢ 2014/ 9/ 15 2,717ＢＢＢＢＢＢＢ 2014/ 9/ 16 8,460ＢＢＢＢＢＢＢ 2014/ 9/ 17 2,454ＢＢＢＢＢＢＢ 2014/ 9/ 18 1,982ＢＢＢＢＢＢＢ 2014/ 9/ 19 2,092ＢＢＢＢＢＢＢ 2014/ 9/ 20 7,444ＢＢＢＢＢＢＢ 2014/ 9/ 21 3,663ＢＢＢＢＢＢＢ 2014/ 9/ 22 4,246ＢＢＢＢＢＢＢ 2014/ 9/ 23 5,155ＢＢＢＢＢＢＢ 2014/ 9/ 24 9,400ＢＢＢＢＢＢＢ 2014/ 9/ 25 9,163ＢＢＢＢＢＢＢ 2014/ 9/ 26 1,855

本当に欲しいデータ実際にあるデータ

動画タイトルアップロード日付再生数経過期間ＡＡＡＡＡＡＡ 2014/ 8/ 20 9,642 42BBBBBBBB 2014/ 7/ 11 1,252 82CCCCCCCC 2014/ 6/ 1 3,532 122DDDDDDDD 2014/ 5/ 22 1,576 132EEEEEEEEEE 2014/ 5/ 12 7,681 142DF 2014/ 2/ 1 9,555 242asdjhgtagaqg 2013/ 10/ 24 3,804 342sgajghjahgah 2013/ 11/ 13 5,270 322gdahdjkgahlgal 2013/ 12/ 3 3,669 302ajsghjasdhgaklg 2013/ 8/ 25 1,437 402sghajhjehahg 2013/ 7/ 16 7,166 442aghajhgahjkerga 2013/ 6/ 6 8,006 482egahjghaehgajkl 2013/ 7/ 27 8,983 431gajseghjahjlghaj 2013/ 9/ 16 557 380gnasjgjhdfakh@ 2013/ 11/ 6 9,941 329nlghakjhiarh; 2013/ 12/ 27 1,282 278algjoiwheghal 2012/ 11/ 18 4,090 682gnalkgh;aoeugp 2011/ 10/ 11 2,327 1,086gnklanhgheoha 2012/ 8/ 30 1,341 762gnklao;ho;gweh 2013/ 7/ 20 5,367 438

アップロードからの経過日数を疑似的に摩耗期間と捉えられないだろうか？

Excel の回帰で単純なモデル化を行ってみるモデル式は 415.55×経過日数 ^*-0.666 、 R^2=0.9161Ｒで分析する場合に更に精度の高いモデルを作れるのか。

0 200 400 600 800 1000 1200 1400 16000

f(x) = 415.549468026469 x^-0.665668523216655R² = 0.916063011903028

view_countPower (view_count)

【教材】理論学習のお勧め書籍

固いが、基本については一番しっかり書いてある。

いや、使ってみて決めるわというヒトに。知識俯瞰にも有効。

データサイエンスを一番よく俯瞰している。ここから各専門書へ。

久保さんが神。最小二乗法⇒尤度推定⇒階層ベイズの説明の流れは神です。

自習用

【教材】 R のお勧め書籍

R の学習をしながら統計の勉強も出来るおトクな一冊

様々なデータセットを使って実際に勉強できる。米系データセットが多いので、分析結果にピンとこないものも。

会話形式で進むわかりやすい入門書。取り敢えずR で色々な分析回したい人にはうってつけの書籍。

自習用

Levernberg-Marquardt 法による非線形回帰 (1)

Nls.lm関数を使って減衰系のモデルを求めてみる。モデル式は下記の通り。nls （非線形回帰）の関数は初期値を求めてくるので、局所解等から初期値を設定。コードは Github にあげておきます。

モデル式： view_count=a+b*date^c⇒ パラメータ a,b,c を推定

参考：「でたぁっ感動と失敗の備忘録」　　　　佐藤さんのブログ http://deta.hateblo.jp/entry/2014/05/08/052916

> source('~/Desktop/R/decrease_model.R')It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525

R^2=0.9849772> 0.9161 (Excel)

0 5 10 15 20 25 30 350.0%

100.0%

120.0%

view_countpredictionRprediction_xls

Levernberg-Marquardt 法による非線形回帰 (1)エクセル回帰よりも R の方が精緻に最初の 10 日間の動きを表現出来ている。モデルでは、 2 日目で初速再生数の 6割、 1週間で 25% 、 1ヵ月で 8.5% に摩耗する。

アップロードからの経過日数

初速に対する摩耗率

１日あたりの再生数摩耗状況

パラメーター数を一つ増やしたことによるペナルティ当てはまりはよくなるものの、パラメーター数も 2 つから 3 つへと増えている。モデルを精緻に評価するために、モデルの複雑さと当てはまりの両方を考慮したAIC(赤池情報規準：大きくなるほど悪いモデル）でモデルを選択する。

Y = a + b*x^c モデル　　　　　 AIC ： 2401.326Y = b*x^c モデル　　　　　　　 AIC ： 2431.819

当てはまりの良さパラメーター数によるペナルティ

「役立つ」アウトプットにするために「アクション」を入れる②

【アウトプットから得られる知見】

2 日で初速の 6割、 1週間で 25% に再生数は落ちる。その後、 1 カ月で 8.5% に落ちる

【アクション】

もしも動画に誘導枠を貼るなら、 1 カ月経ってからの方が良い。

【さらなる深掘り分析】

カテゴリ別に摩耗の「しやすい」「しにくい」の傾向はないか？

機械学習によるアウトプット

Random ForestDecision Tree

Bagging

Clustering

Deep Learning

Linear Regression

ERM algorithm

Multi Dimensional Scaling

Neural NetworksAssociation Analysis

Bayesian Network

Boosting

手法の名前は山ほど聞くけれど、どうやって正しくそれを使うのか？

機械学習 / 統計解析における価値創出

シンプルなアウトプット

超複雑なインプットデータ（可視化しても謎）

機械学習 / 統計解析（情報の単純化 / 法則化）

今後を予測できるモデル式

よい /悪いパターン

何らかの相性 / 法則

機械学習が普及した背景

Input/Storage

Modeling/Speed Execution

データの拡充マシン性能の向上施策出口の拡充

IoT 、センサーデータの増加

ストレージ単価の減少

データ処理の高速化

ライブラリ / オープン化

One to One マーケティング

Operating Automation

コモディティ化する機械学習

計算量でこれまでの匠の技を全てカバーしていく世界観

超高単価 &難解な「専門家の趣味」から、「汎用技術」へと進化している

破壊的アルゴリズムパッケージング化

決定木→ Random Forest のパラダイム

クラウドサービス、ストレージなど他サービスへの統合、合わせ売り

Amazon Machine Learning

【引用】 AWS ブログ http://aws.typepad.com/aws_japan/2015/04/amazon-machine-learning.html

データがあるから機械学習、ではなく解決したい課題を解く。

欲しいアウトプットの想定

解決したい課題

機械学習 / 統計解析

設計されたインプットデータ

あるべき姿

よくわからないままの機械学習

何かしらのビッグデータ(笑 )

（汚い、バイアスあり）

解決されない課題

さらにわからないアウトプット

よくある姿

データ・サイエンティスト　キャリア論

学生時代の専攻：技術経営（ＭＯＴ）

研究テーマ：「テクノロジーの進展が、経営行動に与える影響の定量化」同期は、コンサルとか、商社、代理店などクライアントワークをする人が多い。

データサイエンティストって？

人材需要がこれから爆発的に伸びるのに対し、供給が追い付かない、21世紀、最もセクシー（おいしい）職業だと言われています。

デジタルメディアの成長＝マーケティングデータの拡大

特にデジタルはローコスト、リアルタイムでデータが集まる世界

どのサイトに訪れている

どんな呟きをしているか

Amazon で何を買ったか

どの広告に反応したか

性別・年代お得意様？初めて？

どのサイトによく行くの

コミュニケーションにおける活用例

データに基づいてインサイトを推定し、コミュニケーションを設計する

車種検討期購入検討期

①価格訴求

②オプション訴求

買い替え検討期

③アフターサービス訴求

買い替えは〇○○で！今だけキャンペーン中！

for 家族持ち

for独身

for アウトドア

≪ターゲットを見つける≫

車を買って何年目か例：車購入後 8 年目

≪相手の好みに合わせる≫他に見ているサイトは？例：アウトドアサイト

閲覧履歴

≪最後の一押し≫年収・オプション履歴例：第三者データ

　顧客データ

広告界の「呪い」の解消

成長に事欠かない環境

・線形代数学や微積分の基礎知識があり、論文も一通り読める・ AWS 等のクラウドサービスをコントロールできる・ SQL, UNIX 等でデータのクレンジングや整形ができる・ Python, R, SAS, SPSS などで統計解析、機械学習を回せる・ Tableau 等のＢＩツールでダッシュボードの構築が出来る・メッセージが明確なプレゼンテーションが可能である・解析、広告配信ツールのエグゼキューションが出来る・制作チームに対し、クリエーティブ開発 /指示が出来る・様々なベンダーに対し、リーダーシップを取れる・アドテクノロジーに精通し、適切なロードマップが描ける

私が会社に入って身に着けたスキル

代理店のデータサイエンティスト＝データから宝を探す

好奇心

論理的思考

粘り強さ

ご清聴ありがとうございました。

おわり

APPENDIX

【参考】 JSON 形式について [JavaScript Object Notation]JSON （ジェイソン、 JavaScript Object Notation ）は軽量なデータ記述言語の 1 つである。様々なソフトウェアやプログラミング言語間におけるデータの受け渡しに使えるよう設計されている。 (wikipedia)⇒今や WEB上でデータベース化されている情報の多くが json 形式を取っている

⇒ネスト構造も可能⇒そのままでは RDBMS に入らない

http://thinkit.co.jp/article/70/1/

【参考】 Dashboard構築前に考えるべきコト

ビジュアライズ対象データ処理 & 分析

・スケーラビリティ・リアルタイム性（更新頻度）・クレンジング有無

・分析インフラ・集計インフラ・ DB 、データマート化？

ビジュアライズプロジェクト運用における検討ポイント

ビジュアライズプロジェクト開始における検討ポイント・誰が何を確認するためのビジュアライズなのか？ ( ビジュアライズ大方針 )

- 目的 (Purpose) は何か？- 閲覧者、意思決定者 (Target) は誰か？⇒ 例：外部要因・内部要因から、明日の売上を予測するダッシュボード？

　　　　　　　　　　お客様の属性別に購買行動を可視化するためのダッシュボード？・いつ、どこで、どのように確認するのか？ ( ビジュアライズのディティール )

-どのデバイス (where) で確認するのか？⇒スマホ？ PC ？スクリーン？-どのくらいの頻度 (when) で確認するのか？⇒毎日？週次？月次？-どのようなオケージョン (How) で確認するのか？⇒会議？朝の電車？

デザイン

・ツール・デバイス・インタラクションの増減

組織共有

・オンライン・アプリケーション・メール・紙

選択オプショ

評価ポイン

・属性データ・トランザクションデータ・ウェブログ等

・速度・高度分析の有無・デザインツールとの連携

・見やすさ / わかりやすさ・包括性・情報量とメッセージング・深掘りの可否・アクション誘引

・アベイラビリティ・意思決定者のリテラシー

【参考】近似値分析：ジャンル別の動画摩耗分析動画摩耗分析を動画ジャンル別に分析すると、政治やアニメといった「生放送」要素のあるものはかなり摩耗率が高い。比べて、ゲームや御三家、音楽等は繰り返し見られるため、摩耗率は低い。ただし、カテゴリ別に分けると、個々の動画の成績が影響してしまい、正確性に欠ける可能性が高い。

経過日数

摩耗率少ない

摩耗率高い

摩耗率超高い

摩耗率高い

摩耗率普通

摩耗率少ない

ダッシュボードって？

【ダッシュボードの定義】1.A dashboard is a visual display( ディスプレイ上のビジュアル ) of2.the most important information needed to achieve one or more objectives（目標を達成するための最も大切な情報を集約している） that has been3.consolidated on a single computer screen （一つのスクリーンで見ることが出来る） so it can be4.monitored at a glance( 一目で確認が出来る )

【参考】為替推移ダッシュボード任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。

対象期間の設定

対象通貨の設定

【参考】為替推移ダッシュボード任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。

対象期間の設定

対象通貨の設定

俯瞰ダッシュボードの改善（Ｂｅｆｏｒｅ）色が少ない文字が多い、文字の説明がいい加減、文字割れしている、回帰線いらない

俯瞰ダッシュボードの改善（Ａｆｔｅｒ）何がどこにあるのかわかる、タイトルが見やすい、色もわかりやすい。

分布ダッシュボードの改善（Ｂｅｆｏｒｅ）色を使い過ぎ、動画の分類の定義がわからない、時間分布と動画分類で同じ色が使われる数字がほとんど隠れている、百分率某チャートが多すぎる、散布図の○が汚い

分布ダッシュボードの改善（Ａｆｔｅｒ）

散布図はカテゴリの絞り方に依存するものの、書かれている項目はシンプルでわかりやすい。

京都大学鹿島研究室勉強会資料-配布用-

Data & Analytics

鹿児島県...

鹿児島県社内中核人材勉強会 -...

「diameter勉強会 3」講義用スライド配布用...

布衫布肆布工坊創業計畫書

dynamodb ハンズオン (2012-06-30 jaws-ug 鹿児島...

鹿児島県内の自然放射性物質の分布...

僕が勉強をするモチベーションと勉強法

鹿駆動勉強会lt phpフレームワークkohana

osc2008 勉強会大集合 rails勉強会@東京

「ベータ分布の謎に迫る」第6回...

勉強会資料超高齢社会...

kintone award サイバーエージェント鹿倉様

nijiben ニジ勉

サイクル勉強会平成 24 年4 月16 - jaea ·...

第2回勉強会資料岩本(配布用)

jaws-ug鹿児島第1回勉強会 cloudpack紹介

158鹿 1993 フサイチミニヨン鹿 1996 kingmambo mr....

伊勢湾に分布する白子－野間断層及び鈴鹿沖断層の位置・形...

法華後頌 -...

鹿児島ユナイテッドfc...