ニコニコデータセット...

37
ニコニコデータセット 分析環境作ってみた 13727日土曜日

Upload: shibao-kouichiro

Post on 24-May-2015

1.789 views

Category:

Entertainment & Humor


5 download

DESCRIPTION

ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会 2013/07/27  @ドワンゴ

TRANSCRIPT

Page 1: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

ニコニコデータセット分析環境作ってみた

13年7月27日土曜日

Page 2: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

自己紹介芝尾幸一郎 @shibacow

ソフトウェアエンジニアデータアナリスト趣味でランキングサイト作ってます。

http://nico-ran.jp/

13年7月27日土曜日

Page 3: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

今日のアジェンダデータセット解析環境の作り方もっと楽にする方法データ分析をもっと楽しく宣伝

13年7月27日土曜日

Page 4: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

データ分析環境Amazon - Hadoop環境

Hiveで分析対話的に分析できる環境を作る。

hive> SELECT smid,count(*) as cnt FROM nicodata.comment_data_sampling100 WHERE comment_string LIKE "%wwwwww%" GROUP BY smid ORDER BY cnt DESC limit 10;

13年7月27日土曜日

Page 5: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

コメント情報加工コメント情報にsmid追加

{"date":1175712661,"no":2,"vpos":3208,"comment":"\u30d0\u30fc\u30ed\u30fc\u30fbu30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb\u30fb","command":""} smid追加{"vpos":3208,"no":2,"command":"","filename":"comment_src\/0011\/sm110003.dat","video_id":"sm110003","comment":"バーロー・・ ・・・・・・・・・・・・・・・・・・・・","date":1175712661}

GitHubで公開https://github.com/shibacow/niconico_dataset_add_smid

13年7月27日土曜日

Page 6: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

amazon EMRを使うAmazon EC2を利用した簡単Hadoop環境

従量課金で使った分だけお金を払う。

13年7月27日土曜日

Page 7: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

データセットの準備

S3データ整形 HadoopFS

Hive取り込み

Jsonデータ取り出し

データ分析

13年7月27日土曜日

Page 8: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

サンプリング分析はなるだけサンプリングで行うCPUと時間の節約正しい判断に必要な最少十分なデータ

hive> insert overwrite table videoinfo_sampling1 select * from videoinfo where cast(substr(smid,3) as int) % 100 = 0;

13年7月27日土曜日

Page 9: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

あまりに複雑今までの内容はあまりに複雑なので、ちょっとずるをします。

13年7月27日土曜日

Page 10: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

(内容をまとめた)夏コミ出します夏コミ原稿書きました今までしゃべった内容がまとまってます。88888の多い動画は!? ニコニコ動画のデータを分析してみよう新刊 「ななかInside PRESS vol.3」8/12 月曜日(3日目) 東ぺ-15a「第7開発セクション」

13年7月27日土曜日

Page 11: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

改めて考えてみる皆がやりたいのは分析環境「構築」ではな

く「分析」そのもの     ____

   /      \ ( ;;;;(

  /  _ノ  ヽ__\) ;;;;)

/    (─)  (─ /;;/|       (__人__) l;;,´ 構築メンドくせ…

/      ∩ ノ)━・'/(  \ / _ノ´.|  |

.\  "  /__|  |

  \ /___ /

13年7月27日土曜日

Page 12: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

閃いたWebで出来ればいいんじゃね

        |    \  __  /    _ (m) _       |ミ|     /  `´  \     ____   /⌒  ⌒\  /( ●)  (●)\/::::::⌒(__人__)⌒::::: \|     |r┬-|     |/     `ー'´      ∩ノ ⊃( \             /_ノ.\ “  ____ノ  /  \_ ____  /

13年7月27日土曜日

Page 13: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

13年7月27日土曜日

Page 14: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

ニコニコデータセット分析環境作ってみた(Webに)

13年7月27日土曜日

Page 15: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

これは何ニコニコ動画データセットをweb経由で分析出来るWebアプリケーション

13年7月27日土曜日

Page 16: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

DEMOwwwを多く含む動画を探してみよう

8888コメントはいつくらいからどのくらい使われるようになったか?

13年7月27日土曜日

Page 17: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

wwwwを多く含む動画wwwwwを含むコメントを抜き出し、smid単位で集約して、その数を数え、多い順に並べよ

SELECT smid,count(*) as cnt FROM nicodata.comment_data_sampling100 WHERE comment_string LIKE "%wwwwww%" GROUP BY smid ORDER BY cnt DESC LIMIT 100

13年7月27日土曜日

Page 18: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

結果sm6102000!6298sm12846600! 5032sm13005200! 3592sm12297700! 3376sm1773000!3203sm11756100! 3161sm179700!3028sm9440300!2984sm16683900! 2745sm18365300! 2738sm5123700!2690

クソゲーオブザイヤー2008

13年7月27日土曜日

Page 19: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

88888の発生8888はいつくらいから使われ始めたか?88888を含むコメントを抽出し、コメント投稿月で集約後カウントせよ。

SELECT substr(from_unixtime(`date`),1,7) as ymd,count(*) FROM  nicodata.comment_data_sampling100 WHERE `comment_string` LIKE "%88888888%" GROUP BY substr(from_unixtime(`date`),1,7) ORDER BY ymd

13年7月27日土曜日

Page 20: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

8888コメント数推移

13年7月27日土曜日

Page 21: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

なぜ作ったし

webで誰でも手軽に解析を始められる他の人と分析結果を共有できる。とにかくやって見て解析の面白さに気づける

13年7月27日土曜日

Page 22: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

仕組み

Shib by tagomoris

Hive

Hadoop(AmazonEMR)

Amazon EC2

Web

Nodejs

13年7月27日土曜日

Page 23: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

バックエンド

m1.medeum m1.largem1.large

m1.largem1.large

マスター

スレーブ x 4

13年7月27日土曜日

Page 24: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

休日だけ運用利用者が多そうな土日だけ運用。毎週土日スポットインスタンス利用で月5000円くらい。何とかなる金額。

13年7月27日土曜日

Page 25: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

カンパ募集とはいえ、良いサーバに変えたり、土日以外も運用すればお金がかかる。と言うわけでカンパ希望

13年7月27日土曜日

Page 26: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

不具合実験プロジェクトなのでまだ不具合たくさん日本語が通らない(致命的)。SQLにスキーマ名(niconicodata)が必要

13年7月27日土曜日

Page 27: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

URL

http://nicodata.info/サーバ台数少ないので優しく使ってサンプリングテーブルを使って

13年7月27日土曜日

Page 28: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

協力者募集 デザイナー

Nodejs詳しい人。

面白がって使ってくれる人。

13年7月27日土曜日

Page 29: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

文化的な話

13年7月27日土曜日

Page 30: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

Make文化隆盛何故Make(個人のDIY)文化が流行ったか?二つの要因Arduino(手軽な開発環境) インターネット (知識の共有)

13年7月27日土曜日

Page 31: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

今までの大規模データ研究者や企業内の専門家中心野生の研究者の二つの壁面白いデータは、企業か大学の中大規模データ分析に必要なCPUパワーを個人では用意出来ない。

13年7月27日土曜日

Page 32: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

(野生)大規模データの隆盛野生の人がオープンデータに興味を持つために、面白いデータ(ニコニコ動画データセット)安価で手軽なCPUパワー(AWS)の両輪が必要

13年7月27日土曜日

Page 33: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

ドワンゴへの要望・謝意データを定期的にアップデートしてほしい。

太っ腹なデータ公開ありがとうございました。

13年7月27日土曜日

Page 34: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

宣伝夏コミ原稿書きました88888の多い動画は!? ニコニコ動画のデータを分析してみよう新刊 「ななかInside PRESS vol.3」8/12 月曜日(3日目) 東ぺ-15a「第7開発セクション」

13年7月27日土曜日

Page 35: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

宣伝2岐阜県大垣市でデータ分析のレクチャーします。

8/30-9/1

参加費無料

http://www.softopia.or.jp/new-service/datavisual/

13年7月27日土曜日

Page 36: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

宣伝3データ分析研究会 Googleグループやってます。

https://groups.google.com/forum/#!forum/niconico-data-analyser

13年7月27日土曜日

Page 37: ニコニコデータセット 分析環境作ってみた-ニコニコデータデータ分析研究会

宣伝4最後に、ニコニコデータビューアーのURLをもう一度

http://nicodata.info/ (土曜日曜のみ開けます)

@shibacowでした

13年7月27日土曜日