apache sparkでつぶやきビッグデータ クローンをつくってみた
TRANSCRIPT
1
秋葉原 IT戦略研究所http://akibalab.info/
野田純一
2015.8.8 京都OSC
Apache Spark でつぶやきビッグデータクローンをつくってみた
1. 自己紹介 野田純一
2
Github:
https://github.com/AKB428
Twitter:
https://twitter.com/n428dev
Qiita:
http://qiita.com/AKB428
Hatena:
http://akb428.hatenablog.com/
Junichi Noda Larry Wall
3
↓これが作りたい
2014 7月 22 日 NHK
Sparkについて
• HadoopのMapReduceとは別アプローチ (DAG)での並列分散集計処理を行う
• インメモリー処理• 2015年 6月 11 日に 1.4.0 がリリース。
https://spark.apache.org/releases/spark-release-1-4-0.html• 1.4.0で SparkRが追加 (R言語で Sparkを利用できる)• APIを利用できる言語は Scala, Java, Python
4
SparkR
5
• Twitterストリームからデータを取得する。• Twitter Streaming APIを使う。• 400の検索キーワードが指定可能。• Spark Streamingでリアルタイム集計を行う。
6
7
• 日本語文章を単語にわけて分解して集計• 日本語を分解するため形態素解析ライブラリ
kuromojiを使う。• アニメ作品など標準辞書にない単語はユーザー辞書 (CSV)を用意。
形態素解析ライブラリの必要性について
8
ユーザー辞書の必要性について
9
10
画面デモ(直近 5分を毎分集計)(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/5/
(F1) ラブライブ http://tv-anime.biz/5/
(F2) ラブライブ http://lovelive-net.com/5/
(F2) 秋葉原 http://akiba-net.com/5/
(F2)関東 TV 番組 http://telev.net/5/
F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計
11
12
画面デモ(直近 60分を毎分集計)(F1)2015年 3 期 TV アニメhttp://tv-anime.xyz/60/
(F1) ラブライブ http://tv-anime.biz/60/
(F2) ラブライブ http://lovelive-net.com/60/
(F2) 秋葉原 http://akiba-net.com/60/
(F2)関東 TV 番組 http://telev.net/60/
F1=ユーザー辞書に登録してある単語のみ集計F2=ユーザー辞書外の単語も集計
2015年 7月 22日7月 22 日ラブライブ 矢澤にこ誕生日
13
14
2015年7月22日
過去のキャプチャ 今期 (2015/夏期 )のアニメ
15
デモ:リコメンド Twitterボットhttps://twitter.com/Akihabaara_itso
https://twitter.com/AuctionMadoka
16
実際の売上
17
18
京都 OSC 用つぶやきビックデータ
検索ハッシュタグ「 #osckansai」
http://2045.tokyo/5/
http://2045.tokyo/60/
※URLの内容は 8/8当日のみ京都 OSC用になります
8/8 〜 12:00
19
8/8 12:24〜
20
8/8 13:20
21
8/8 15:10
22
8/8 15:20
23
8/8 15:40
24
8/8 16:10
25
26
女子大生好きおっさんしかいない・・・(呆れ)
似たような感じで IT系のイベントの当日にSNSの盛り上がりを視覚的に計測表示することが簡単にできます。
是非次回以降の OSCや他の ITイベント、オタク系イベントでイベント展示の液晶モニタなどに表示して有効活用してください。
勿論 OSSです。
27
Mikasaインストールについてインストールマニュアルhttps://gist.github.com/AKB428/c30bc6a979e05fa3a022• TwitterAPIと AmazonAPIのアカウントがあれば 1時間でセットアップ完了。
• AmazonAPIアカウントはリコメンドしない場合は不要。• TwitterAPIのアカウント取得も 10分程度で可能。Mikasa OL
https://github.com/AKB428/mikasa_ol
Mikasa RS
https://github.com/AKB428/mikasa_rs
28
Sparkについて〜最近の情勢• 2015年 6月 15 日 IBMが開発者と研究者を 3500人 Spark関
連プロジェクトに投入 http://japan.zdnet.com/article/35065964/• 2015 年 6月 15〜 17 日 Spark summit 2015 開催 (サンフランシスコ )
• NTTデータ社が定期的に勉強会を実施• 国内のサービス実例は少ない• 2大 Hadoop ディストリビューション CDHと HDPには Sparkが搭載
• Spark1.4からは UIでモニタリングも行えるようになった。http://qiita.com/AKB428/items/71900eecdf2350e1e45f
29
参考文献紹介 -1
「 Scala逆引きレシピ」• 他言語経験者で Scalaが初心者の方にお奨め、情報も新しく、 Playフレームワークや SBTの説明も豊富。
30
参考文献紹介 -2
「 Learning Spark」• Sparkのコーディングはこれを読めば理解可能。• 英語初心者でもかなり読みやすい本なのでお奨め。今年日本語化されるらしい。
31
32
ご清聴ありがとうございました