イケてる分析基盤をつくる
TRANSCRIPT
イケてる分析基盤をつくる@gepuro
動機
アクセス状況をリアルタイムに収集加工して、サイトに反映させたい。
2/11
現在の分析基盤
3/11
blog
google_analytics
web_beacon
article
local_file
text_mining
sqlite
完成予定
netflixとほぼ同じ・・・
4/11
blog
web_beacon
article
kafka
spark_streaming
S3
druid
kafka_manager
panoramix
flask
API
kafka, kafka manager
kafka
kafka manager
·
2011年にLinkedINが公開した分散メッセージングシステム
2M write / sec
-
-
·
kafkaの管理ツール
ブラウザぽちぽち
-
-
5/11
druid
ストリーミングデータに対応したデータベース
Fast
Scalable * ペタバイトまでスケールする
Built for Analytics
·
·
列指向-
·
1M events / second でデータの挿入が可能-
·
SQLが書ける-
Sql4D (yahoo incが開発してる)-
6/11
panoramix
ダッシュボードのフレームワーク
構成
python2.7でしか動かない(python3では一部動く)
まだベータ版かな
·
flask
druid
-
-
·
·
7/11
webビーコン
サーバ側
サイト側
·
https://gist.github.com/anonymous/d02c6438813add79a387-
·
https://gist.github.com/anonymous/7c038e7b4e690c51409d-
8/11
ミドルウェアの構築
コードを残すためにdockerを利用
それぞれでは動作確認したけど、接続が出来ていない。
お手製のflask環境
お手製のpanoramix環境
https://hub.docker.com/_/memcached/
https://hub.docker.com/r/sheepkiller/kafka-manager/
https://github.com/laclefyoshi/druid_test/tree/master/druid
https://github.com/mistercrunch/panoramix
https://hub.docker.com/r/sequenceiq/spark/
·
·
·
·
·
·
·
9/11
dockerネットワーク
自分のブログで実験をするため、さくらVPS 1Gプランで動かしたい
sparkがメモリを食うので、スワップ多発
kafkaもメモリを食う。。。
Sparkを別のホスト(自宅サーバ)で利用する。
http://weave.works/
·
·
·
·
個人ユースで、AWSは高いです・・・orz-
·
異なるホストで動かすdockerを接続させる
デモ:https://www.youtube.com/watch?v=kihQCCT1ykE
これで、Sparkを別ホストで動かせそう
-
-
-
10/11
次回?
各ミドルウェアを接続せさる。
順番
druidとpanoramix1.
druidとkafka2.
kafkaとSpark Streaming3.
flaskとdruid4.
その他5.
11/11