イケてる分析基盤をつくる

イケてる分析基盤をつくる@gepuro

動機

アクセス状況をリアルタイムに収集加工して、サイトに反映させたい。

2/11

現在の分析基盤

3/11

blog

google_analytics

web_beacon

article

local_file

text_mining

sqlite

完成予定

netflixとほぼ同じ・・・

4/11

blog

web_beacon

article

kafka

spark_streaming

S3

druid

twitter

kafka_manager

panoramix

flask

API

kafka, kafka manager

kafka

kafka manager

·

2011年にLinkedINが公開した分散メッセージングシステム

2M write / sec

-

-

·

kafkaの管理ツール

ブラウザぽちぽち

-

-

5/11

druid

ストリーミングデータに対応したデータベース

Fast

Scalable 　　* ペタバイトまでスケールする

Built for Analytics

·

·

列指向-

·

1M events / second でデータの挿入が可能-

·

SQLが書ける-

Sql4D (yahoo incが開発してる)-

6/11

panoramix

ダッシュボードのフレームワーク

構成

python2.7でしか動かない(python3では一部動く)

まだベータ版かな

·

flask

druid

-

-

·

·

7/11

webビーコン

サーバ側

サイト側

·

https://gist.github.com/anonymous/d02c6438813add79a387-

·

https://gist.github.com/anonymous/7c038e7b4e690c51409d-

8/11

ミドルウェアの構築

コードを残すためにdockerを利用

それぞれでは動作確認したけど、接続が出来ていない。

お手製のflask環境

お手製のpanoramix環境

https://hub.docker.com/_/memcached/

https://hub.docker.com/r/sheepkiller/kafka-manager/

https://github.com/laclefyoshi/druid_test/tree/master/druid

https://github.com/mistercrunch/panoramix

https://hub.docker.com/r/sequenceiq/spark/

·

·

·

·

·

·

·

9/11

dockerネットワーク

自分のブログで実験をするため、さくらVPS 1Gプランで動かしたい

sparkがメモリを食うので、スワップ多発

kafkaもメモリを食う。。。

Sparkを別のホスト(自宅サーバ)で利用する。

http://weave.works/

·

·

·

·

個人ユースで、AWSは高いです・・・orz-

·

異なるホストで動かすdockerを接続させる

デモ：https://www.youtube.com/watch?v=kihQCCT1ykE

これで、Sparkを別ホストで動かせそう

-

-

-

10/11

次回？

各ミドルウェアを接続せさる。

順番

druidとpanoramix1.

druidとkafka2.

kafkaとSpark Streaming3.

flaskとdruid4.

その他5.

11/11

イケてる分析基盤をつくる

Internet