可視化までのとある方法 #yjdsnight
TRANSCRIPT
2016年11月25日
ヤフー株式会社 三木 健司
可視化までのとある方法
自己紹介
名前•三木 健司(みつぎ けんじ)
好きな食べ物•からあげ
アジェンダ
• 可視化するまでの流れ• データ加工 OTEPONの説明• ダッシュボード dClipの説明• 手順• 実績• 今後
可視化の流れ
加工 表示データ
可視化の流れ
加工 表示データ
OTEPON
可視化の流れ
加工 表示データ
OTEPON dClip
可視化の流れ
加工 表示データ
OTEPON dClip
可視化の流れ
加工 表示データ
OTEPON dClip
データ加工ツール OTEPON
1. WebUI2. Hive使用3. 構文チェック4. 必要なUDFを自動で認識5. UDFは自動で更新6. 直ぐに結果を返す7. テンプレート機能8. 定常的に処理する9. 他システムへの連携10. マルチクラスター対応
データ加工ツール OTEPON
1. WebUI2. Hive使用3. 構文チェック
データ加工ツール OTEPON
4. 必要なUDFを自動で認識
5. UDFは自動で更新
ADD JAR hdfs:///user/mitsugi/udf.jar;
CREATE TEMPORARY FUNCTION func AS …;
SELECT func(name) FROM data_night;
データ加工ツール OTEPON
6. 直ぐに結果を返す
実行
確認
実行
確認
数時間 数秒
データ加工ツール OTEPON
7. テンプレート機能SELECT count(1) FROM data_night
WHERE vol = _NUM1_ ;
SELECT count(1) FROM data_night
WHERE vol = 4;
データ加工ツール OTEPON
8. 定常的に処理する
9. 他システムへの連携
10. マルチクラスター対応クラスタA
クラスタB
OTEPON
振り分け
可視化の流れ
加工 表示データ
OTEPON dClip
ダッシュボードツール dClip
1. 任意のデータを登録
2. システム連携したデータを表示
3. 折れ線、円グラフなどで表示
4. レイアウト変更が楽
dClip画面
手順
手順
1.クエリの作成
2.実行
3.登録
4.レポートの作成
1. クエリの作成
SELECT gender, count(1) FROM data_night WHERE vol = 4
GROUP BY gender;
2. 実行
待つだけ!
3. 登録
データ保存先を指定
/d&s/
data_night/
vol1
vol2
vol3
vol4 キー(ラベル)で識別
4. レポートの作成
4. レポートの作成
4. レポートの作成
4. レポートの作成
4. レポートの作成
4. レポートの作成
レポート画面
レポート画面
簡単
実績
データ量(圧縮済みで最大)
〜3.5TB/日
OTEPON処理数
約90,000/月
dClipレポート総数
約20,000
今後
データ量増
処理数増
待ち時間増
ユーザのイライラ増
どうするか?
技術チャレンジ増
ご清聴ありがとうございました