マルチビッグデータの活用を支える dwhの作り方
TRANSCRIPT
![Page 1: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/1.jpg)
マルチビッグデータの活用を支えるDWHの作り方
ヤフー株式会社データプラットフォーム本部
櫻井 史彦
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
![Page 2: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/2.jpg)
自己紹介
データプラットフォーム本部DWHチーム櫻井 史彦(さくらい ふみひこ)
2008年にヤフーに入社 8年目DWHの構築とデータ整備を担当
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 1
![Page 3: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/3.jpg)
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
2
![Page 4: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/4.jpg)
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
3
![Page 5: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/5.jpg)
ヤフーのビッグデータ?
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 4
![Page 6: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/6.jpg)
5http://www.statista.com/statistics/277483/market-value-of-the-largest-internet-companies-worldwide/
0
50
100
150
200
250
300
350
400
bilion U.S. dollars
15th Largest Internet Company in market capas of May 2015
![Page 7: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/7.jpg)
6
Extensive Reach to a Wide Range of Users
80 %
80% of all Japanese Internet users use Yahoo! JAPAN
Nielsen NetView June 2015 : Data by Brands. Access from home and work using PCs (excl. internet applications)
![Page 8: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/8.jpg)
強力なサービス
Media
US
Search Video Answer Mail
JP
US
JP
Membership C2C Payment C2C EC B2C EC Local
Search Knowledge searchNews
YAHUOKU!Premium Wallet Loco
![Page 9: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/9.jpg)
膨大なデータボリューム
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 8
68 Billion PV
PC + Tablet
33.6B PV
Smart Device
34.5B PV
![Page 10: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/10.jpg)
ヤフーは多数のビッグデータを抱えたマルチビッグデータカンパニー
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 9
![Page 11: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/11.jpg)
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 10
![Page 12: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/12.jpg)
全体像
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 11
NoSQLObject
StorageDWH
Hadoop
RDB
![Page 13: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/13.jpg)
全体像
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 12
NoSQLObject
StorageDWH
Hadoop
RDB
6000 node
150 PB
800DBs
300,000Query/day
1500nodes
2000nodes
![Page 14: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/14.jpg)
Phase1 2002-2008
Phase2 2009-2015
Phase3 2016-
主要サービスのデータを格納限られた利用者のみで使用
より多くの種類かつ大量なデータを格納多くの利用者に開放
Teradata以外のデータソースも統合する“logical DWH”構想
ヤフーのDWH
Teradata 5255Teradata 5255+5350
Teradata 5500Teradata 5500+5600Teradata 6690
Teradata 6690 & 2800Unified Data Architecture
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 13
![Page 15: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/15.jpg)
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 14
![Page 16: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/16.jpg)
SQLだけでなく様々な分析クエリーを実行したい
構造化、非構造化データをつなげて分析したい
複数データソースにまたがって分析したい
全部、一箇所で…。
利用者のニーズ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 15
![Page 17: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/17.jpg)
Logic
al D
WH
Teradata
構造化、非構造化データをつなげて分析できる
様々な分析クエリを実行で
きる
複数データソースにまたがって分析できる
Teradata
現在 1年後
今後のDWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 16
![Page 18: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/18.jpg)
Logic
al D
WH
Teradata
QueryGrid, PrestoInformatica
HadoopRDB
NoSQLS3 Storage
Presto
Teradata
現在 1年後
具体的なコンポーネント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 17
![Page 19: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/19.jpg)
Logical DWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.18
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
![Page 20: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/20.jpg)
Logical DWH
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved.19
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
![Page 21: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/21.jpg)
Prestoへの期待
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 20
![Page 22: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/22.jpg)
Prestoとは
Facebook発のOSSプロジェクト
メモリベースの高速なクエリーエンジン
様々なデータソースにつながる技術
Teradata, Hive, MySQL, Cassandra, S3, etc.
※Teradata社も開発に積極参加Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 21
![Page 23: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/23.jpg)
RDB NoSQL Hadoop DWHPresto
従来のクエリーのエントリーポイント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 22
![Page 24: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/24.jpg)
RDB NoSQL Hadoop DWHPresto
新しいクエリーのエントリーポイント
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 23
![Page 25: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/25.jpg)
QueryGridとPrestoの関係
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 24Copyright (C) 2016 Teradata Japan, Ltd. All Rights Reserved.
![Page 26: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/26.jpg)
どんな用途が考えられるか?
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 25
![Page 27: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/27.jpg)
CustomerAttributes
Shopping Membership
Cassandra
ExecutiveDashboard
PersonalizationAnalysisReportsTargeting list
BrowsingWeb/click
Settlement
Teradata
・・・
Presto
Use Case – deliver personalization data
INSERT tableB@CassandraSELECT user_id FROM tableAWHERE segment_code = 1;
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 26
![Page 28: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/28.jpg)
S3-compatible Storage Teradata
Service B
Service A
small data
small data
Presto
REST
REST
SELECT
SELECT
INSERT
INSERT
Use Case – small batches from storage
INSERT tableASELECT * FROM filename@S3storageWHERE log_date = date - 1;
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 27
![Page 29: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/29.jpg)
Yahoo!スケールでの課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 28
![Page 30: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/30.jpg)
課題
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 29
TBクラスのデータJOINを可能にする
push-down機能の強化
メモリーに乗り切らないデータの処理改善
ワークロード管理
重たいクエリーも、軽いクエリーもバランスよく
![Page 31: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/31.jpg)
複数データソースに対して統一的なアクセスなど、
次世代データ分析基盤に必要な機能の共同開発
テラデータの最新技術とヤフーが持つ多様なユース
ケース及びビッグデータを用いた先行的な共同検証
UDA Product Advisory Councilに加盟。ビッグ
データ関連の課題を討議しフィードバック
Teradata Labsと協力
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 30
![Page 32: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/32.jpg)
1. Yahoo! JAPANのビッグデータ
2. データプラットフォームの全体像
3. DWHの将来像
4. 最後に
アジェンダ
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 31
![Page 33: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/33.jpg)
Data Sources RDB RDB
Informatica
Exadata Hadoop
Hadoop RDB
QueryGridTDCH
Teradata RDBNoSQL
Low concurrency, large volumebatch queries
High concurrency, small volumeinteractive queries and small batches
Presto
S3-compatible Storage
DWHの将来像
32
![Page 34: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/34.jpg)
求む DWHエンジニア!!!
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 33
![Page 35: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/35.jpg)
大規模DWHの構築。膨大なデータ量&クエリ数と
格闘して経験値UP!
新しいコンセプトのDWHを作り上げるチャンス
経験できること
http://hr.yahoo.co.jp/job-info/career/0157/
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 34
ヤフー プラットフォーム開発エンジニア 検索
![Page 36: マルチビッグデータの活用を支える DWHの作り方](https://reader034.vdocuments.pub/reader034/viewer/2022050614/58ed8a331a28aba66c8b45f3/html5/thumbnails/36.jpg)
Copyright (C) 2016 Yahoo Japan Corporation. All Rights Reserved. 35