「data infrastructure at scale 」#yjdsw4
TRANSCRIPT
![Page 1: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/1.jpg)
Data Infrastructure at Scale
角田 直行
ヤフー株式会社データ&サイエンスソリューション統括本部
![Page 2: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/2.jpg)
角田 直行(かくだ なおゆき)2005〜 ヤフー株式会社に中途入社
2012〜 データソリューション領域に従事
地図、路線、検索などのサービスや
検索エンジン、検索PFなどの
バックエンド開発を経験
自己紹介
現在、テクニカルディレクターとして統括本部全体の技術統括を務める
![Page 3: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/3.jpg)
Agenda
• Yahoo! JAPAN の規模
• 支えるデータインフラ
• これからの挑戦
![Page 4: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/4.jpg)
>3000万MAU
>5億 DUB
>100 services
1.8億商品数
82%of PC users
74%of smartphone users
No.1App publisher
![Page 5: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/5.jpg)
Logging Data pipeline Processing
![Page 6: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/6.jpg)
S3 Compatible
Object Storage
Yahoo! ID
Keyed Database
Data Store for Apps
![Page 7: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/7.jpg)
Big Data
15000
125
nodes
TB/day
>7000 nodes
>100 PB
ロギング対象ホスト:
回収データ量:
Hadoop:
総データキャパシティ:
![Page 8: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/8.jpg)
課題
Data Power
(Exponential growth)
![Page 9: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/9.jpg)
レガシーからモダンへ
Legacy Pipeline
![Page 10: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/10.jpg)
No.1企業とのタッグ
![Page 11: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/11.jpg)
オープンソースへの貢献
※ ajisakaa.blogspot.jp/2016/01/the-activities-of-apache-hadoop.html
※
![Page 12: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/12.jpg)
オープンハードウェア
![Page 13: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/13.jpg)
海外データセンター
※写真はイメージです
![Page 14: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/14.jpg)
まとめ
• サービスやデータの規模は日本最大級
• 指数関数的に増加する課題に対し、
ソフト&ハード両面でアプローチ
• オープンかつ最先端の技術を積極的に取り入れ、
データの価値を最大化させていく
![Page 15: 「Data Infrastructure at Scale 」#yjdsw4](https://reader034.vdocuments.pub/reader034/viewer/2022051404/58eeb9f91a28abff578b4593/html5/thumbnails/15.jpg)