データサイエンスを支える基盤とそのテクノロジー@webdbフォーラム2015...

59
データサイエンスを支える基盤と そのテクノロジー ヤフー株式会社 データ&サイエンスソリューション統括本部 データインフラ本部 開発1部 部長 小林 直哉

Upload: yahoo

Post on 16-Apr-2017

1.252 views

Category:

Technology


1 download

TRANSCRIPT

Page 1: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

データサイエンスを支える基盤と そのテクノロジー

ヤフー株式会社 データ&サイエンスソリューション統括本部

データインフラ本部 開発1部 部長 小林 直哉

Page 2: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 3: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 4: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Page 5: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Page 6: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
Page 7: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

データ で

Page 8: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

79%

Yahoo! JAPAN利用率79%

ニールセン2014年 日本のインターネットサービス利用者数ランキングを発表~ Nielsen NetView 家庭および職場のPCからの利用

インターネット利用者総数5200万人のうち、 79%の皆様がヤフーを利用

Page 9: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

2億7000万以上

アプリ累計ダウンロード数

“Yahoo! JAPAN”、“天気”、“防災速報”,”乗換案内”、 “カーナビ”など、ランキング1位獲得アプリも多数

Page 10: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

事業領域

マーケティング ソリューション事業 3,042億円

69.4%

コンシューマ事業 1,020億円

23.2%

%

その他 323億円

7.4%

2014年度通期および第4四半期決算より

Page 11: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

18期連続増収増益

18

15 16

17

サービス開始以来、18期連続で増収増益を達成 2014年度の売上高は4284億円、営業利益は1972億円

2014年度通期および第4四半期決算より

Page 12: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 13: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

ヤフーのビッグデータ?

Page 14: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

サービス数

メディア、コマース、エンターテインメント、コミュニケーション、金融・決済など、幅広い分野でサービスを展開

100以上

Page 15: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

100以上のデータバラエティ

検索キーワード、ビュー/クリック、コンテンツ、購買情報、ツイートなど、多様なデータを活用可能

100以上

Page 16: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

膨大なデータボリューム

月間649億ページビュー 1日8,300万ユニークブラウザ

649億PV

Page 17: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

約50,000アクセス

in 1sec

Page 18: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

Variety

Volume

Velocity

Page 19: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

ヤフーはビッグデータカンパニー

Variety

Volume

Velocity

Page 20: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

Yahoo! JAPANはインターネット複合企業

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

Page 21: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

日本市場No.1のサービスを保有している

Page 22: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

Yahoo! JAPAN IDで連結されている

100以上のサービス・ビジネスデータと連結

Page 23: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

ヤフーは多数のビッグデータを抱えた マルチビッグデータカンパニー

Page 24: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 25: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

あなたへのおすすめ

Page 26: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

検索キーワード入力補助

言葉の一部を入力すると、

残りのワードをサジェストする

Page 27: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

おすすめ商品をレコメンド

Page 28: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

検索結果の最適化

Page 29: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告表示の最適化

Page 30: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

自動画像クロッピング

画像処理で人物の顔を

自動的にクロッピングする

適用前 適用後

Page 31: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 32: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

データ分析基盤とそのテクノロジー

① データパイプライン環境

② データ処理環境

Page 33: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

基盤:データパイプライン環境

多種多様な大量のデータを収集できる

収集データサイズ

約125TB/日

独自パイプライン システム

Page 34: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

基盤:データ処理環境

多種多様な大量のデータを格納し処理できる

6,000台の処理環境

(最大クラスタは3,000台)

独自パイプライン システム

Page 35: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

基盤:データ分析基盤の活用

多種多様な大量のデータを活用できる

広告配信 ターゲティング

アドホック

予測モデル

独自パイプライン システム

Page 36: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

多種多様な大量のデータを収集できる

データパイプライン環境がある

多種多様な大量のデータを格納し処理できる

データ分析環境がある

データ分析基盤とそのテクノロジー

Page 37: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 38: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

Page 39: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

Page 40: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:デモグラフィック推定概要

デモグラフィック推定で対象を増やす

男性には男性向けの広告

女性には女性向けの広告

ログインのみ ログイン+推定

Page 41: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:デモグラフィック推定概要

行動履歴から性別を推定する

乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ)

Page 42: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:デモグラフィック推定概要

推定結果から広告を配信する

乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ)

女性向け広告を配信

推定

Page 43: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:デモグラフィック推定概要

収集データを分析基盤で学習し推定する

検索ログ アクセスログ (URL・ドメイン) 等

広告配信サーバ

機械学習

推定結果

Page 44: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

Page 45: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:クリック予測概要

データを収集する

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

女性向けカメラの広告

女性向けゲームの広告

女性向け旅行の広告

広告 入稿

Page 46: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:クリック予測概要

クリック予測結果から最適な広告を配信する

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

クリック 予測

女性向け カメラの広告を配信

女性向けカメラの広告

女性向けゲームの広告

女性向け旅行の広告

広告 入稿

Page 47: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

広告最適化:クリック予測概要

分析基盤で学習したクリック予測結果に基づき配信する

広告配信ログ 広告クリックログ 配信広告タイトル 広告配信ページクロールデータ

広告配信サーバ

データ結合&整形

クリックした(100%)

クリックされない (サンプリング)

機械学習

数百GBのメモリを積んだ モンスターマシンで学習

モデル

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

Page 48: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

Page 49: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

大量のデータを扱える スマホアプリ・位置情報・IoT・オフラインデータ

高速に処理できる 長期間・組み合わせ・DeepLearning(画像・音声解析)

高効率である サーバ・ネットワーク・場所・電力・運用

新しい取り組みをすぐに試せる 新しいデータ・新しいOSS・新しいアルゴリズム

進化:データ分析環境で大事なこと

Page 50: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

進化:課題は進化のスピード

データと処理量は指数関数的に増加 CPU・メモリ・HDD・ネットワークの進化では間に合わない

新しいデータ分析技術の開発が活発化 独自技術の開発では間に合わない

進化を加速させる必要がある

Page 51: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

進化:基盤の進化を加速させる

クローズドからオープンへ

試行錯誤を高速に繰り返す

Page 52: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

と 技術提携

進化:基盤の進化を加速させる

OSS共同研究開発への投資

Page 53: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

多種多様なデータを収集する技術(構築) クローズドな独自パイプラインからオープンなKafkaへ

• OSS開発サイクルによる早い機能追加

• オープンなインタフェースによる高い接続性と拡張性

進化:大量のデータを扱える技術の開発

HDFS Erasure Code Storage データ保存効率を向上させる技術(開発) 誤り訂正符号による高い冗長性と保存効率の向上

• 信頼性が向上(2-冗長 → 3-冗長) • 保存効率が向上(元データの3倍 → 1.5倍)

Page 54: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

LLAP - long-lived execution in Hive

多様なデータを高速に処理する技術(検証) GPUクラスタによりさらに高速にデータを処理

シングルGPU(既利用)からマルチGPU・マルチGPUサーバへ

• 画像・音声データ等の高コストデータの処理

• 機械学習

• Deep Learning

データ処理効率を向上させる技術(開発) HiveクエリをFragmentに分けて常駐プロセスで処理

• 起動時間の短縮 • データのキャッシュ • 最適化効果の向上

進化:高速に処理できる技術の開発

Page 55: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

進化:高効率な技術の導入

効率を追求したハードウェア技術(導入) オープンなハードウェアによる高効率な処理環境

OCP(Open Compute Project)

• サーバ費用の削減

• 消費電力の削減

• 設置スペースの削減

• 現地作業時間の削減

• データ移行コストの削減

Page 56: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

リサーチ環境(設計) 本番のデータで新しい取り組みをすぐに試せる環境

進化:新しい取り組みを試せる環境の提供

本番環境

リサーチ環境

効果をすぐに確認できる 問題を事前に把握できる

10% クラスタ規模 10% データ送信 100% ジョブ投入

新しいデータ 最新のバージョン 新しいOSS 新しいアルゴリズム

等の導入が早まる(はず)

最新のバージョンテスト 新しい改善の投入 新しい取り組みの投入

本番環境は安定運用が最優先

Page 57: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

マルチビッグデータがある

ビジネスにデータサイエンスを活用している

データサイエンスを支えるデータ分析基盤がある

データ分析基盤は進化している

チャレンジできる環境がある

まとめ

Page 58: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

データ で

Page 59: データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015

ご清聴ありがとうございました