データサイエンスを支える基盤とそのテクノロジー@webdbフォーラム2015...

Post on 16-Apr-2017

1.252 Views

Category:

Technology

1 Downloads

Preview:

Click to see full reader

TRANSCRIPT

データサイエンスを支える基盤と そのテクノロジー

ヤフー株式会社 データ&サイエンスソリューション統括本部

データインフラ本部 開発1部 部長 小林 直哉

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

データ で

79%

Yahoo! JAPAN利用率79%

ニールセン2014年 日本のインターネットサービス利用者数ランキングを発表~ Nielsen NetView 家庭および職場のPCからの利用

インターネット利用者総数5200万人のうち、 79%の皆様がヤフーを利用

2億7000万以上

アプリ累計ダウンロード数

“Yahoo! JAPAN”、“天気”、“防災速報”,”乗換案内”、 “カーナビ”など、ランキング1位獲得アプリも多数

事業領域

マーケティング ソリューション事業 3,042億円

69.4%

コンシューマ事業 1,020億円

23.2%

%

その他 323億円

7.4%

2014年度通期および第4四半期決算より

18期連続増収増益

18

15 16

17

サービス開始以来、18期連続で増収増益を達成 2014年度の売上高は4284億円、営業利益は1972億円

2014年度通期および第4四半期決算より

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

ヤフーのビッグデータ?

サービス数

メディア、コマース、エンターテインメント、コミュニケーション、金融・決済など、幅広い分野でサービスを展開

100以上

100以上のデータバラエティ

検索キーワード、ビュー/クリック、コンテンツ、購買情報、ツイートなど、多様なデータを活用可能

100以上

膨大なデータボリューム

月間649億ページビュー 1日8,300万ユニークブラウザ

649億PV

約50,000アクセス

in 1sec

Variety

Volume

Velocity

ヤフーはビッグデータカンパニー

Variety

Volume

Velocity

Yahoo! JAPANはインターネット複合企業

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

日本市場No.1のサービスを保有している

Media

JP

US

Search C2C EC B2C EC

ニュース 検索

Answer

知恵袋

Yahoo! JAPAN IDで連結されている

100以上のサービス・ビジネスデータと連結

ヤフーは多数のビッグデータを抱えた マルチビッグデータカンパニー

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

あなたへのおすすめ

検索キーワード入力補助

言葉の一部を入力すると、

残りのワードをサジェストする

おすすめ商品をレコメンド

検索結果の最適化

広告表示の最適化

自動画像クロッピング

画像処理で人物の顔を

自動的にクロッピングする

適用前 適用後

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

データ分析基盤とそのテクノロジー

① データパイプライン環境

② データ処理環境

基盤:データパイプライン環境

多種多様な大量のデータを収集できる

収集データサイズ

約125TB/日

独自パイプライン システム

基盤:データ処理環境

多種多様な大量のデータを格納し処理できる

6,000台の処理環境

(最大クラスタは3,000台)

独自パイプライン システム

基盤:データ分析基盤の活用

多種多様な大量のデータを活用できる

広告配信 ターゲティング

アドホック

予測モデル

独自パイプライン システム

多種多様な大量のデータを収集できる

データパイプライン環境がある

多種多様な大量のデータを格納し処理できる

データ分析環境がある

データ分析基盤とそのテクノロジー

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

広告最適化:デモグラフィック推定概要

デモグラフィック推定で対象を増やす

男性には男性向けの広告

女性には女性向けの広告

ログインのみ ログイン+推定

広告最適化:デモグラフィック推定概要

行動履歴から性別を推定する

乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ)

広告最適化:デモグラフィック推定概要

推定結果から広告を配信する

乳液(検索キーワードログ) Yahoo! BEAUTY(アクセスログ)

女性向け広告を配信

推定

広告最適化:デモグラフィック推定概要

収集データを分析基盤で学習し推定する

検索ログ アクセスログ (URL・ドメイン) 等

広告配信サーバ

機械学習

推定結果

広告最適化における分析基盤利用の実例

① デモグラフィック推定

② クリック予測モデル作成

広告最適化:クリック予測概要

データを収集する

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

女性向けカメラの広告

女性向けゲームの広告

女性向け旅行の広告

広告 入稿

広告最適化:クリック予測概要

クリック予測結果から最適な広告を配信する

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

クリック 予測

女性向け カメラの広告を配信

女性向けカメラの広告

女性向けゲームの広告

女性向け旅行の広告

広告 入稿

広告最適化:クリック予測概要

分析基盤で学習したクリック予測結果に基づき配信する

広告配信ログ 広告クリックログ 配信広告タイトル 広告配信ページクロールデータ

広告配信サーバ

データ結合&整形

クリックした(100%)

クリックされない (サンプリング)

機械学習

数百GBのメモリを積んだ モンスターマシンで学習

モデル

乳液(検索キーワードログ) 一眼レフ(検索キーワードログ) Yahoo! BEAUTY(アクセスログ) ショッピングのカメラカテゴリ(アクセスログ)

アジェンダ

1. Yahoo! JAPAN のご紹介

2. マルチビッグデータ

3. データサイエンスのビジネス活用事例

4. データ分析基盤とそのテクノロジー

5. 広告最適化における分析基盤利用の実例

6. 進化するデータ分析基盤

大量のデータを扱える スマホアプリ・位置情報・IoT・オフラインデータ

高速に処理できる 長期間・組み合わせ・DeepLearning(画像・音声解析)

高効率である サーバ・ネットワーク・場所・電力・運用

新しい取り組みをすぐに試せる 新しいデータ・新しいOSS・新しいアルゴリズム

進化:データ分析環境で大事なこと

進化:課題は進化のスピード

データと処理量は指数関数的に増加 CPU・メモリ・HDD・ネットワークの進化では間に合わない

新しいデータ分析技術の開発が活発化 独自技術の開発では間に合わない

進化を加速させる必要がある

進化:基盤の進化を加速させる

クローズドからオープンへ

試行錯誤を高速に繰り返す

と 技術提携

進化:基盤の進化を加速させる

OSS共同研究開発への投資

多種多様なデータを収集する技術(構築) クローズドな独自パイプラインからオープンなKafkaへ

• OSS開発サイクルによる早い機能追加

• オープンなインタフェースによる高い接続性と拡張性

進化:大量のデータを扱える技術の開発

HDFS Erasure Code Storage データ保存効率を向上させる技術(開発) 誤り訂正符号による高い冗長性と保存効率の向上

• 信頼性が向上(2-冗長 → 3-冗長) • 保存効率が向上(元データの3倍 → 1.5倍)

LLAP - long-lived execution in Hive

多様なデータを高速に処理する技術(検証) GPUクラスタによりさらに高速にデータを処理

シングルGPU(既利用)からマルチGPU・マルチGPUサーバへ

• 画像・音声データ等の高コストデータの処理

• 機械学習

• Deep Learning

データ処理効率を向上させる技術(開発) HiveクエリをFragmentに分けて常駐プロセスで処理

• 起動時間の短縮 • データのキャッシュ • 最適化効果の向上

進化:高速に処理できる技術の開発

進化:高効率な技術の導入

効率を追求したハードウェア技術(導入) オープンなハードウェアによる高効率な処理環境

OCP(Open Compute Project)

• サーバ費用の削減

• 消費電力の削減

• 設置スペースの削減

• 現地作業時間の削減

• データ移行コストの削減

リサーチ環境(設計) 本番のデータで新しい取り組みをすぐに試せる環境

進化:新しい取り組みを試せる環境の提供

本番環境

リサーチ環境

効果をすぐに確認できる 問題を事前に把握できる

10% クラスタ規模 10% データ送信 100% ジョブ投入

新しいデータ 最新のバージョン 新しいOSS 新しいアルゴリズム

等の導入が早まる(はず)

最新のバージョンテスト 新しい改善の投入 新しい取り組みの投入

本番環境は安定運用が最優先

マルチビッグデータがある

ビジネスにデータサイエンスを活用している

データサイエンスを支えるデータ分析基盤がある

データ分析基盤は進化している

チャレンジできる環境がある

まとめ

データ で

ご清聴ありがとうございました

top related