課題解決エンジンを支えるデータ処理システムと利活用事例

28
1 Privileged and Confidential 課題解決エンジンを支える データ処理システムと 利活用事例 角田 直行 データソリューション本部 サービスマネージャー ヤフー株式会社

Upload: yahoo

Post on 15-Jan-2015

1.077 views

Category:

Technology


3 download

DESCRIPTION

 

TRANSCRIPT

Page 1: 課題解決エンジンを支えるデータ処理システムと利活用事例

1 Privileged and Confidential

課題解決エンジンを支えるデータ処理システムと

利活用事例

角田 直行 データソリューション本部 サービスマネージャー

ヤフー株式会社

Page 2: 課題解決エンジンを支えるデータ処理システムと利活用事例

自己紹介

Privileged and Confidential 2

角田 直行(かくだ なおゆき) 事業戦略統括本部 データソリューション本部

2005年 中途入社 地図、路線、検索、YST、検索PF... 2012年 データソリューション配属 データインフラを中心に 技術全般をマネージメント

Page 3: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 3

is

Page 4: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 4

Page 5: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 5

あらゆるジャンルの ビッグデータを保有

Page 6: 課題解決エンジンを支えるデータ処理システムと利活用事例

目次

Privileged and Confidential 6

月間総ページビュー数

(2013年1-3月平均)

Page 7: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 7

年間ユニーク検索クエリ数

(Yahoo! JAPAN調べ)

Page 8: 課題解決エンジンを支えるデータ処理システムと利活用事例

ビッグデータはユーザーのために利活用

Privileged and Confidential 8

ページビュー

広告ログ

検索クエリ

購買履歴

データ 処理

・・・

アクセス解析

効果測定

日本語処理

マルチメディア処理

レコメンデーション

ターゲティング

データフィード

!

ユーザー属性

ビッグデータはユーザーの課題解決につながる

Page 9: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 9

サービス改善

Page 10: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 10

縦22ピクセル 縦28ピクセル

サービス改善

Page 11: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 11

縦22ピクセル 縦28ピクセル

サービス改善

Page 12: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 12

ターゲティング広告

PR

閲覧

検索キーワード

購買

広告 閲覧/クリック

興味関心を推定し最適な広告を掲出

Page 13: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 13

レコメンデーション キーワード入力補助 音声アシスト (音声認識、意図解析)

Page 14: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 14

アクセス解析 マーケットインテリジェンス

Page 15: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 15

アクセス解析 マーケットインテリジェンス

Page 16: 課題解決エンジンを支えるデータ処理システムと利活用事例

利活用事例

Privileged and Confidential 16

ビッグデータレポート

Page 17: 課題解決エンジンを支えるデータ処理システムと利活用事例

目次

Privileged and Confidential 17

どのようなシステムでデータを 処理しているのか?

Page 18: 課題解決エンジンを支えるデータ処理システムと利活用事例

データインフラ概要

Privileged and Confidential 18

・・・

Storm

生成

収集

格納・処理

利活用

Page 19: 課題解決エンジンを支えるデータ処理システムと利活用事例

Hadoopについて

Privileged and Confidential 19

OSSの大規模データ分散処理システム MapReduce(処理フレームワーク)と HDFS(分散ファイルシステム)で構成

・oozie, Hive, Pigなどエコシステムも活用 ・1日に1.5台のペースで故障 ・400超のユーザを抱えるマルチテナンシー運用

Yahoo! JAPANの導入規模:3500台

とは?

Page 20: 課題解決エンジンを支えるデータ処理システムと利活用事例

Teradataについて

Privileged and Confidential 20

とは? Teradata社の商用RDBMS 並列分散処理で、高速にSQLを実行できる Yahoo! JAPANでは、 主にアナリストの分析用途として活用

Yahoo! JAPANでの活用例

・広告レポートの抽出 ・広告モデルの効果測定 など

Page 21: 課題解決エンジンを支えるデータ処理システムと利活用事例

Stormについて

Privileged and Confidential 21

Stormとは? Twitter社がOSSとして公開している、 分散ストリーム処理プラットフォーム (リアルタイムに)逐次流れてくるデータを

即時に処理していこうという仕組み。

Yahoo! JAPANでの活用例

・各ページのリンクのクリック速報 ・広告改善のための一次データ加工 ・スマートフォンアプリのエラー速報 など

Page 22: 課題解決エンジンを支えるデータ処理システムと利活用事例

Hadoopだけではなく適切な役割分担が必要

Privileged and Confidential 22

Storm

・大規模バッチ処理 ・大規模アドホック処理 ・大量データの蓄積

・リアルタイム処理 ・逐次流れるデータの一次加工

・大規模な結合処理 ・高速なアドホック分析処理

Page 23: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 23

Ready?

Page 24: 課題解決エンジンを支えるデータ処理システムと利活用事例

目次

Privileged and Confidential 24

どのようにしてビッグデータを 利活用しているのか? 全員がデータに触れることが重要

データは一部の人だけのものではない

Page 25: 課題解決エンジンを支えるデータ処理システムと利活用事例

目次

Privileged and Confidential 25

どのようにしてビッグデータを 利活用しているのか? 全員がデータに触れられる環境

Page 26: 課題解決エンジンを支えるデータ処理システムと利活用事例

まとめ

Privileged and Confidential 26

・Yahoo! JAPANはあらゆるジャンルの ビッグデータを保有 ・Hadoopを中心としたデータ処理システム を構築、運用 ・データを効果的に利活用するには 技術面だけでなく組織面での整備も必要

Page 27: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 27

データで、ユーザーファーストを実現

Page 28: 課題解決エンジンを支えるデータ処理システムと利活用事例

Privileged and Confidential 28