課題解決エンジンを支えるデータ処理システムと利活用事例
DESCRIPTION
TRANSCRIPT
1 Privileged and Confidential
課題解決エンジンを支えるデータ処理システムと
利活用事例
角田 直行 データソリューション本部 サービスマネージャー
ヤフー株式会社
自己紹介
Privileged and Confidential 2
角田 直行(かくだ なおゆき) 事業戦略統括本部 データソリューション本部
2005年 中途入社 地図、路線、検索、YST、検索PF... 2012年 データソリューション配属 データインフラを中心に 技術全般をマネージメント
Privileged and Confidential 3
is
Privileged and Confidential 4
…
…
…
Privileged and Confidential 5
…
…
…
あらゆるジャンルの ビッグデータを保有
目次
Privileged and Confidential 6
月間総ページビュー数
(2013年1-3月平均)
Privileged and Confidential 7
年間ユニーク検索クエリ数
(Yahoo! JAPAN調べ)
ビッグデータはユーザーのために利活用
Privileged and Confidential 8
ページビュー
広告ログ
検索クエリ
購買履歴
データ 処理
・・・
アクセス解析
効果測定
日本語処理
マルチメディア処理
レコメンデーション
ターゲティング
データフィード
!
ユーザー属性
ビッグデータはユーザーの課題解決につながる
利活用事例
Privileged and Confidential 9
サービス改善
利活用事例
Privileged and Confidential 10
縦22ピクセル 縦28ピクセル
サービス改善
利活用事例
Privileged and Confidential 11
縦22ピクセル 縦28ピクセル
サービス改善
利活用事例
Privileged and Confidential 12
¥
ターゲティング広告
PR
閲覧
検索キーワード
購買
広告 閲覧/クリック
…
興味関心を推定し最適な広告を掲出
利活用事例
Privileged and Confidential 13
レコメンデーション キーワード入力補助 音声アシスト (音声認識、意図解析)
利活用事例
Privileged and Confidential 14
アクセス解析 マーケットインテリジェンス
利活用事例
Privileged and Confidential 15
アクセス解析 マーケットインテリジェンス
利活用事例
Privileged and Confidential 16
ビッグデータレポート
目次
Privileged and Confidential 17
どのようなシステムでデータを 処理しているのか?
データインフラ概要
Privileged and Confidential 18
・・・
Storm
生成
収集
格納・処理
利活用
Hadoopについて
Privileged and Confidential 19
OSSの大規模データ分散処理システム MapReduce(処理フレームワーク)と HDFS(分散ファイルシステム)で構成
・oozie, Hive, Pigなどエコシステムも活用 ・1日に1.5台のペースで故障 ・400超のユーザを抱えるマルチテナンシー運用
Yahoo! JAPANの導入規模:3500台
とは?
Teradataについて
Privileged and Confidential 20
とは? Teradata社の商用RDBMS 並列分散処理で、高速にSQLを実行できる Yahoo! JAPANでは、 主にアナリストの分析用途として活用
Yahoo! JAPANでの活用例
・広告レポートの抽出 ・広告モデルの効果測定 など
Stormについて
Privileged and Confidential 21
Stormとは? Twitter社がOSSとして公開している、 分散ストリーム処理プラットフォーム (リアルタイムに)逐次流れてくるデータを
即時に処理していこうという仕組み。
Yahoo! JAPANでの活用例
・各ページのリンクのクリック速報 ・広告改善のための一次データ加工 ・スマートフォンアプリのエラー速報 など
Hadoopだけではなく適切な役割分担が必要
Privileged and Confidential 22
Storm
・大規模バッチ処理 ・大規模アドホック処理 ・大量データの蓄積
・リアルタイム処理 ・逐次流れるデータの一次加工
・大規模な結合処理 ・高速なアドホック分析処理
Privileged and Confidential 23
Ready?
目次
Privileged and Confidential 24
どのようにしてビッグデータを 利活用しているのか? 全員がデータに触れることが重要
データは一部の人だけのものではない
目次
Privileged and Confidential 25
どのようにしてビッグデータを 利活用しているのか? 全員がデータに触れられる環境
まとめ
Privileged and Confidential 26
・Yahoo! JAPANはあらゆるジャンルの ビッグデータを保有 ・Hadoopを中心としたデータ処理システム を構築、運用 ・データを効果的に利活用するには 技術面だけでなく組織面での整備も必要
Privileged and Confidential 27
データで、ユーザーファーストを実現
Privileged and Confidential 28