〜事例から必要な情報システムと人材に迫る〜イベント出力...

41
Ichiro Satoh ビッグデータがもたらす企業ビジネス変革 〜事例から必要な情報システムと人材に迫る〜 佐藤一郎 国立情報学研究所・教授 E-mail: [email protected] Twitter: ichiro_satoh

Upload: others

Post on 12-Jan-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータがもたらす企業ビジネス変革

〜事例から必要な情報システムと人材に迫る〜

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Page 2: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

講演概要

1. ビッグデータとは 2. ビッグデータと企業ビジネス 3. ビッグデータ技術によるビッグデータ処理 4. ビッグデータ技術によるスモールデータ処理 5. まとめ 6. 質疑応答

テクニカルな話はしません 時間的に全スライドは説明できません

聴衆はアナリスト(幅は広い) 投資先としてビッグデータビジネス

携帯電話の課金の話 コマツの実状 日産リーフのバッテリ資産管理 プログラム売買と損出削減 Hadoopバブルの裏

Page 3: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

自己紹介:佐藤一郎

国立情報学研究所・ アーキテクチャ科学研究系・教授

国立大学法人総合研究大学院大学・ 複合科学研究科・情報学専攻・教授

Rank Xerox Grenoble研究所客員研究員(1994-1995)

排出量取引の社会実験 (イトーヨーカドー)

国立科学博物館(上野)

実証実験(そごう横浜店)

Page 4: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

宣伝

書籍: 佐藤一郎著

「IDの秘密」 (丸善出版) 4月7日発売

業務執筆なので印税ははいりませんが

Page 5: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータとは

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Page 6: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータの時代

Facebookのアーキテクト

「競争力の源泉はデータ。だからインフラ技術は(オープンソースソフトウェアとして)共有する」

Twitterも同じ考え方だそうで・・・ ビッグデータを活かす企業では、インフラやソフトウェア技術は差別化要素ではない

Page 7: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータとは いま一番、流行っているIT用語 大量データまたは多様なデータを扱う分析処理(明確な定義はない)

広義な定義: 結局、データで困っているのならば、それがビッグデータ

データ量 が膨大

データ種類 が多様

データ形式 が非定型

SNSデータ ログデータ

センサー測定データ

WebやSNSデータなど自然言語 業務系以外のデータ

Page 8: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータへの誤解

誤解:大量データを保有していないので、ビッグデータとは無関係 ビッグデータ技術を少量データに応用する事例が大多数

誤解:これまでデータ解析の延長

大量、多様なデータから選び、組み合わせることが重要

誤解:ビッグデータを使えば儲かる 興味深い分析結果が得られてもビジネスに活かせるとは限らない

誤解:ビッグデータを使うと、いままで気づかなかったことがわかる

何らかの仮説をたてて、それをデータ分析から検証の繰り返し

誤解:ビッグデータ=個人行動情報収集 個人行動情報は諸刃の剣、システムや環境からのデータも重要

Page 9: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータ技術

ビッグデータ

大量・多様 データ処理

高度な データ解析

高速データ 処理・解析

大容量かつ多様な データを収集・処理

高度な解析手法により、データから特徴やパターンを抽出

実世界の様々なデータを既知の特徴やパターンと照合

MapReduce/Hadoop NoSQL Key-Value-Store 非定型データ処理

Complex Event Processing オンメモリデータ処理

データマイニング 機械学習

Page 10: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

精度の低いデータも集まれば価値に

精度の低いデータでも、大量に集めれば価値にかわる 各種センサーや端末から生まれる大量データやログデータを価値に

例:震災地域の交通情報(ITS Japan他) ホンダ、パイオニア、トヨタ、日産のカーナビ情報を収集 通行実績をもとに

通行止め情報を集約

台風12情報時には、 情報提供企業が減少

Page 11: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

活用事例:高度なデータ解析

高度なデータ解析手法を駆使

例:医療データへの応用(医療費削減) 体調異変を察知

心拍数や血流など各種センサーによる 大量データから体調のパターンを推定

患者の各種センサーのデータが パターンから外れるとアラート

多変量解析 相関分析 回帰分析等

協調フィルタリング 機械学習 ベイジアンフィルタ他

Page 12: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

活用事例:高速データ処理・解析

Complex Event Processing (CEP)/ストリームデータベース CEPの主要応用先は金融 高速データ処理(株価は秒単位から1/1000秒単位) 大量データ処理(センサーが生成するデータは1秒に数十GBのこと

も) 例:株価変動のモニタリング

Memory Disk

Event Data

変化発生を通知

イベント出力

監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等

大量インプットデータを処理するためにオンメモリで処理することも多い

CEPの金融応用の多くは不正取引の発見

マージ演算

株価変動1 (イベントソース)

株価変動2 (イベントソース)

株価変動3 (イベントソース)

マージ演算 データ監視

Page 13: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータと企業ビジネス

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Page 14: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

コトラーマーケティング 3.0

ビジネス環境の変化 景気後退、環境意識、SNS、 消費者の影響力増大、グロバール化

消費者は、企業よりも他の消費者を信頼 個々の消費者行動の分析が必須

マーケティング 1.0 マーケティング 1.0 マーケティング 3.0

製品中心のマーケティング

消費者指向のマーケティング

価値・社会指向のマーケティング

目的 製品を販売すること 消費者を満足させ、つなぎ止めること

世界をよりよい場所に

マーケティング 製品開発 差別化 価値

製品管理 大量生産、低価格化 4P (製品、価格、流通、プロモーション)

協創

顧客管理 STP(セグメンテーション、ターゲティング、ポジションニング)

STP(セグメンテーション、ターゲティング、ポジションニング)

コミュニティ化

マーケティングの大御所(P.コトラー)ですら既存手法を否定

Page 15: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータによる商品推奨

Amazonの商品レコメンデーション 他ユーザの購入履歴から

推奨商品を提示 (協調フィルタリング)

5 5 2 2

1 2 4 5

4 5 1 1

5 2 4 1

3 2 3 2

近い:0.98

遠い:0.64

ユーザごとの商品を買う頻度

多数 ユーザ

N

多数商品M

M×Nの巨大データ → 既存RDBMSでは対処できるとは限らない

Page 16: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ディメンションデータからファクトデータへ

従来手法:ディメンションデータの解析 例:店舗別や商品別、月別の売上げ

コンビニチェーン 約3000アイテムとすると、月間商品別売上データ数も3000 店舗数が2000店とすると、月間店舗別売上データ数も2000

ビッグデータ;ファクトデータの収集・解析

個々の販売データ(購入額、品目、数量他) コンビニチェーン

月別情報(1店舗で一日1000人) 2000店×1000人×5個の商品名×31日=62000000×5個の商品名

Page 17: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

収益拡大よりも損失縮小

収益拡大手法として 他のユーザ行動から、商品を推奨

Amazonなどの推薦機能 ユーザ行動を先回りして商品を提示

損失縮小手法として

不正利用監視 クレジットカードユーザの行動パターンを抽出して、不正を発見

医療データから患者の状態、病気の前兆を発見

短期的には損失縮小の方が確実&効果的 儲けにつながるデータ特性は未知、損につながるデータ特性は既知

データ分析結果が興味深くても 収益拡大につながるとは限らない

Page 18: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

応用事例:ネットゲームのユーザサポート

退会しそうなユーザを発見 退会ユーザには事前に典型的な行動パターンをとる

例:アクセスが減る、他のユーザとの通信が減る 退会しそうなユーザに特典付与、新規ゲームを提案

ユーザAの履歴

ユーザBの履歴

ユーザCの履歴

ユーザA

ユーザB

ユーザC

パターン マッチング

退会パターンの発見

退会ユーザの典型パターン

ビッグデータの主要応用先は収益拡大よりも損出削減

Page 19: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータによるカード不正利用

各顧客の購買履歴を記録して、顧客ごとの不正検知モデル(パターン)を構築 従来は一ヶ月程度

一ヶ月程度は不正は検知できない ビッグデータ技術により10分程度

日々巧妙化する不正手口に対応して不正検知モデルも日々更新 顧客の購買履歴を利用したターゲット・マーケティングにも利用

不正検知 モデルの 生成 (Hadoop)

不正検知 モデルとの マッチング

不正検知 モデル

バッチ処理 オンライン処理

全会員の利用明細(3億人分、150TB)

• 不正利用アラーム • ターゲット

マーケティング

Page 20: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータ技術によるビッグデータ処理

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Page 21: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

既存BIやデータ分析との違い

ビッグデータでは、データを選ぶ、組合せが重要 コース料理からビュッフェ形式へ

分析精度

分析対象のデータが増えることで、分析精度が向上 正確さが低いデータでも大量に集まれば価値につながる

コース形式 (既存データ分析): 与えられた少量の 料理(データ)を 最大限に楽しむ

ビュッフェ形式 (ビッグデータ): 多様な料理(データ) から選ぶ(摘み食い)

Page 22: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

仮説検証

ビッグデータはビジネスチャンスは見つけてくれない 人間が気が付かなかった特性を見つけてくれることは期待しない 機械学習など高度な分析手法は閉じた系では有効かもしれないけど

仮説検証 関心事によって分析手法は違う 何らかの特性を予測して、その特性があることのデータから調べる 分析してみないと仮説が正しいかはわからない 外すかもしれない仮説のためにシステム構築は難しい

データの収集

データを調べる

仮説の構築

仮説の検証

データの収集

データを調べる

仮説の構築

仮説の検証

データの収集

データを調べる

仮説の構築

仮説の検証

Page 23: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

精度の低いデータも集まれば価値に…

たくさんの自動車から運行情報(位置・速度)を集めれば、 詳細な道路渋滞予測はできるか

詳細データは局所的な短期イベント(安売り店や地域行事、路上駐車)を反映 短期イベントの影響が予測を狂わせる 現実世界は局所的変動が大きい イベント情報を集めて補正するか、大まかな分析にとどめるか

実際にはサンプリング数を抑えた方が精度が上がることもある

Page 24: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータは前処理まで? ビッグデータでは多様なデータを組み合わせて分析

センサーやWeb情報などの非定型データを扱う 非定型データを直接分析できるわけではない

多様なデータはフォーマットや単位、精度が揃っていない

分析しやすいようにデータを揃えための前処理が必須 多量なデータの変換処理 非定型データを定型データに変換

多くの場合、前処理までがビッグデータ

定型データ化できれば通常の情報分析と大差ない RDBMSに格納して、データ分析ライブラリ等で処理で十分

ビッグデータでは前処理が一番手間がかかる

(前処理が済んだら、終わったも同然)

GoogleはMapReduceをWeb検索向けの インデックシング処理のために開発 Yahoo!はテキストデータの構造化のため MapReduce類似システム(Hadoop)を開発

Page 25: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータへの備え

データ解析技術者の確保 データに応じて適切な解析手法を選べる人材

リアルタイム化・詳細化したデータ分析結果を使うのは現場 現場のデータ分析能力を向上 現場裁量の拡大

データ収集 データがなければ分析もできない

インテリジェンス 経営者や現場がほしい情報を明確にする

ビッグデータは魔法ではない 少量データの分析・活用ができない組織が、大量データ分析・活用は無理

Page 26: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

システムへの要求

ビッグデータを活かしている企業のデータ量・処理量は指数的に膨張 処理能力を増大できるシステムが必須

データ量・処理量は試してみないとわからない

オンプレミスシステムが向いているとはいえない クラウドを積極利用して拡張・縮小できるシステム

ビッグデータのデータ解析手法は日々変化

いまユーザの知りたい情報にあわせて、データ解析方法を変える

システムの定量的要件は未知数

処理量が変化

Page 27: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

人材確保

いまはデータベースや分散システムの技術者の需要が高まっているが、 Hal Varian, chief economist at Google said in

“I keep saying that the sexy job in the next 10 years will be statisticians”

膨大なデータから、調べたい特性に有益なデータを見つけ、その特性とデータにあった解析を方法を選べる人材が必要

統計学や自然科学の実験系の経験・知識のある人材など

Page 28: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

プライバシー問題

個別データでは見えないユーザ行動が、相違なデータの組合わせで見えてくる

実例:水道メータとガスメータの遠隔共同検針(2002年) 某自治体水道局と某ガス会社

PHS回線及び電灯線を利用した遠隔検針 実証実験(戸建住宅:100軒、集合住宅:60軒)

しかし、プライバシー問題の危惧から実証実験開始直後に中止 水道とガスが同時利用がわかると

お風呂の準備をしていることがわかる

データの組合せ方は予測不可能 → プライバシー問題も予測不可能

Page 29: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータ技術によるスモールデータ処理

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Page 30: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータ技術をスモールデータへの活用

データ量の従来制約 例:夜間バッチ処理では終わらないデータは持っていても仕方ない

ビッグデータ技術を使って、既存データ処理の高速化

いままで捨てていたデータを活かせる 例:一年分(13ヶ月)から、数年分の売上データを利用

データ処理のリアルタイム化(即時化) 例:売上解析処理を1日から1時間に、1時間を数分に短縮

データ処理の詳細化と相違なデータの組合せ 例:売上データと多面的解析、売上データと顧客DBの統合解析

Page 31: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータの処理技術の活用

大容量データを持っていなくても、ビッグデータの周辺技術が重要 処理能力アップ

処理能力的な制約から、あきらめていたデータを捨てない データ処理の高速化

データ処理のリアルタイム化(処理時間は一晩から10分) 多様かつ多数なデータ処理

1GBでも件数が多ければビッグデータ(例:100万レコード)

ビッグデータ処理技術(例:MapReduce/Hadoop)を応用

Page 32: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

MapReduceとは

Map: 対象データを処理用Key-Value形式に変換 Reduce: 処理結果を集約 Shuffle: Map処理が出力した中間ファイルをReducer処理の構造に変換

User Program

Worker

Worker

Master

Worker

Worker

Worker

fork fork fork

assign map

assign reduce

read local write

remote read, sort

Output File 0

Output File 1

write

Split 0 Split 1 Split 2

Input Data

Page 33: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

MapReduce/Hadoop

大量の大規模データを一括処理するのに適している

事例:ウェブ・ページから検索インデックスを生成

データを分割して、複数のコンピュータで分散処理、結果を統合 分散システムの難しい部分(故障対策、配置)を大幅に簡単化

その代わり処理内容に向き不向きがある

MapReduceはGoogleが開発し、論文発表(2004年)、その論文をもとにYahoo!がMapReduceを作ったのがHadoop

データ分割

分散処理

分散処理

分散処理

データ統合

大量データ 結果

MapReduce/Hadoop

Page 34: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

Hadoopの事例

西鉄ストア Hadoopを利用してバッチ処理を高速化 仕入れや買掛金の確定、請求書の突き合わせを月次から日次に処理

アンデルセン

原材料からの原価計算バッチ処理の効率化 パグリッククラウド(Amazon EC2)上で処理

九州電力

電気料金計算に高速化 将来的には詳細な課金に利用 Amazonを利用(しているらしい)

Page 35: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータ技術の応用

インドの文盲率は48% (人口は12億人) 字が読めなければメールやWebも読めない、書けない 音声によるメールやWebの読み上げサービス

ビッグデータ技術を駆使して、大量のメールやWebに対して 大規模自然言語処理と音声合成技術により、音声データ化

インドでは加入数が1億人を超える携帯電話事業者が3社

例:日本や米国には加入数が1億人を超える携帯電話事業者はゼロ ユーザの利用状況の算出処理はビッグデータそのもの

ビッグデータ技術(Hadoop/MapReduce)を利用して、システムログから各ユーザの料金を集計

Page 36: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

Hadoopは万能ではない

データ前処理向き GoogleはWeb検索向けのインデックシング処理のため Hadoopはテキストデータの構造化(タグ付け)のため

データ間に依存性がない処理に向いている 集計処理、(単純な)ログ分析

Hadoop/MapReduceに向かない処理

Webデータ等の参照関係 SNSなどデータ関係がグラフ構造 リアルタイム処理

Hadoop向けの機械学習用ライブラリも

ありますが・・

Page 37: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

分散システム研究者からみたHadoop

MapReduceは処理内容を限定することで、分散処理の難しさを隠蔽 MapReduceは癖が強い(データと処理内容を選ぶ)

MapReduce処理自体は簡単、互換システムは作れる(当方も作ったし) 管理・モニタリングを含むシステム全体を作るのはたいへん

処理粒度が大きい バッチ処理向き(リアルタイム処理には向かない)

IOがボトルネックになりやすい 計算リソースをフルに使い切るわけではない

Reduce処理がボトルネックになりやすい Reduce処理は軽いか、ないような分析が向いている

おそらく専用ファイルシステム(HDFS)から設計 HDFSに問題が会っても、MapReduce処理部分を取り出せない

Page 38: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

Hadoop事例の現実

国内事例 多くはバッチ処理の置き換え

集計処理がほとんど 高度な分析事例は意外に少ない

多くはインハウスでHadoopシステムを構築 管理システムが未整備、システム構築できる程度の技術力が必須

分散処理は通信コストに見合う並列化が前提

サーバ1台で運用した方が速いことも サーバ5〜6台程度ならば速くなるとは限らない 普段は1台で運用、台数を拡張できる余地が重要

Page 39: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

Hadoopバブル GoogleがMapReduce技術を発表(2004年)

Web検索用インデクス作成処理 GoogleはMapReduce技術の特許を取得

HadoopはYahoo!がGoogleのMapReduceを真似て作ったシステム HadoopはApache Foundationを通じてオープンソース(OSS)化

GoogleからApache Foundationに対して 特許利用許可を発表(2010年4月末)

VCがHadoop関連ベンチャーに 資金投下(2010年5月以降) Hadoopバブル発生

Hadoopバブルの弊害(2011年以降) 投資家に示したロードマップに応じた開発

→Hadoopのディストリビューションが混乱

Page 40: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

まとめ

ビッグデータが話題になる背景は、既存マーケティングの限界 他者の大量データも利用したマーケティング データ分析でヘッジできるリスクはある(それを実践している投資先も)

ビッグデータは様々な相違データの関連付けから価値を生む

データの組合せ方や解析手法の選択は人間 ビッグデータ向け処理・ストレージ技術は少量データ処理でも有用

ビッグデータをビジネスチャンスには変えるのは簡単ではない

興味深いデータ解析結果とビジネスチャンス拡大は違う ビッグデータの解析結果を使うのは現場(現場への権限移譲)

ビッグデータを使いこなす企業とそうではない企業の差が拡大

少量データの解析ができていない組織が大量データの解析は無理

Page 41: 〜事例から必要な情報システムと人材に迫る〜イベント出力 監視対象例:直近30秒の 株価上昇率が平均株価の 上回る等 大量インプットデータを処理するため

Ichiro Satoh

ビッグデータの先にある世界

データ共有化 データ処理とデータ提供は不可分

処理よりもデータ データ処理とデータ提供は不可分

誰でもシンクタンク化 スプレッドシートが誰でも会計処理ができるようにしたように

物理世界とサイバー世界の不可分化 Cyber-Physical Systems化

シミュレーションとの融合 足りないデータはシミュレーションで補う