〜事例から必要な情報システムと人材に迫る〜イベント出力...

Ichiro Satoh

ビッグデータがもたらす企業ビジネス変革

〜事例から必要な情報システムと人材に迫る〜

佐藤一郎

国立情報学研究所・教授

E-mail: [email protected] Twitter: ichiro_satoh

Ichiro Satoh

講演概要

1. ビッグデータとは 2. ビッグデータと企業ビジネス 3. ビッグデータ技術によるビッグデータ処理 4. ビッグデータ技術によるスモールデータ処理 5. まとめ 6. 質疑応答

テクニカルな話はしません時間的に全スライドは説明できません

聴衆はアナリスト（幅は広い）投資先としてビッグデータビジネス

携帯電話の課金の話コマツの実状日産リーフのバッテリ資産管理プログラム売買と損出削減 Hadoopバブルの裏

Ichiro Satoh

自己紹介：佐藤一郎

国立情報学研究所・アーキテクチャ科学研究系・教授

国立大学法人総合研究大学院大学・複合科学研究科・情報学専攻・教授

Rank Xerox Grenoble研究所客員研究員（1994-1995）

排出量取引の社会実験（イトーヨーカドー）

国立科学博物館（上野）

実証実験（そごう横浜店）

Ichiro Satoh

宣伝

書籍：佐藤一郎著

「IDの秘密」（丸善出版）４月7日発売

業務執筆なので印税ははいりませんが

Ichiro Satoh

ビッグデータとは

佐藤一郎



Ichiro Satoh

ビッグデータの時代

Facebookのアーキテクト

「競争力の源泉はデータ。だからインフラ技術は（オープンソースソフトウェアとして）共有する」

Twitterも同じ考え方だそうで・・・ビッグデータを活かす企業では、インフラやソフトウェア技術は差別化要素ではない

Ichiro Satoh

ビッグデータとはいま一番、流行っているIT用語大量データまたは多様なデータを扱う分析処理（明確な定義はない）

広義な定義：結局、データで困っているのならば、それがビッグデータ

データ量が膨大

データ種類が多様

データ形式が非定型

SNSデータログデータ

センサー測定データ

WebやSNSデータなど自然言語業務系以外のデータ

Ichiro Satoh

ビッグデータへの誤解

誤解：大量データを保有していないので、ビッグデータとは無関係ビッグデータ技術を少量データに応用する事例が大多数

誤解：これまでデータ解析の延長

大量、多様なデータから選び、組み合わせることが重要

誤解：ビッグデータを使えば儲かる興味深い分析結果が得られてもビジネスに活かせるとは限らない

誤解：ビッグデータを使うと、いままで気づかなかったことがわかる

何らかの仮説をたてて、それをデータ分析から検証の繰り返し

誤解：ビッグデータ＝個人行動情報収集個人行動情報は諸刃の剣、システムや環境からのデータも重要

Ichiro Satoh

ビッグデータ技術

ビッグデータ

大量・多様データ処理

高度なデータ解析

高速データ処理・解析

大容量かつ多様なデータを収集・処理

高度な解析手法により、データから特徴やパターンを抽出

実世界の様々なデータを既知の特徴やパターンと照合

MapReduce/Hadoop NoSQL Key-Value-Store 非定型データ処理

Complex Event Processing オンメモリデータ処理

データマイニング機械学習

Ichiro Satoh

精度の低いデータも集まれば価値に

精度の低いデータでも、大量に集めれば価値にかわる各種センサーや端末から生まれる大量データやログデータを価値に

例：震災地域の交通情報(ITS Japan他) ホンダ、パイオニア、トヨタ、日産のカーナビ情報を収集通行実績をもとに

通行止め情報を集約

台風12情報時には、情報提供企業が減少

Ichiro Satoh

活用事例：高度なデータ解析

高度なデータ解析手法を駆使

例：医療データへの応用（医療費削減）体調異変を察知

心拍数や血流など各種センサーによる大量データから体調のパターンを推定

患者の各種センサーのデータがパターンから外れるとアラート

多変量解析相関分析回帰分析等

協調フィルタリング機械学習ベイジアンフィルタ他

Ichiro Satoh

活用事例：高速データ処理・解析

Complex Event Processing (CEP)／ストリームデータベース CEPの主要応用先は金融高速データ処理（株価は秒単位から1/1000秒単位）大量データ処理（センサーが生成するデータは1秒に数十ＧＢのこと

も）例：株価変動のモニタリング

Memory Disk

Event Data

変化発生を通知

イベント出力

監視対象例：直近30秒の株価上昇率が平均株価の上回る等

大量インプットデータを処理するためにオンメモリで処理することも多い

CEPの金融応用の多くは不正取引の発見

マージ演算

株価変動１（イベントソース）

株価変動２（イベントソース）

株価変動３（イベントソース）

マージ演算データ監視

Ichiro Satoh

ビッグデータと企業ビジネス

佐藤一郎



Ichiro Satoh

コトラーマーケティング 3.0

ビジネス環境の変化景気後退、環境意識、ＳＮＳ、消費者の影響力増大、グロバール化

消費者は、企業よりも他の消費者を信頼個々の消費者行動の分析が必須

マーケティング 1.0 マーケティング 1.0 マーケティング 3.0

製品中心のマーケティング

消費者指向のマーケティング

価値・社会指向のマーケティング

目的製品を販売すること消費者を満足させ、つなぎ止めること

世界をよりよい場所に

マーケティング製品開発差別化価値

製品管理大量生産、低価格化 4P (製品、価格、流通、プロモーション）

協創

顧客管理 STP(セグメンテーション、ターゲティング、ポジションニング)

STP(セグメンテーション、ターゲティング、ポジションニング)

コミュニティ化

マーケティングの大御所（P.コトラー）ですら既存手法を否定

Ichiro Satoh

ビッグデータによる商品推奨

Amazonの商品レコメンデーション他ユーザの購入履歴から

推奨商品を提示（協調フィルタリング）

5 5 2 2

1 2 4 5

4 5 1 1

5 2 4 1

3 2 3 2

近い:0.98

遠い:0.64

ユーザごとの商品を買う頻度

多数ユーザ

N

多数商品M

M×Nの巨大データ → 既存RDBMSでは対処できるとは限らない

Ichiro Satoh

ディメンションデータからファクトデータへ

従来手法：ディメンションデータの解析例：店舗別や商品別、月別の売上げ

コンビニチェーン約3000アイテムとすると、月間商品別売上データ数も3000 店舗数が2000店とすると、月間店舗別売上データ数も2000

ビッグデータ；ファクトデータの収集・解析

個々の販売データ（購入額、品目、数量他）コンビニチェーン

月別情報（１店舗で一日1000人） 2000店×1000人×5個の商品名×31日=62000000×5個の商品名

Ichiro Satoh

収益拡大よりも損失縮小

収益拡大手法として他のユーザ行動から、商品を推奨

Amazonなどの推薦機能ユーザ行動を先回りして商品を提示

損失縮小手法として

不正利用監視クレジットカードユーザの行動パターンを抽出して、不正を発見

医療データから患者の状態、病気の前兆を発見

短期的には損失縮小の方が確実＆効果的儲けにつながるデータ特性は未知、損につながるデータ特性は既知

データ分析結果が興味深くても収益拡大につながるとは限らない

Ichiro Satoh

応用事例：ネットゲームのユーザサポート

退会しそうなユーザを発見退会ユーザには事前に典型的な行動パターンをとる

例：アクセスが減る、他のユーザとの通信が減る退会しそうなユーザに特典付与、新規ゲームを提案

ユーザAの履歴

ユーザBの履歴

ユーザCの履歴

ユーザA

ユーザB

ユーザC

パターンマッチング

退会パターンの発見

退会ユーザの典型パターン

ビッグデータの主要応用先は収益拡大よりも損出削減

Ichiro Satoh

ビッグデータによるカード不正利用

各顧客の購買履歴を記録して、顧客ごとの不正検知モデル（パターン）を構築従来は一ヶ月程度

一ヶ月程度は不正は検知できないビッグデータ技術により10分程度

日々巧妙化する不正手口に対応して不正検知モデルも日々更新顧客の購買履歴を利用したターゲット・マーケティングにも利用

不正検知モデルの生成 (Hadoop)

不正検知モデルとのマッチング

不正検知モデル

バッチ処理オンライン処理

全会員の利用明細（3億人分、150TB)

• 不正利用アラーム • ターゲット

マーケティング

Ichiro Satoh

ビッグデータ技術によるビッグデータ処理

佐藤一郎



Ichiro Satoh

既存BIやデータ分析との違い

ビッグデータでは、データを選ぶ、組合せが重要コース料理からビュッフェ形式へ

分析精度

分析対象のデータが増えることで、分析精度が向上正確さが低いデータでも大量に集まれば価値につながる

コース形式（既存データ分析）：与えられた少量の料理（データ）を最大限に楽しむ

ビュッフェ形式（ビッグデータ）：多様な料理（データ）から選ぶ（摘み食い）

Ichiro Satoh

仮説検証

ビッグデータはビジネスチャンスは見つけてくれない人間が気が付かなかった特性を見つけてくれることは期待しない機械学習など高度な分析手法は閉じた系では有効かもしれないけど

仮説検証関心事によって分析手法は違う何らかの特性を予測して、その特性があることのデータから調べる分析してみないと仮説が正しいかはわからない外すかもしれない仮説のためにシステム構築は難しい

データの収集

データを調べる

仮説の構築

仮説の検証

データの収集


仮説の構築

仮説の検証

データの収集


仮説の構築

仮説の検証

Ichiro Satoh

精度の低いデータも集まれば価値に…

たくさんの自動車から運行情報(位置・速度)を集めれば、詳細な道路渋滞予測はできるか

詳細データは局所的な短期イベント（安売り店や地域行事、路上駐車）を反映短期イベントの影響が予測を狂わせる現実世界は局所的変動が大きいイベント情報を集めて補正するか、大まかな分析にとどめるか

実際にはサンプリング数を抑えた方が精度が上がることもある

Ichiro Satoh

ビッグデータは前処理まで? ビッグデータでは多様なデータを組み合わせて分析

センサーやWeb情報などの非定型データを扱う非定型データを直接分析できるわけではない

多様なデータはフォーマットや単位、精度が揃っていない

分析しやすいようにデータを揃えための前処理が必須多量なデータの変換処理非定型データを定型データに変換

多くの場合、前処理までがビッグデータ

定型データ化できれば通常の情報分析と大差ない RDBMSに格納して、データ分析ライブラリ等で処理で十分

ビッグデータでは前処理が一番手間がかかる

（前処理が済んだら、終わったも同然）

GoogleはMapReduceをWeb検索向けのインデックシング処理のために開発 Yahoo!はテキストデータの構造化のため MapReduce類似システム(Hadoop)を開発

Ichiro Satoh

ビッグデータへの備え

データ解析技術者の確保データに応じて適切な解析手法を選べる人材

リアルタイム化・詳細化したデータ分析結果を使うのは現場現場のデータ分析能力を向上現場裁量の拡大

データ収集データがなければ分析もできない

インテリジェンス経営者や現場がほしい情報を明確にする

ビッグデータは魔法ではない少量データの分析・活用ができない組織が、大量データ分析・活用は無理

Ichiro Satoh

システムへの要求

ビッグデータを活かしている企業のデータ量・処理量は指数的に膨張処理能力を増大できるシステムが必須

データ量・処理量は試してみないとわからない

オンプレミスシステムが向いているとはいえないクラウドを積極利用して拡張・縮小できるシステム

ビッグデータのデータ解析手法は日々変化

いまユーザの知りたい情報にあわせて、データ解析方法を変える

システムの定量的要件は未知数

処理量が変化

Ichiro Satoh

人材確保

いまはデータベースや分散システムの技術者の需要が高まっているが、 Hal Varian, chief economist at Google said in

“I keep saying that the sexy job in the next 10 years will be statisticians”

膨大なデータから、調べたい特性に有益なデータを見つけ、その特性とデータにあった解析を方法を選べる人材が必要

統計学や自然科学の実験系の経験・知識のある人材など

Ichiro Satoh

プライバシー問題

個別データでは見えないユーザ行動が、相違なデータの組合わせで見えてくる

実例：水道メータとガスメータの遠隔共同検針（2002年）某自治体水道局と某ガス会社

PHS回線及び電灯線を利用した遠隔検針実証実験（戸建住宅：100軒、集合住宅:60軒）

しかし、プライバシー問題の危惧から実証実験開始直後に中止水道とガスが同時利用がわかると

お風呂の準備をしていることがわかる

データの組合せ方は予測不可能 → プライバシー問題も予測不可能

Ichiro Satoh

ビッグデータ技術によるスモールデータ処理

佐藤一郎



Ichiro Satoh

ビッグデータ技術をスモールデータへの活用

データ量の従来制約例：夜間バッチ処理では終わらないデータは持っていても仕方ない

ビッグデータ技術を使って、既存データ処理の高速化

いままで捨てていたデータを活かせる例：一年分（13ヶ月）から、数年分の売上データを利用

データ処理のリアルタイム化（即時化）例：売上解析処理を1日から1時間に、1時間を数分に短縮

データ処理の詳細化と相違なデータの組合せ例：売上データと多面的解析、売上データと顧客DBの統合解析

Ichiro Satoh

ビッグデータの処理技術の活用

大容量データを持っていなくても、ビッグデータの周辺技術が重要処理能力アップ

処理能力的な制約から、あきらめていたデータを捨てないデータ処理の高速化

データ処理のリアルタイム化（処理時間は一晩から10分) 多様かつ多数なデータ処理

1GBでも件数が多ければビッグデータ（例：100万レコード）

ビッグデータ処理技術（例：MapReduce/Hadoop）を応用

Ichiro Satoh

MapReduceとは

Map: 対象データを処理用Key-Value形式に変換 Reduce: 処理結果を集約 Shuffle: Map処理が出力した中間ファイルをReducer処理の構造に変換

User Program

Worker

Worker

Master

Worker

Worker

Worker

fork fork fork

assign map

assign reduce

read local write

remote read, sort

Output File 0

Output File 1

write

Split 0 Split 1 Split 2

Input Data

Ichiro Satoh

MapReduce/Hadoop

大量の大規模データを一括処理するのに適している

事例：ウェブ・ページから検索インデックスを生成

データを分割して、複数のコンピュータで分散処理、結果を統合分散システムの難しい部分（故障対策、配置）を大幅に簡単化

その代わり処理内容に向き不向きがある

MapReduceはGoogleが開発し、論文発表(2004年)、その論文をもとにYahoo!がMapReduceを作ったのがHadoop

データ分割

分散処理

分散処理

分散処理

データ統合

大量データ結果

MapReduce/Hadoop

Ichiro Satoh

Hadoopの事例

西鉄ストア Hadoopを利用してバッチ処理を高速化仕入れや買掛金の確定、請求書の突き合わせを月次から日次に処理

アンデルセン

原材料からの原価計算バッチ処理の効率化パグリッククラウド(Amazon EC2)上で処理

九州電力

電気料金計算に高速化将来的には詳細な課金に利用 Amazonを利用（しているらしい）

Ichiro Satoh

ビッグデータ技術の応用

インドの文盲率は48% （人口は１２億人）字が読めなければメールやWebも読めない、書けない音声によるメールやWebの読み上げサービス

ビッグデータ技術を駆使して、大量のメールやWebに対して大規模自然言語処理と音声合成技術により、音声データ化

インドでは加入数が1億人を超える携帯電話事業者が3社

例：日本や米国には加入数が1億人を超える携帯電話事業者はゼロユーザの利用状況の算出処理はビッグデータそのもの

ビッグデータ技術（Hadoop/MapReduce）を利用して、システムログから各ユーザの料金を集計

Ichiro Satoh

Hadoopは万能ではない

データ前処理向き GoogleはWeb検索向けのインデックシング処理のため Hadoopはテキストデータの構造化（タグ付け）のため

データ間に依存性がない処理に向いている集計処理、（単純な）ログ分析

Hadoop/MapReduceに向かない処理

Webデータ等の参照関係 SNSなどデータ関係がグラフ構造リアルタイム処理

Hadoop向けの機械学習用ライブラリも

ありますが・・

Ichiro Satoh

分散システム研究者からみたHadoop

MapReduceは処理内容を限定することで、分散処理の難しさを隠蔽 MapReduceは癖が強い（データと処理内容を選ぶ）

MapReduce処理自体は簡単、互換システムは作れる（当方も作ったし）管理・モニタリングを含むシステム全体を作るのはたいへん

処理粒度が大きいバッチ処理向き（リアルタイム処理には向かない）

IOがボトルネックになりやすい計算リソースをフルに使い切るわけではない

Reduce処理がボトルネックになりやすい Reduce処理は軽いか、ないような分析が向いている

おそらく専用ファイルシステム（HDFS）から設計 HDFSに問題が会っても、MapReduce処理部分を取り出せない

Ichiro Satoh

Hadoop事例の現実

国内事例多くはバッチ処理の置き換え

集計処理がほとんど高度な分析事例は意外に少ない

多くはインハウスでHadoopシステムを構築管理システムが未整備、システム構築できる程度の技術力が必須

分散処理は通信コストに見合う並列化が前提

サーバ１台で運用した方が速いこともサーバ５〜６台程度ならば速くなるとは限らない普段は1台で運用、台数を拡張できる余地が重要

Ichiro Satoh

Hadoopバブル GoogleがMapReduce技術を発表(2004年)

Web検索用インデクス作成処理 GoogleはMapReduce技術の特許を取得

HadoopはYahoo!がGoogleのMapReduceを真似て作ったシステム HadoopはApache Foundationを通じてオープンソース(OSS)化

GoogleからApache Foundationに対して特許利用許可を発表(2010年4月末)

VCがHadoop関連ベンチャーに資金投下(2010年5月以降) Hadoopバブル発生

Hadoopバブルの弊害（2011年以降）投資家に示したロードマップに応じた開発

→Hadoopのディストリビューションが混乱

Ichiro Satoh

まとめ

ビッグデータが話題になる背景は、既存マーケティングの限界他者の大量データも利用したマーケティングデータ分析でヘッジできるリスクはある（それを実践している投資先も）

ビッグデータは様々な相違データの関連付けから価値を生む

データの組合せ方や解析手法の選択は人間ビッグデータ向け処理・ストレージ技術は少量データ処理でも有用

ビッグデータをビジネスチャンスには変えるのは簡単ではない

興味深いデータ解析結果とビジネスチャンス拡大は違うビッグデータの解析結果を使うのは現場（現場への権限移譲）

ビッグデータを使いこなす企業とそうではない企業の差が拡大

少量データの解析ができていない組織が大量データの解析は無理

Ichiro Satoh

ビッグデータの先にある世界

データ共有化データ処理とデータ提供は不可分

処理よりもデータデータ処理とデータ提供は不可分

誰でもシンクタンク化スプレッドシートが誰でも会計処理ができるようにしたように

物理世界とサイバー世界の不可分化 Cyber-Physical Systems化

シミュレーションとの融合足りないデータはシミュレーションで補う

〜事例から必要な情報システムと人材に迫る〜イベント出力...

Documents