ビッグデータアナリティックス · o 1960年から70年代 o...

33
ビッグデータアナリティックス (2016年度) 中村 哲 NAIST 知能コミュニケーション研究室 鈴木 優 NAIST 多元ビッグデータプロジェクト 田中 宏季 NAIST 知能コミュニケーション研究室 吉野幸一郎 NAIST 知能コミュニケーション研究室 岩爪 道昭 情報通信研究機構 松井くにお NIFTY 株式会社 岩倉友哉 NIFTY 株式会社 林 雄司 デイリーポータルZ 櫻井一貴 リクルートテクノロジーズ 石川 信行 リクルートテクノロジーズ 西村 隆宏 リクルートテクノロジーズ

Upload: others

Post on 23-Aug-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータアナリティックス (2016年度)

中村 哲 NAIST 知能コミュニケーション研究室 鈴木 優 NAIST 多元ビッグデータプロジェクト 田中 宏季 NAIST 知能コミュニケーション研究室 吉野幸一郎 NAIST 知能コミュニケーション研究室

岩爪 道昭 情報通信研究機構

松井くにお NIFTY 株式会社 岩倉友哉 NIFTY 株式会社 林 雄司 デイリーポータルZ

櫻井一貴 リクルートテクノロジーズ 石川 信行 リクルートテクノロジーズ 西村 隆宏 リクルートテクノロジーズ

Page 2: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データアナリティクスとは

o ビールとおむつ

o 「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。」

o 「調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」

2016/10/6 Satoshi NAKAMURA@AHC,NAIST 2

Page 3: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

Page 4: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

本講義の構成

第1回 10/7 中村・田中特任助教 ビッグデータ解析概論・検定の理論

第2回 10/14 岩爪先生 クローリング、ランキング

第3回 10/21 鈴木特任准教授 Apache Sparkによる分散計算

第4回 10/28 吉野助教 ビッグデータのための機械学習

第5回 11/4 櫻井・石川・西村 リクルート式 データ利活用の実際

第6回 11/11 松井・林 ソーシャルメディアアナリティクス

第7回 11/18 課題発表会1 (第3,4回 鈴木+吉野分)

第8回 11/25 課題発表会2 (第6回 松井・林先生分)

©Satoshi Nakamura, NAIST, all right reserved. 4

Page 5: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

単位の取り方

o 各講義の出席、演習、レポート

から成績を出します。

©Satoshi Nakamura, NAIST, all right reserved. 5

Page 6: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い (相談、作業がしやすいように)

o グループは必ずしも固定しない

o 課題発表レポートでは、自分が何を担当したかを明記

©Satoshi Nakamura, NAIST, all right reserved. 6

Page 7: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

大規模Web情報処理 岩爪 道昭(情報通信研究機構)

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック(予定)

• 導入:ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用 等

©Satoshi Nakamura, NAIST, all right reserved. 7

Page 8: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

Apache Spark による大規模データ処理 鈴木 特任准教授

o 担当: 鈴木 優 (NAIST)

o 概要: 大量のデータを分散処理する方法として, Apache Spark を活用する方法について探る.実際に Twitter などのデータを分析することによって,新しい関係性の発見を体験する.

o 進め方: o 10/21

o Apache Spark の解説.分析事例の紹介.分析対象データの紹介

o 分析テーマの設定(チーム単位)

o 11/18 o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

Page 9: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータにおける機械学習 吉野 助教

o 担当: 吉野 幸一郎 (NAIST)

o 概要: 大量のデータが利用可能になったことにより,機械学習を用いたデータ処理が注目されている.本講義では,機械学習の基本的な考え方,教師あり・教師なし学習の違い,基本的なアルゴリズムなどを解説する.また,実際のTwitter分析を例にとりどのように問題を設定・解決するかを体験する.

o 進め方: o 10/28

o 機械学習の概要,基本的なアルゴリズムの解説

o 分析テーマの設定(チーム単位) (“Apache Spark による大規模データ処理”と合同)

o 11/18: o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

©Satoshi Nakamura, NAIST, all right reserved. 9

Page 10: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ソーシャルメディアアナリシス技術 松井くにお、岩倉友哉(NIFTY株式会社)・林 雄司 デイリーポータルZ

o 11月11日 o 分析とは

o なぜビックデータか

o デイリーポータルZの紹介 o 全体、フォーマット、処理

o 分析例

o Rを使って分析してみよう o 宿題(テーマ課題、自由課題)

o 11月25日 o 自由課題の発表

o 発表5分 コメント5分 ×6チーム

o 総括1(発表に関して)

o 総括2(トピック) ©Satoshi Nakamura, NAIST, all right reserved. 10

Page 11: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 11

Page 12: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 12 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

E-Science データ DNA, 病気、

気象、宇宙観測、 分子配列 等

Page 13: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータとは-②

©Satoshi Nakamura, NAIST, all right reserved. 13 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 14: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータとは-③

©Satoshi Nakamura, NAIST, all right reserved. 14 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 15: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

どのぐらいの大きさか

©Satoshi Nakamura, NAIST, all right reserved. 15 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 16: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

センサーの進化

©Satoshi Nakamura, NAIST, all right reserved. 16 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 17: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータ処理の構成技術①

©Satoshi Nakamura, NAIST, all right reserved. 17 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 18: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータ処理の構成技術②

©Satoshi Nakamura, NAIST, all right reserved. 18 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 19: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビッグデータ処理の構成技術③

©Satoshi Nakamura, NAIST, all right reserved. 19

センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタ NoSQL, Hbase, Hive

大規模分散フレームワーク Hadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理 分散OS,ファイル、並列プログラミング 翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模 パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ 科学者 コンサルタント ビジネスユーザ 一般ユーザ

アプリケーション例

検索/QA レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

Page 20: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

海外の動向

©Satoshi Nakamura, NAIST, all right reserved. 20 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料 情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 21: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

21

多元ビッグデータ解析に基づく知の創出研究拠点事業 -データ解析の世界的研究・教育拠点の創出- (平成28年度~平成31年度)

バイオサイエンス分野 (バイオ情報データ)

物質創成科学分野 (物質情報データ)

情報科学分野 (社会情報データ)

実世界を反映させたモデルの生成 共通モデルの組合せ+独自モデル

データの分析・可視化 多くの課題に共通した分析+独自分析

知の循環

・データから知見を得る手法を持つ人材を育成 ・知識力,分析力,洞察力,創造力,生産力 ・データの特性を理解するために必要な各分野の知識 ・大量のデータを効率良く扱うための知識

データサイエンティスト育成

データを活用するための要素に関する技術 ・匿名化 ・データベース ・機械学習 ・統計 ・人工知能 ・大規模演算処理

現状では、データは各研究科内でデータ処理 データサイエンス手法は活用されていない

データサイエンス基盤構築 共通課題の解決

企業 (購買履歴データ)

官公庁 (HEMSデータ)

膨大な未利用データ 活用手法が不在

複数課題に 共通する課題を 抽出・解決

消費電力可視化

購買履歴可視化

データ量の増加

戦略1:先端科学技術を先導する研究の推進 研究大学としての国際的な地位を確立するため、IRを活用した全学的視点からの研究マネジメントの下、現在の科学技術の基盤である情報・バイオ・物質とその融合領域において世界レベルの先端研究を推進し、科学技術の変革を牽引する。

背景

取 組

データサイエンスによる課題解決手法の確立により、今まででは得られなかった新たな科学的発見に よる知的価値を創造し、事実だけではなくその理由や根拠についても探求・応答できるシステムを構築

21

(独自評価指標) 研究成果:論文被引用数でTop1%の論文を1.2%以上にする (文部科学省提示指標) 論文数:年400報以上(教員1人当たり2報以上)の論文を国際誌に発表する 被引用数:論文被引用数でTop10%の論文を15%以上にする

Page 22: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及 o 金融工学、マーケティング

o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析

o 1980年から90年代 o 購入履歴データを利用して購買行動を分析

o RFM分析

o 1990年から現代 o インターネットで取得できる顧客情報とサイト内の行動を分析

©Satoshi Nakamura, NAIST, all right reserved. 22

Page 23: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。 o R(Recency:最終購買日)

o 直近でいつ買ったか

o F(Frequency:購買頻度)

o どのくらいの頻度で買っているか

o M(Monetary:累計購買金額)

o これまでにいくら使っているか

©Satoshi Nakamura, NAIST, all right reserved. 23

Page 24: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

マーケットバスケット分析

o トランザクション(取引)を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 =条件節 𝑋 と結論 𝑌 をともに含むトランザクション数

前提𝑋を含むトランザクション数

o 支持度 = 条件 𝑋 と結論 𝑌 を含むトランザクション数

全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズム o 高速に関係を見つけるアルゴリズム

2016/10/6 Satoshi NAKAMURA@AHC,NAIST 24

Page 25: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

センサーデータの分析

o スマートフォン;地理情報、センサー情報、行動データ、 facebook, twitter, 顧客データ解析

o スマート家電;

o ウェアラブルコンピュータ; 健康管理、AR

o 故障検出;運用中のデータ解析、航空機エンジン、 HEMS(Home Energy Management System)

©Satoshi Nakamura, NAIST, all right reserved. 25

Page 26: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データマイニングのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining (DaimlerChrysler, NCR, SPSS, Consortium)

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment

©Satoshi Nakamura, NAIST, all right reserved. 26

Page 27: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データマイニングシステム

2016/10/6 Satoshi NAKAMURA@AHC,NAIST 27

データベース

観測データ

座標、音声、画像…

インタフェース部

視覚化

データマイニング

推論

知識ベース、

Wiki- pedia

Page 28: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データマイニング技術

o クラスタリングシステム

o 分類システム、パターン認識システム

o 従属性判定システム o アソシエーション分析、相関分析

o 回帰システム

o 検定技術

o 可視化システム

2016/10/6 Satoshi NAKAMURA@AHC,NAIST 28

Page 29: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o データの取得

o データベースから取得 (MySQLなどの構造化データ、非構造化データ)

o Web から取得 (APIの利用、Webページスクレイピング)

o CSV ファイルからの取得

©Satoshi Nakamura, NAIST, all right reserved. 29

Page 30: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

Rでデータ解析

o R言語; オープンソース

o データ取得

o 統計解析

o 基本統計量、検定

o 多変量解析;主成分分析、多次元尺度構成法

o 回帰モデル;重回帰、ロジスティック回帰

o 機械学習;SVM,…

o データの可視化

o 棒グラフ、円グラフ、レーダーチャート…

©Satoshi Nakamura, NAIST, all right reserved. 30

Page 31: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparation o RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluation o 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understanding o 関係者へのヒアリング、質問力、理解力、傾聴力

o Deployment o 情報伝達力、説明力、説得力、プロジェクト推進力

©Satoshi Nakamura, NAIST, all right reserved. 31

Page 32: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

データサイエンスの成功条件

o KKD と KDD o KDD: Knowledge Discovery in Databases o KKD: 勘と経験と度胸 o 両者を統合する!

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する

©Satoshi Nakamura, NAIST, all right reserved. 32

Page 33: ビッグデータアナリティックス · o 1960年から70年代 o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析 o 1980年から90年代

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”- ドラッカー

©Satoshi Nakamura, NAIST, all right reserved. 33