naist - ビッグデータアナリティックス...apache spark による大規模データ処理...

60
ビッグデータアナリティックス (2015年度) 中村 NAIST 知能コミュニケーション研究室 鈴木 NAIST 多元ビッグデータプロジェクト 吉野幸一郎 NAIST 多元ビッグデータプロジェクト 金谷 重彦 NAIST 計算機システムズ生物学研究室 岩爪 道昭 国立研究開発法人 情報通信研究機構 松井くにお NIFTY 株式会社

Upload: others

Post on 26-Jan-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータアナリティックス(2015年度)

中村 哲 NAIST 知能コミュニケーション研究室

鈴木 優 NAIST 多元ビッグデータプロジェクト

吉野幸一郎 NAIST 多元ビッグデータプロジェクト

金谷 重彦 NAIST 計算機システムズ生物学研究室

岩爪 道昭 国立研究開発法人 情報通信研究機構

松井くにお NIFTY 株式会社

Page 2: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

o ビールとおむつ

o 「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。」

o 「調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 2

Page 3: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

Page 4: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

本講義の構成

第1回 10/9 中村 ビッグデータ解析概論(レポート)

第2回 10/16 鈴木特任准教授 Apache Spark 分散計算

第3回 10/23 吉野特任助教 ビッグデータにおける機械学習(課題発

表)

第4回 10/30 岩爪先生 クローリング、ランキング (レポート)

第5回 11/6 松井先生 テキストマイニング(課題発表)

第6回 11/13 課題発表会1 (第2,3回 鈴木+吉野分)

第7回 11/20 金谷先生 健康維持のためのオミックス・プラット

フォーム

第8回 11/27 課題発表会2 (第5回 松井先生分)

©Satoshi Nakamura, NAIST, all right reserved. 4

Page 5: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

単位の取り方

o 各講義の出席、演習、レポート

o 最終回のレポートを合計して、成績を出します。

©Satoshi Nakamura, NAIST, all right reserved. 5

Page 6: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い(相談、作業がしやすいように)

o グループは必ずしも固定しない

©Satoshi Nakamura, NAIST, all right reserved. 6

Page 7: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータアナリティクス2013

2013年度は演習の結果の一部を、

o ニフティフォーラムシンポジウムにて発表

o 情報社会学会にて発表

しました。

©Satoshi Nakamura, NAIST, all right reserved. 7

Page 8: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

本講義の構成

第1回 10/9 中村 ビッグデータ解析概論(レポート)

第2回 10/16 鈴木特任准教授 Apache Spark 分散計算

第3回 10/23 吉野特任助教 ビッグデータにおける機械学習(課題発

表)

第4回 10/30 岩爪先生 クローリング、ランキング (レポート)

第5回 11/6 松井先生 テキストマイニング(課題発表)

第6回 11/13 課題発表会1 (第2,3回 鈴木+吉野分)

第7回 11/20 金谷先生 健康維持のためのオミックス・プラット

フォーム

第8回 11/27 課題発表会2 (第5回 松井先生分)

©Satoshi Nakamura, NAIST, all right reserved. 8

Page 9: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

Apache Spark による大規模データ処理鈴木 特任准教授

o 担当: 鈴木 優 (NAIST)

o 概要: 大量のデータを分散処理する方法として, Apache Spark を活用する方法について探る.実際に Twitter などのデータを分析することによって,新しい関係性の発見を体験する.

o 進め方:o 10/16

o Apache Spark の解説.分析事例の紹介.分析対象データの紹介

o 分析テーマの設定(チーム単位)

o 11/13o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

Page 10: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータにおける機械学習吉野 特任助教

o 担当: 吉野 幸一郎 (NAIST)

o 概要: 大量のデータが利用可能になったことにより,機械学習を用いたデータ処理が注目されている.本講義では,機械学習の基本的な考え方,教師あり・教師なし学習の違い,基本的なアルゴリズムなどを解説する.また,実際のTwitter分析を例にとりどのように問題を設定・解決するかを体験する.

o 進め方:o 10/23

o 機械学習の概要,基本的なアルゴリズムの解説

o 分析テーマの設定(チーム単位) (“Apache Spark による大規模データ処理”と合同)

o 11/13:o 分析プログラム実行・評価(チーム単位)

o 分析結果・感想の共有(チーム単位)

©Satoshi Nakamura, NAIST, all right reserved. 10

Page 11: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

大規模Web情報処理岩爪 道昭(情報通信研究機構)

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック(予定)

• 導入:ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用 等

©Satoshi Nakamura, NAIST, all right reserved. 11

Page 12: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

テキストマイニングとソーシャルメディアアナリシス技術松井 くにお(NIFTY株式会社)

o 11月6日o 分析とは

o なぜビックデータか

o デイリーポータルZの紹介o 全体、フォーマット、処理

o 分析例

o Rを使って分析してみようo 宿題(テーマ課題、自由課題)

o 11月27日o 自由課題の発表

o 発表5分 コメント5分 ×6チーム

o 総括1(発表に関して)

o 総括2(トピック)©Satoshi Nakamura, NAIST, all right reserved. 12

Page 13: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

健康維持のためのオミックス・プラットフォーム「バイオ・ビッグデータに挑む」

金谷 重彦奈良先端科学技術大学院大学・情報科学研究科・計算システムズ生物学

13

[0]バイオインフォマティクス、

ネットワークバイオロジー、ビッグデータバイオロジー、

[1]KNApSAcK: 生物種-代謝物関係データベース

[2]配合生薬(機能性食品)とヒトの効能の関係

[3]生活習慣病 予防データベース(栄養学、医学、薬膳…)

[4]料理の構築原理:雑煮とレトルトカレーの食材配合

[5]代謝物-活性データベース

[6]今後の課題http://kanaya.naist.jp/KNApSAcK_Family/

Page 14: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータアナリティクス

o ビッグデータとはなんだろう?

o 大きいってどのぐらい?

o どんなデータのことなの?

o なにが研究として新しいの?

o なにがすごいの?

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 14

Page 15: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 15情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

E-Science データDNA, 病気、

気象、宇宙観測、分子配列 等

Page 16: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータとは-②

©Satoshi Nakamura, NAIST, all right reserved. 16情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 17: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータとは-③

©Satoshi Nakamura, NAIST, all right reserved. 17情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 18: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

どのぐらいの大きさか

©Satoshi Nakamura, NAIST, all right reserved. 18情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 19: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

Web Size

©Satoshi Nakamura, NAIST, all right reserved. 19

Page 20: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

センサーの進化

©Satoshi Nakamura, NAIST, all right reserved. 20情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 21: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

なぜ今必要なのか①

©Satoshi Nakamura, NAIST, all right reserved. 21情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 22: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

参考本

©Satoshi Nakamura, NAIST, all right reserved. 22

Page 23: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

参考本

©Satoshi Nakamura, NAIST, all right reserved. 23

Page 24: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

なぜ今必要なのか

©Satoshi Nakamura, NAIST, all right reserved. 24情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 25: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータ処理の構成技術①

©Satoshi Nakamura, NAIST, all right reserved. 25情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 26: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータ処理の構成技術②

©Satoshi Nakamura, NAIST, all right reserved. 26情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 27: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータ処理の構成技術③

©Satoshi Nakamura, NAIST, all right reserved. 27

センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase, Hive

大規模分散フレームワークHadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理分散OS,ファイル、並列プログラミング翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者 コンサルタント ビジネスユーザ 一般ユーザ

アプリケーション例

検索/QA レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

Page 28: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

海外の動向

©Satoshi Nakamura, NAIST, all right reserved. 28情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 29: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

NITRD

The NITRD Program provides a framework in which many Federal agencies come together to coordinate their networking and information technology (IT) research and development (R&D) efforts.

The NITRD Program has its focus on the following research areas:

o Big Data (BD)

o Cyber Security and Information Assurance (CSIA)

o Health Information Technology Research and Development (Health IT R&D)

o Human Computer Interaction and Information Management (HCI&IM)

o High Confidence Software and Systems (HCSS)

o High End Computing (HEC)

o Large Scale Networking (LSN)

o Software Design and Productivity (SDP)

o Social, Economic, and Workforce Implications of IT and IT Workforce Development (SEW)

o Wireless Spectrum Research and Development (WSRD)

©Satoshi Nakamura, NAIST, all right reserved. 29

Page 30: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

社会的課題:人材の不足

©Satoshi Nakamura, NAIST, all right reserved. 30情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料情報通信審議会 新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード(第7回)会議資料

Page 31: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

言語の役割①: 多元データの関連づけ

©Satoshi Nakamura, NAIST, all right reserved. 31

実物1

実物2

情報1日本語

情報2写真動画発話

情報3新聞

情報4

情報5

名前、説明、ブログ文、感想発話、写真、動画

実物、商品

テキストタグの付与

テキストタグ

テキストタグ

テキストタグ

テキストタグ

テキストタグ

テキストタグ

情報1’英語

データ、サービス提供モデル (SaaS) E-Commerce サービス

言語処理

Page 32: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及o 金融工学、マーケティング

o 1960年から70年代o 購入時に得られた顧客の属性データ(住所、年代、性別)を分析

o 1980年から90年代o 購入履歴データを利用して購買行動を分析

o RFM分析

o 1990年から現代o インターネットで取得できる顧客情報とサイト内の行動を分析

©Satoshi Nakamura, NAIST, all right reserved. 32

Page 33: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。

o R(Recency:最終購買日)

o 直近でいつ買ったか

o F(Frequency:購買頻度)

o どのくらいの頻度で買っているか

o M(Monetary:累計購買金額)

o これまでにいくら使っているか

©Satoshi Nakamura, NAIST, all right reserved. 33

Page 34: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

マーケットバスケット分析

o トランザクション(取引)を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 =条件節 𝑋 と結論 𝑌 をともに含むトランザクション数

前提𝑋を含むトランザクション数

o 支持度 =条件 𝑋 と結論 𝑌 を含むトランザクション数

全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズムo 高速に関係を見つけるアルゴリズム

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 34

Page 35: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

センサーデータの分析

o スマートフォン;地理情報、センサー情報、行動データ、facebook, twitter, 顧客データ解析

o スマート家電;

o ウェアラブルコンピュータ; 健康管理、AR

o 故障検出;運用中のデータ解析、航空機エンジン、HEMS(Home Energy Management System)

©Satoshi Nakamura, NAIST, all right reserved. 35

Page 36: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データの種類

① 表形式データ

② トランザクション形式データ

o POSデータ、リレーショナルデータ

③ テキスト(自然言語文)

o 社内電子文書、メール、Web、Twitter

④ 系列データ

o 時間的、空間的連続データ。センシングデータ、音声、画像など

o これら単独形式か、統合形式か

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 36

Page 37: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データマイニングのプロセス

o CRISP-DMDaimlerChrysler, NCR, SPSS, Consortium

o SEMMASAS社 Sample, Explore, Modify, Model, Assess

o KDDKnowledge Discovery in Databases

©Satoshi Nakamura, NAIST, all right reserved. 37

Page 38: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データマイニングのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment

©Satoshi Nakamura, NAIST, all right reserved. 38

Page 39: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データマイニングシステム

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 39

データベース

観測データ

座標、音声、画像…

インタフェース部

視覚化

データマイニング

推論

知識ベース、

Wiki-pedia

Page 40: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

Data Preparation

o データ準備で必要な作業

o データの種類の規定

o データの正規化

o 欠損値の検査、操作、除去

o 外れ値の扱い

©Satoshi Nakamura, NAIST, all right reserved. 40

Page 41: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データマイニング技術

o クラスタリングシステム

o 分類システム、パターン認識システム

o 従属性判定システムo アソシエーション分析、相関分析

o 回帰システム

o 検定技術

o 可視化システム

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 41

Page 42: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o データの取得

o データベースから取得(MySQLなどの構造化データ、非構造化データ)

o Web から取得 (APIの利用、Webページスクレイピング)

o CSV ファイルからの取得

©Satoshi Nakamura, NAIST, all right reserved. 42

Page 43: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ビッグデータインフラ

o データベース

o RDBMS(Relational Database Management System)

o NoSQL (Not only SQL), Key Value Store

o データベースシステム(分散計算)

o Hadoop; Google がオリジン

o Dynamo; Amazon

o Cassandra; Facebook

o MongoDB; 10gen.com

o VoltDB; M.Stonebraker, PostgreSQL

o Voldemort; LinkedIn

o Apache Spark

©Satoshi Nakamura, NAIST, all right reserved. 43

Page 44: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

Rでデータ解析

o R言語; オープンソース

o データ取得

o 統計解析o 基本統計量、検定

o 多変量解析;主成分分析、多次元尺度構成法

o 回帰モデル;重回帰、ロジスティック回帰

o 機械学習;SVM,…

o データの可視化o 棒グラフ、円グラフ、レーダーチャート…

©Satoshi Nakamura, NAIST, all right reserved. 44

Page 45: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データサイエンティスト協会

o データサイエンティスト協会(2013年5月設立)

o データサイエンティストのスキル標準(DSSS)について

©Satoshi Nakamura, NAIST, all right reserved. 45

Page 46: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparationo RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluationo 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understandingo 関係者へのヒアリング、質問力、理解力、傾聴力

o Deploymento 情報伝達力、説明力、説得力、プロジェクト推進力

©Satoshi Nakamura, NAIST, all right reserved. 46

Page 47: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

参考本

©Satoshi Nakamura, NAIST, all right reserved. 47

Page 48: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データマイニングに必要な10のアルゴリズム

① C4.5

② K-means アルゴリズム

③ サポートベクターマシン

④ アプリオリアルゴリズム

⑤ EMアルゴリズム

⑥ ページランク

⑦ アダブースト

⑧ K-近傍分類

⑨ ナイーブベイズ

⑩ CART

よく勉強しておきましょう。

©Satoshi Nakamura, NAIST, all right reserved. 48

Page 49: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

参考本

©Satoshi Nakamura, NAIST, all right reserved. 49

Page 50: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

分析とサービス

o サービス

o より早く、より簡便なユーザビリティ

o 分析

o より詳細にログをとりたい

o 両者は対立する。。。。

©Satoshi Nakamura, NAIST, all right reserved. 50

Page 51: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

データサイエンスの成功条件

o KKD と KDDo KDD: Knowledge Discovery in Databaseso KKD: 勘と経験と度胸o 両者を統合する!

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する©Satoshi Nakamura, NAIST, all right reserved. 51

Page 52: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

参考本

©Satoshi Nakamura, NAIST, all right reserved. 52

Page 53: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

多元ビッグデータ解析に基づく知の創出研究拠点事業

情報科学研究科(主担当)

バイオサイエンス研究科

物質創成科学研究科

Page 54: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

センサーデータ

Blogs, E-mail

WebData

Docs,PDFs

Images/Videos

高速ネットワークデータ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase,

Hive

大規模分散フレームワーク

Hadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、PMBOK

ネットワーク・データセキュリティ

非構造化・ストリームデータ処理

分散OS,ファイル、並列プログラミング

翻訳、意味解析知識獲得構造化

評判、信頼性分析

テキスト、画像、音声 超大規模

パターン認識、機械学習

データマイニングLinked Data, 質問応答

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ

プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者 コンサルタント ビジネスユーザ

一般ユーザ

アプリケーション

質問応答, 検索 レコメンデーション ナビゲーション

知識獲得・抽出 関連分析 信憑性分析

多元ビッグデータ解析システム

生体関連物質機能構造要素

異性体・化学反応生体関連物質,構造機能相関

物性・構造グラフマイニング

化合物精密3D構造超分子複合体合成法予測

物質情報:

環境,エネルギー問題

化学式1次元

新規機能性材料

環境適合性材料開発

物質情報

Web, blog, twitter, chat

対話データ多言語Text

動画、youtube

生活、社会情報:

ライフ、イノベーション基盤

テキスト、音声,音響

1次元

社会、経済、生活に関する新たな知識の収集,発見,構造化,分析,翻訳,変換,検索,推論,予測、可視化、質問応答技術開発

生活社会情報

ゲノム多様性

転写情報発現情報

タンパク質精密3D構造超分子複合体

1次元genomes

バイオ情報生体情報

医療、食料、生命問題

ゲノム設計細胞設計

新規機能性材料探索

3次元MetabolomeInteractome

静止画写真

三次元インタラクション、モーション

三次元構造、ビジョン3次元3体関係

2次元2体関係

2次元2体関係

3次元3体関係

代謝ネットワーク遺伝的相互作用

2次元Transcriptome

Proteome

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 54

Page 55: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

citizendata

centercompanycollect analyze

Trajectory data

Genome data

food data

Weather

Cognitive computingMachine learningData engineeringNatural language processingBig data analytics

Social network services

Analytics

Illness

EconomicsTourism, Navigation

Dr. Satoshi Nakamura, NAIST, Japan 55

Overview of NAIST Big Data Analytics

10/3/2015

Page 56: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

Citizen

Data center

analyze Company

HEMS datatrajectory

statistics

Provide good service

temperatureweather data

外部情報外部情報外部情報Publicinformation

Accumulation of bigdata

knowledge

HEMS Data Analysis

Dr. Satoshi Nakamura, NAIST, Japan 5610/3/2015

Page 58: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”- ドラッカー

©Satoshi Nakamura, NAIST, all right reserved. 58

Page 59: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

ちなみにドラッカーって…

©Satoshi Nakamura, NAIST, all right reserved. 59

Page 60: NAIST - ビッグデータアナリティックス...Apache Spark による大規模データ処理 鈴木特任准教授 o 担当: 鈴木優(NAIST) o 概要: 大量のデータを分散処理する方法として,Apache

おわり

©Satoshi Nakamura, NAIST, all right reserved. 60