naist - ビッグデータアナリティックス...apache spark による大規模データ処理...

ビッグデータアナリティックス（2015年度）

中村哲 NAIST 知能コミュニケーション研究室

鈴木優 NAIST 多元ビッグデータプロジェクト

吉野幸一郎 NAIST 多元ビッグデータプロジェクト

金谷重彦 NAIST 計算機システムズ生物学研究室

岩爪道昭国立研究開発法人情報通信研究機構

松井くにお NIFTY 株式会社

o ビールとおむつ

o 「米国の大手スーパーマーケット・チェーンで販売データを分析した結果、顧客はおむつとビールを一緒に買う傾向があることが分かった。」

o 「調査の結果、子供のいる家庭では母親はかさばる紙おむつを買うように父親に頼み、店に来た父親はついでに缶ビールを購入していた。そこでこの2つを並べて陳列したところ、売り上げが上昇した」

2015/10/8 Satoshi NAKAMURA@AHC,NAIST 2

ビッグデータアナリティクス

o ビッグデータとはなんだろう？

o 大きいってどのぐらい？

o どんなデータのことなの？

o なにが研究として新しいの？

o なにがすごいの？

o じゃあ、どうやればいいのか教えてよ。

©Satoshi Nakamura, NAIST, all right reserved. 3

本講義の構成

第1回 10/9 中村ビッグデータ解析概論（レポート）

第2回 10/16 鈴木特任准教授 Apache Spark 分散計算

第3回 10/23 吉野特任助教ビッグデータにおける機械学習（課題発

表）

第4回 10/30 岩爪先生クローリング、ランキング（レポート）

第5回 11/6 松井先生テキストマイニング（課題発表）

第6回 11/13 課題発表会１ (第2，3回鈴木+吉野分)

第7回 11/20 金谷先生健康維持のためのオミックス・プラット

フォーム

第8回 11/27 課題発表会２（第5回松井先生分）


単位の取り方

o 各講義の出席、演習、レポート

o 最終回のレポートを合計して、成績を出します。


進め方

o グループにわかれて演習を行う

o グループ分けは2回目から

o 研究室でグループをつくって良い（相談、作業がしやすいように）

o グループは必ずしも固定しない


ビッグデータアナリティクス2013

２０１３年度は演習の結果の一部を、

o ニフティフォーラムシンポジウムにて発表

o 情報社会学会にて発表

しました。


本講義の構成

第1回 10/9 中村ビッグデータ解析概論（レポート）

第2回 10/16 鈴木特任准教授 Apache Spark 分散計算

第3回 10/23 吉野特任助教ビッグデータにおける機械学習（課題発

表）

第4回 10/30 岩爪先生クローリング、ランキング（レポート）

第5回 11/6 松井先生テキストマイニング（課題発表）

第6回 11/13 課題発表会１ (第2，3回鈴木+吉野分)

第7回 11/20 金谷先生健康維持のためのオミックス・プラット

フォーム

第8回 11/27 課題発表会２（第5回松井先生分）


Apache Spark による大規模データ処理鈴木特任准教授

o 担当: 鈴木優 (NAIST)

o 概要: 大量のデータを分散処理する方法として， Apache Spark を活用する方法について探る．実際に Twitter などのデータを分析することによって，新しい関係性の発見を体験する．

o 進め方：o 10/16

o Apache Spark の解説．分析事例の紹介．分析対象データの紹介

o 分析テーマの設定（チーム単位）

o 11/1３o 分析プログラム実行・評価（チーム単位）

o 分析結果・感想の共有（チーム単位）

ビッグデータにおける機械学習吉野特任助教

o 担当: 吉野幸一郎 (NAIST)

o 概要: 大量のデータが利用可能になったことにより，機械学習を用いたデータ処理が注目されている．本講義では，機械学習の基本的な考え方，教師あり・教師なし学習の違い，基本的なアルゴリズムなどを解説する．また，実際のTwitter分析を例にとりどのように問題を設定・解決するかを体験する．

o 進め方：o 10/23

o 機械学習の概要，基本的なアルゴリズムの解説

o 分析テーマの設定（チーム単位） (“Apache Spark による大規模データ処理”と合同)

o 11/1３:o 分析プログラム実行・評価（チーム単位）

o 分析結果・感想の共有（チーム単位）


大規模Web情報処理岩爪道昭（情報通信研究機構）

o Webは、今や我々の生活に欠くことの出来ない経済・社会インフラとなっており、実世界の写し鏡として、日々莫大な情報が流通している。本講義では、最も身近なビッグデータの一つとして、大規模なWeb情報を利活用するために不可欠な基盤技術とその応用について、具体的な研究開発事例を交えながら概説する。

o 主なトピック（予定）

• 導入：ビッグデータとしてのWeb

• 大規模Webクローリング

分散並列クローリング

• 大規模Web解析のための基盤技術

大規模Webアーカイブのためのデータストア、大規模リンク解析

• ビッグデータとしてのオープンデータ

オープン・リンクド・データ

• 大規模Web情報処理を支える計算機基盤の構築と運用等


テキストマイニングとソーシャルメディアアナリシス技術松井くにお（NIFTY株式会社）

o 1１月６日o 分析とは

o なぜビックデータか

o デイリーポータルZの紹介o 全体、フォーマット、処理

o 分析例

o Rを使って分析してみようo 宿題（テーマ課題、自由課題）

o 1１月2７日o 自由課題の発表

o 発表5分コメント5分 ×6チーム

o 総括１（発表に関して）

o 総括２（トピック）©Satoshi Nakamura, NAIST, all right reserved. 12

健康維持のためのオミックス・プラットフォーム「バイオ・ビッグデータに挑む」

金谷重彦奈良先端科学技術大学院大学・情報科学研究科・計算システムズ生物学

13

[0]バイオインフォマティクス、

ネットワークバイオロジー、ビッグデータバイオロジー、

[1]KNApSAcK: 生物種-代謝物関係データベース

[2]配合生薬(機能性食品)とヒトの効能の関係

[3]生活習慣病予防データベース（栄養学、医学、薬膳…）

[4]料理の構築原理：雑煮とレトルトカレーの食材配合

[5]代謝物-活性データベース

[6]今後の課題http://kanaya.naist.jp/KNApSAcK_Family/

ビッグデータアナリティクス

o ビッグデータとはなんだろう？

o 大きいってどのぐらい？

o どんなデータのことなの？

o なにが研究として新しいの？

o なにがすごいの？

o じゃあ、どうやればいいのか教えてよ。


ビッグデータとは-①

©Satoshi Nakamura, NAIST, all right reserved. 15情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料

E-Science データDNA, 病気、

気象、宇宙観測、分子配列等

ビッグデータとは-②


ビッグデータとは-③


どのぐらいの大きさか


Web Size


センサーの進化


なぜ今必要なのか①

©Satoshi Nakamura, NAIST, all right reserved. 21情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料情報通信審議会新事業創出戦略委員会・研究開発戦略委員会 ICT基本戦略ボード（第7回）会議資料

参考本


なぜ今必要なのか


ビッグデータ処理の構成技術①


ビッグデータ処理の構成技術②


ビッグデータ処理の構成技術③


センサーデータ Blogs, E-mail Web Data Docs, PDFs Images/Videos

高速ネットワーク, データ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase, Hive

大規模分散フレームワークHadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、ＰＭＢＯＫ

ネットワーク・データ, セキュリティ

非構造化・ストリームデータ処理分散OS,ファイル、並列プログラミング翻訳、意味解析, 知識獲得構造化

評判、信頼性分析

テキスト、画像、音声超大規模パターン認識、機械学習

データマイニング, Linked Data, Deep QA

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ, プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者コンサルタントビジネスユーザ一般ユーザ

アプリケーション例

検索/QA レコメンデーションナビゲーション

知識獲得・抽出関連分析信憑性分析

海外の動向


NITRD

The NITRD Program provides a framework in which many Federal agencies come together to coordinate their networking and information technology (IT) research and development (R&D) efforts.

The NITRD Program has its focus on the following research areas:

o Big Data (BD)

o Cyber Security and Information Assurance (CSIA)

o Health Information Technology Research and Development (Health IT R&D)

o Human Computer Interaction and Information Management (HCI&IM)

o High Confidence Software and Systems (HCSS)

o High End Computing (HEC)

o Large Scale Networking (LSN)

o Software Design and Productivity (SDP)

o Social, Economic, and Workforce Implications of IT and IT Workforce Development (SEW)

o Wireless Spectrum Research and Development (WSRD)


http://www.nitrd.gov/about/about_nitrd.aspx

http://www.nitrd.gov/Subcommittee/bigdata.aspx

http://www.nitrd.gov/Subcommittee/csia.aspx

http://www.nitrd.gov/Subcommittee/healthitrd.aspx

http://www.nitrd.gov/Subcommittee/hciim.aspx

http://www.nitrd.gov/Subcommittee/hcss.aspx

http://www.nitrd.gov/Subcommittee/hec.aspx

http://www.nitrd.gov/Subcommittee/lsn.aspx

http://www.nitrd.gov/Subcommittee/sdp.aspx

http://www.nitrd.gov/Subcommittee/sew.aspx

http://www.nitrd.gov/Subcommittee/wirelessspectrumrd.aspx

社会的課題：人材の不足


言語の役割①: 多元データの関連づけ


実物１

実物２

情報１日本語

情報２写真動画発話

情報３新聞

情報４

情報５

名前、説明、ブログ文、感想発話、写真、動画

実物、商品

テキストタグの付与

テキストタグ

テキストタグ

テキストタグ

テキストタグ

テキストタグ

テキストタグ

情報１’英語

データ、サービス提供モデル (SaaS) E-Commerce サービス

言語処理

ビジネス分析手法の変遷

o ビッグデータ ⇒ ビジネスへの波及o 金融工学、マーケティング

o 1960年から70年代o 購入時に得られた顧客の属性データ（住所、年代、性別）を分析

o 1980年から９０年代o 購入履歴データを利用して購買行動を分析

o ＲＦＭ分析

o 1990年から現代o インターネットで取得できる顧客情報とサイト内の行動を分析


RFM分析

o RFM分析は顧客のこれまでの購買行動・購買履歴から、優良顧客の抽出などを行う顧客分析手法のひとつ。

o 企業は自社の顧客データベースおよび購入履歴を対象に、前回の購入からどれだけ時間が経っているか、これまでに何回購入したか、その人が顧客となってからいくら使ったかを基準にして分類する。

o 具体的には以下の3つの観点から指標化し、顧客を分類する。

o R（Recency：最終購買日）

o 直近でいつ買ったか

o F（Frequency：購買頻度）

o どのくらいの頻度で買っているか

o M（Monetary：累計購買金額）

o これまでにいくら使っているか


マーケットバスケット分析

o トランザクション（取引）を分析して、同時に購入される商品の組み合わせの分析を行う。

o アソシエーション分析

o アソシエーションルール「おむつ(X)⇒ビール(Y)」

o 信頼度 =条件節 𝑋 と結論 𝑌 をともに含むトランザクション数

前提𝑋を含むトランザクション数

o 支持度 =条件 𝑋 と結論 𝑌 を含むトランザクション数

全トランザクション数

⇒ 支持度が高く、信頼度が高い関係をみつける

o アプリオリアルゴリズムo 高速に関係を見つけるアルゴリズム


センサーデータの分析

o スマートフォン；地理情報、センサー情報、行動データ、facebook, twitter, 顧客データ解析

o スマート家電；

o ウェアラブルコンピュータ；健康管理、AR

o 故障検出；運用中のデータ解析、航空機エンジン、HEMS(Home Energy Management System)


データの種類

① 表形式データ

② トランザクション形式データ

o POSデータ、リレーショナルデータ

③ テキスト（自然言語文）

o 社内電子文書、メール、Web、Twitter

④ 系列データ

o 時間的、空間的連続データ。センシングデータ、音声、画像など

o これら単独形式か、統合形式か


データマイニングのプロセス

o CRISP-DMDaimlerChrysler, NCR, SPSS, Consortium

o SEMMASAS社 Sample, Explore, Modify, Model, Assess

o KDDKnowledge Discovery in Databases


データマイニングのプロセス

o CRISP-DM Cross Industry Standard Process for Data Mining

① Business Understanding

② Data Understanding

③ Data Preparation

④ Modeling

⑤ Evaluation

⑥ Deployment


データマイニングシステム


データベース

観測データ

座標、音声、画像…

インタフェース部

視覚化

データマイニング

推論

知識ベース、

Wiki-pedia

Data Preparation

o データ準備で必要な作業

o データの種類の規定

o データの正規化

o 欠損値の検査、操作、除去

o 外れ値の扱い


データマイニング技術

o クラスタリングシステム

o 分類システム、パターン認識システム

o 従属性判定システムo アソシエーション分析、相関分析

o 回帰システム

o 検定技術

o 可視化システム


データサイエンティストリテラシー

o データ分析ソフトウェア

o Excel, R

o BI tools (SAS Enterprise Miner, IBM Cognos, Oracle Business Analytics, SAP Business Objects, Microsoft SQL, …)

o データの取得

o データベースから取得(MySQLなどの構造化データ、非構造化データ）

o Web から取得（APIの利用、Webページスクレイピング）

o CSV ファイルからの取得


ビッグデータインフラ

o データベース

o RDBMS(Relational Database Management System)

o NoSQL (Not only SQL), Key Value Store

o データベースシステム（分散計算）

o Hadoop; Google がオリジン

o Dynamo; Amazon

o Cassandra; Facebook

o MongoDB; 10gen.com

o VoltDB; M.Stonebraker, PostgreSQL

o Voldemort; LinkedIn

o Apache Spark


Ｒでデータ解析

o Ｒ言語；オープンソース

o データ取得

o 統計解析o 基本統計量、検定

o 多変量解析；主成分分析、多次元尺度構成法

o 回帰モデル；重回帰、ロジスティック回帰

o 機械学習；SVM,…

o データの可視化o 棒グラフ、円グラフ、レーダーチャート…


データサイエンティスト協会

o データサイエンティスト協会（2013年5月設立）

o データサイエンティストのスキル標準(DSSS)について


データサイエンティストのスキル

o ハードスキル

o Data Understanding, Data Preparationo RDBMS, SQL, Hadoop, JAVA, HDFS, MapReduce, Hive, Linux

o Modeling, Evaluationo 統計解析、機械学習、R, Python, Perl, GUI

o ソフトスキル

o Bussiness Understanding, Data Understandingo 関係者へのヒアリング、質問力、理解力、傾聴力

o Deploymento 情報伝達力、説明力、説得力、プロジェクト推進力


参考本


データマイニングに必要な10のアルゴリズム

① Ｃ４．５

② K-means アルゴリズム

③ サポートベクターマシン

④ アプリオリアルゴリズム

⑤ ＥＭアルゴリズム

⑥ ページランク

⑦ アダブースト

⑧ K-近傍分類

⑨ ナイーブベイズ

⑩ CART

よく勉強しておきましょう。


参考本


分析とサービス

o サービス

o より早く、より簡便なユーザビリティ

o 分析

o より詳細にログをとりたい

o 両者は対立する。。。。


データサイエンスの成功条件

o KKD と KDDo KDD: Knowledge Discovery in Databaseso KKD: 勘と経験と度胸o 両者を統合する！

o 統計的な正確さよりビジネスの成功を

o 共変関係と因果関係を見極める

o 人的ナレッジを活用する

o データ品質の検証

o データの蓄積システムを準備する©Satoshi Nakamura, NAIST, all right reserved. 51

参考本


多元ビッグデータ解析に基づく知の創出研究拠点事業

情報科学研究科(主担当）

バイオサイエンス研究科

物質創成科学研究科

センサーデータ

Blogs, E-mail

WebData

Docs,PDFs

Images/Videos

高速ネットワークデータ、アクセス

クローリング、フィルタリング

データセンタNoSQL, Hbase,

Hive

大規模分散フレームワーク

Hadoop, Map Reduce

大規模Webアプリケーション、HTML5

メタデータ設計

スケジューリング

開発言語、SDK

大規模プロジェクトマネジメント、ＰＭＢＯＫ

ネットワーク・データセキュリティ

非構造化・ストリームデータ処理

分散OS,ファイル、並列プログラミング

翻訳、意味解析知識獲得構造化

評判、信頼性分析

テキスト、画像、音声超大規模

パターン認識、機械学習

データマイニングLinked Data, 質問応答

マルチレイヤオーバーレイネットワーク

サイバーセキュリティ

プライバシー保護技術

メディア情報処理系研究課題

コンピュータサイエンス系研究課題

プログラマ科学者コンサルタントビジネスユーザ

一般ユーザ

アプリケーション

質問応答, 検索レコメンデーションナビゲーション

知識獲得・抽出関連分析信憑性分析

多元ビッグデータ解析システム

生体関連物質機能構造要素

異性体・化学反応生体関連物質,構造機能相関

物性・構造グラフマイニング

化合物精密3D構造超分子複合体合成法予測

物質情報：

環境，エネルギー問題

化学式１次元

新規機能性材料

環境適合性材料開発

物質情報

Web, blog, twitter, chat

対話データ多言語Text

動画、youtube

生活、社会情報：

ライフ、イノベーション基盤

テキスト、音声,音響

１次元

社会、経済、生活に関する新たな知識の収集，発見，構造化，分析，翻訳，変換，検索，推論，予測、可視化、質問応答技術開発

生活社会情報

ゲノム多様性

転写情報発現情報

タンパク質精密3D構造超分子複合体

１次元genomes

バイオ情報生体情報

医療、食料、生命問題

ゲノム設計細胞設計

新規機能性材料探索

３次元MetabolomeInteractome

静止画写真

三次元インタラクション、モーション

三次元構造、ビジョン３次元３体関係

２次元２体関係

２次元２体関係

３次元３体関係

代謝ネットワーク遺伝的相互作用

２次元Transcriptome

Proteome


citizendata

centercompanycollect analyze

Trajectory data

Genome data

food data

Weather

Cognitive computingMachine learningData engineeringNatural language processingBig data analytics

Social network services

Analytics

Illness

EconomicsTourism, Navigation

Dr. Satoshi Nakamura, NAIST, Japan 55

Overview of NAIST Big Data Analytics

10/3/2015

Citizen

Data center

analyze Company

HEMS datatrajectory

statistics

Provide good service

temperatureweather data

外部情報外部情報外部情報Publicinformation

Accumulation of bigdata

knowledge

HEMS Data Analysis

Dr. Satoshi Nakamura, NAIST, Japan 5610/3/2015

HEMS Visualization

Dr. Satoshi Nakamura, NAIST, Japan 5710/3/2015

../../../../++学会関係/2015 10 京都ケベックシンポ/hems-light.mov

../../../../++学会関係/2015 10 京都ケベックシンポ/hems-light.mov

最後に

o “重要なことは、正しい答えを見つけることではなく、正しい問いを見つけることである”－ドラッカー


ちなみにドラッカーって…


おわり


naist - ビッグデータアナリティックス...apache spark による大規模データ処理...

Documents