matlab による大規模フリートデータ解析 part 1: デスクトッ …...apachetm hadoop /...

MATLAB による大規模フリートデータ解析

Part 1: デスクトップ編

MathWorks Japan

アプリケーションエンジニアリング部

齊藤甲次朗

アジェンダ

▪ はじめに

– ビッグデータ解析の課題

▪ フリートデータ解析実践

– デスクトップでの解析

25 GB/ 1 hour

フリートデータ解析を含むビッグデータ解析の課題

1. ビッグデータのための新しいツールを学ぶコストが掛かる

2. 大規模な計算に移行するために、プロトタイプで書いたコードの書き直し

が必要になる

フリートデータ解析実践

▪ MathWorksの社員が

車にOBDドングルを付け走行データを記録

車両： 21台

トリップ数：1300以上

チャネル数：39

データ収集期間：約1.5年

フリートデータ解析実践使用するデータ

データベース

• データの整形• ファイル生成

4G LTE

Bluetooth

OBD IIスマートフォン

MATLAB Production ServerTM

Request

Broker

Program

Manager

全てのデータをダウンロードしてMATファイルに変換

フリートデータ解析のワークフロー

システムへの統合

デスクトップアプリケーション

エンタープライズシステム

組込デバイスとハードウェア

ファイル

データベース

センサー

データへのアクセス予測モデルの開発

モデルの作成(機械学習)

モデルの検証

パラメータ最適化

データの前処理

異常・欠損データの扱い

データ削減/

変換

特徴抽出

ビッグデータの扱いフリートデータ解析サマリー

デスクトップPCでの解析

ステップ1 ステップ2

Hadoopクラスターでの解析

Hadoop® / SparkTM

フリートデータ解析実践デスクトップでの解析

フリートデータ解析アルゴリズムを検討するために、

まずはデスクトップで試行錯誤

ステップ1

今後のクラスターへのスケールアウトを意識してコードを書く

フリートデータ解析実践データへのアクセス

生データを見てみる

1ファイル

経度

MATLAB上でファイルをダブルクリック

約1300のファイルを読み込むには？

datastore: データ、ファイルの集合体を読み取るオブジェクト特に機械学習やディープラーニングで使用

対象データデータストアの種類

表形式のテキストファイル (CSVなど) TabularTextDatastore

Excel®形式のスプレッドシート(XLSXなど) SpreadsheetDatastore

画像 ImageDatastore

リレーショナルデータベースのデータ DatabaseDatastore

カスタム形式のファイル FileDatastore

MDF形式のファイル mdfDatastore

など

https://jp.mathworks.com/help/matlab/import_export/what-is-a-datastore.html

ワイルドカードで指定可能

datastoreの作成

カスタムの読込関数

クラスターのメモリ

tall配列１台のメモリ

フリートデータ解析実践データへのアクセス tall

▪ メモリに収まる小さな塊にデータを自動的に分割

▪ データアクセスを最適化して実行

▪ 並列演算もサポート

1台のメモリ

処理

1台のメモリ

処理

1台のメモリ

処理

1台のメモリ

処理

datastore & tall

フリートデータ解析実践データへのアクセス tall

matlab による大規模フリートデータ解析 part 1: デスクトッ …...apachetm hadoop /...

Documents

dell emc が hadoop/spark cluster基盤における...

asakusaではじめるhadoop...

spark hadoop

migrating from hadoop to spark

20161027 hadoop summit generating recommendations at amazon...

g-tech2015...

wprowadzenie do apache spark · 2017-01-20 · wprowadzenie...

apache big data north america 2016, spark summit 2016 会 ...

mapreduceを置き換えるspark...

グローバルに広がるnttデータのapache...

transitioning compute models: hadoop mapreduce to spark

hadoop mapreduce and apache spark on emr: comparing...

big data ウェビナーシリーズ ciscoのhadoopリ...

project tungsten bringing spark closer to bare meta...

¿por que cambiar de apache hadoop a apache spark?

data lakes com hadoop e spark: agile analytics na prática

apache spark最新技术进展和 3.0+展望Ž呈祥 -apache...

how kafka is transforming hadoop, spark & storm

spark 2.0 what's next （hadoop / spark conference japan...

a container-based sizing framework for apache hadoop/spark...