製品・サービスの高度化に向けた データ収集・分析...

36
製品・サービスの高度化に向けた データ収集・分析基盤構築への取り組み Copyright © 2016 IHI Corporation All Rights Reserved. 情報システム部 情報科学技術グループ 担当部長 河野 幸弘 2016311データ・マネジメント2016 文書番号:ISTR-15-499-00

Upload: others

Post on 28-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

製品・サービスの高度化に向けた

データ収集・分析基盤構築への取り組み

Copyright © 2016 IHI Corporation All Rights Reserved.

情報システム部

情報科学技術グループ

担当部長 河野 幸弘

2016年3月11日

データ・マネジメント2016

文書番号:ISTR-15-499-00

目次

1.IHIグループの経営環境

2.ICT活用の取り組み

3.データ分析基盤構築への取り組み

~Apache Sparkへの取り組み~

Copyright © 2016 IHI Corporation All Rights Reserved.

Copyright © 2016 IHI Corporation All Rights Reserved.

IHIグループの経営環境

3

会社概要

Copyright © 2016 IHI Corporation All Rights Reserved. 4

創業 : 1853(嘉永6)年

資本金 : 1,071億円

従業員(連結対象人員) : 28,533名

国内関係会社 : 82社

海外関係会社 : 170社

売上高(連結ベース) : 1兆4558億円(2014年度)

0.0

1.0

2.0

3.0

4.0

5.0

6.0

11,000

11,500

12,000

12,500

13,000

13,500

14,000

14,500

15,000

2010年度 2011年度 2012年度 2013年度 2014年度

売上高 営業利益率

(億円) (%)

連結業績の推移

Copyright © 2016 IHI Corporation All Rights Reserved. 5

海外売上比率 : 52%

連単倍率

• 売上高 : 2.1倍

• 営業利益 : 5.6倍

IHIグループの特徴とICT運営上の課題

Copyright © 2016 IHI Corporation All Rights Reserved. 6

IHIグループの特徴 ICT運営上の課題

30を超えるSBU

関係会社250社以上

生産形態のバリエーション

防衛・宇宙・原子力産業

標準化(共通化) すべき部分の選別

事業部門・SBU

への対応

高いレベルでの

情報セキュリティ対策

IHIグループ経営方針

Copyright © 2016 IHI Corporation All Rights Reserved. 7

キーワードは

「つなぐ」⇒「成長」

IHIグループ経営方針

Copyright © 2016 IHI Corporation All Rights Reserved. 8

IHIグループ経営方針

Copyright © 2016 IHI Corporation All Rights Reserved. 9

「グループ経営方針」と「グループICT戦略」

Copyright © 2016 IHI Corporation All Rights Reserved. 10

グループ経営方針 2013

~成長~

グループICT戦略

2013

CEO

「グループ本社機能の戦略」

「事業戦略」

グループ経営方針の「サブ戦略」としてグループICT戦略を策定

Copyright © 2016 IHI Corporation All Rights Reserved.

ICT活用の取り組み

-製品・サービスとICTを「つなぐ」-

11

新たな高度情報化

Copyright © 2016 IHI Corporation All Rights Reserved. 12

「新たな高度情報化」

各事業領域で,新しいICTを活用した価値創造

ビッグデータ M2M

クラウド

モバイル

IoT ソーシャル

メディア

「ライフサイクル全般にわたる製品・サービスの提供」 保守・サービスの強化

リモートメンテナンス共通プラットフォーム

Copyright © 2015 IHI Corporation All Rights Reserved. 13

ILIPS IHI group Lifecycle Partner System

ILIPS:「ツール」のプラットフォーム化

Copyright © 2016 IHI Corporation All Rights Reserved. 14

A製品

監視システム B製品

監視システム

C製品

監視システム

個々の事業部門が,それぞれ個別に

監視システムを構築

重複した設備投資

個別にシステム運用・管理要員を確保

【従来の考え方】

● ● ● ● ●

ILIPS:「ツール」のプラットフォーム化

Copyright © 2016 IHI Corporation All Rights Reserved. 15

通信サーバ DBサーバ

Webサーバ

解析サーバ

ILIPS

製品・機種ごとに特化されている制御部分は手を加えず,そのまま活用

通信・データ収集・解析等の機能を標準化し,共通プラットフォームとして構築

固有部分

共通部分

● ● ● ● ●

ICTの運営体制

Copyright © 2016 IHI Corporation All Rights Reserved. 16

情報システム部: IHIグループのICTにかかわる戦略の策定と施策の推進

データ分析技術の研究・実用化

高度情報マネジメント統括本部

事業部門

データ分析:「技術・ノウハウ」のプラットフォーム化

Copyright © 2016 IHI Corporation All Rights Reserved. 17

A事業部

B事業部

C事業部

D事業部

E事業部

・・・

習得・蓄積したデータ分析手法

ニーズに応じた適用ノウハウ

予測モデル構築技術

情報システム部

情報科学技術グループ データ活用に関する

様々な事業ニーズ

データ活用の

コンサルテーション

予測モデルの提供

データ分析基盤構築への取り組み

~Apache Sparkへの取り組み~

Copyright © 2016 IHI Corporation All Rights Reserved. 18

データの蓄積からデータの分析・活用へ

Copyright © 2016 IHI Corporation All Rights Reserved. 19

ILIPSによりデータの収集・蓄積は進展

データの蓄積 ⇒ 大規模データの分析・活用

大規模データの分析・活用のための基盤が必要

Apache Sparkとの出会い

Copyright © 2016 IHI Corporation All Rights Reserved. 21

Spark Summit 2014に参加

当時、まだSparkの名前が世の中に 知られ始めた段階

Copyright © 2016 IHI Corporation All Rights Reserved.

Apache Sparkの採用

22

Spark環境@IHI

・・・

インメモリ処理で高速

サーバを追加することで,処理可能なデータ量が増加

機械学習・ストリーム処理など,分析用の機能が豊富

リソースの管理が自動

Sparkを第一候補として2014年に採用

2014年Sparkの活用の取り組み開始

Copyright © 2016 IHI Corporation All Rights Reserved. 23

本プロジェクトのユースケースの

データサイズの処理で十分に効果が得られるか確認

プロトタイプを通じて最適な開発方法を模索

具体的なユースケースで効果を確認

現在、以下のような観点でデータ分析プロジェクトを進行中

NTTデータ様との連携

IHI

製品・サービスの設計・運用 ノウハウ

製品特性に 応じたデータ分析技術

NTTデータ

オープンソースソフトウェアの 専門性

システム

開発の実績

Copyright © 2016 IHI Corporation All Rights Reserved. 24

大規模データ分析を実現する基盤の構築を目指す。

Copyright © 2016 IHI Corporation All Rights Reserved.

IHIにおけるデータ収集・分析

25

主な利用目的 : メンテナンス (異常診断を含む) 製品設計へのフィードバック

製品のセンサデータ GISデータ

主な利用目的: 新サービス開発

ControlSystem

Mobile phone

Customer

IHI

PC

PC

PDA

User sideDevice side Common Platform

ServerDB

・Inter net・Private network

ControlSystem

Sensorunit

CU

DCU : Data Collection UnitCU : Communication Unit

DCU

CUDCU

CUDCU

共通PF

Copyright © 2016 IHI Corporation All Rights Reserved.

IHIにおけるデータ収集・分析

26

センサデータおよびGISデータ = 多変量時系列データ

GISデータ

移動体A

移動体B

移動体A

移動体B

• 経度 • 緯度 • 速度 …

センサデータ

製品A

製品B

製品A

製品B

• 圧力 • 温度 • 流量 …

時刻

Copyright © 2016 IHI Corporation All Rights Reserved.

IHIにおけるデータ収集・分析

27

Sparkを用いて時系列データを処理する際の特徴を確認する。 GISデータを用いて評価

(多変量)時系列データ Spark

...

データの並び順が非常に重要。

Sparkにおけるいくつかの処理は,データの並び順を保証しない。

並び順を担保するには,ソートなどのAPIが必要。

Copyright © 2016 IHI Corporation All Rights Reserved.

GISデータを用いたSparkの検証

28

GISデータの主な項目 : 動的な情報

データ受信時刻 座標(緯度・経度) 速度

静的な情報 移動体ID 移動体の大きさ・種別 目的地 到着予想時刻

港湾の混雑予測にGISデータを活用する。

問題設定

使用したGISデータ

Copyright © 2016 IHI Corporation All Rights Reserved.

GISデータを用いたSparkの検証

29

学習フェーズの処理内容

1. 移動体ごとにデータをソートする。 2. 時刻や座標の差分を計算する。 3. 累積和計算を用いて,目的地港

湾までの所要時間を算出する。

4. メッシュごとに所要時間を集計し,所要時間マップを作成する。

5. 港湾ごとに滞在時間を集計し,滞在時間分布を作成する。

目的地港湾

今回の発表では,「学習フェーズのステップ1-3」(移動体ごとの処理)に着目(データの並び順が重要な処理)

Copyright © 2016 IHI Corporation All Rights Reserved.

GISデータを用いたSparkの検証

30

vs. vs. vs.

移動体毎のレコード長の違いによる比較 レコード長:

150, 1,500, 15,000, 150,000

レコード長の偏りの違いによる比較 レコード長:

一定 (15,000)

ばらつきあり (10~30,000)

データ保持方式(RDDとDataFrame)の比較 データ保持方式:

RDD DataFrame

(一部RDD)

Point 1. Point 2. Point3.

RDD RDD RDD RDD RDD

検証項目 : 以下の3つの条件において,処理時間を評価

Data-Frame

Copyright © 2016 IHI Corporation All Rights Reserved.

検証結果 : 移動体毎のレコード長の違いの比較

31

45

372

3774

40980

0.06

0.65

6.57

65.8

0.01

0.10

1.00

10.00

100.00

1000.00

1

10

100

1000

10000

100000

150 1500 15000 150000

データサイズ

[GB

]

処理時間

[sec]

1航路あたりのレコード数

処理時間

x 8.3

x 10.1

x 10.9

: 処理時間 [sec]

: データ サイズ[GB]

データサイズが線形に増加した際に,計算時間はやや非線形に増加

処理時間

データサイズ

Copyright © 2016 IHI Corporation All Rights Reserved.

検証結果: レコード長の偏りの違いによる比較

32

今回のユースケースでは,レコード長の偏りの違いに関係なく, 処理時間はほぼ同じ

3774 3762

6.57 6.59

0

2

4

6

8

10

0

1000

2000

3000

4000

5000

15000 30000(with skew)

データサイズ

[GB

]

処理時間

[sec]

1航路あたりのレコード数

処理時間 : 処理時間[sec]

: データ サイズ[GB]

近しい値 処理時間 処理時間

データサイズ データサイズ

Copyright © 2016 IHI Corporation All Rights Reserved.

検証結果 : レコード長の偏りの違いによる比較

33

メッシュ毎の処理では,レコード長の偏りにより処理時間に大きな差異 ⇒ 処理内容によっては,データの与え方に工夫が必要(要注意)

全体の処理に大きく影響

Copyright © 2016 IHI Corporation All Rights Reserved.

検証結果 :データ保持方式の比較

34

DataFrameの利用で処理時間が短縮 (最新版利用のメリット) メモリのチューニングやバグ等で開発効率が悪化 (要注意)

処理時間

[sec]

処理時間

0

5

10

15

20

25

30

35

40

45

50

150

0

50

100

150

200

250

300

350

400

450

500

1500

0

500

1000

1500

2000

2500

3000

3500

4000

4500

5000

15000

1航路あたりのレコード数

-13%

-46% -39%

0

5000

10000

15000

20000

25000

30000

35000

40000

45000

50000

150000

: RDD

: DataFrame (一部RDD)

-16%

Strata + Hadoop World Singaporeで発表

Strata + Hadoop Worldとは? ビッグデータに関する世界的なカンファレンスのアジア開催。

Copyright © 2016 IHI Corporation All Rights Reserved. 35

ユースケースや知見をNTTデータと共同で発表

ICTによる新たな価値の提供

Copyright © 2016 IHI Corporation All Rights Reserved.

新たなICTによる価値 世界中に展開される

製品・サービスの価値

IHIグループならではの「価値」を世界に提供 36

今後は,データ分析基盤として Sparkの活用をさらに加速

ご清聴ありがとうございました

Copyright © 2016 IHI Corporation All Rights Reserved.