2017年度成果報告会drupal.ossforum.jp/jossfiles/bd1.pdf · 2018-03-29 ·...
TRANSCRIPT
日本OSS推進フォーラム ビッグデータ部会
2017年度成果報告会
2018年2月27日
日立ソリューションズ
吉田 行男
Copyright 2018 Japan OSS Promotion Forum
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
活動目標
IoT時代を見据えた「ビッグデータ」を取り扱う上でのOSSを用いたデータ処理基盤の整備、データの標準化、分析手法の整備などの「ビッグデータ」利用促進に貢献できる環境整備を実施する。
ゴール
日本国内の関連する業界・ユーザ企業・コミュニティと連携し、「ビッグデータ」を有効的に活用するための方式を整備することをゴールとする。
上記活動により、OSSの発展への貢献および日本国の産業全体へ「ビッグデータ」の活用によるビジネス拡大の良循環を形成する。
Copyright 2018 Japan OSS Promotion Forum
1.ビッグデータ部会とは? (①)
活動内容
ビッグデータの利活用促進のための活動を推進
部会長
吉田 行男 (日立ソリューションズ) 【部会長】
2017年度の活動計画
「ビッグデータ」に関する技術動向及び事例の収集 データ処理基盤の整備 :利用するOSS製品の選定などの調査(継続)
ビッグデータ活用事例調査:ビッグデータ活用事例の調査
ビッグデータ利活用のユースケース検討と実機検証 ユースケース :利用イメージ、データフローの例示
実機検証 :手順の明確化
ビッグデータ部会広報活動 講演/情報発信 :ビッグデータに関するOSSの最新動向の紹介
Copyright 2018 Japan OSS Promotion Forum
1.ビッグデータ部会とは?(②)
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
2016年 国内BDA(Big Data and Analytics)テクノロジー/サービス市場規模は8,860億6,100万円、前年比成長率8.0%と高い成長
パブリッククラウドとオンプレミスのハイブリッド環境が増加
IoTやコグニティブ/AIシステムを活用したデジタルトランスフォーメーションの基盤として活用はさらに拡大、市場規模は年間平均成長率10.8%、2021年に1兆4,818億8,400万円に達すると予測
Copyright 2018 Japan OSS Promotion Forum
2–1.市場規模①
国内BDAテクノロジー/サービス市場予測、2016年~2021年
Note:Note: 2016年は実績値、2017年以降は予測
Source: IDC Japan, 8/2017
2016年国内ビッグデータ/アナリティクスソフトウェア市場規模は2,282億6,000万円、前年比成長率8.0%の高成長
クラウドデータウェアハウス(DWH)の成長が継続したことに加え、大手企業におけるオンプレミスのDWHの大規模投資も重なった
データの利用価値は企業内部での活用にとどまらず、外部との交換可能な資産としてより高まる。市場規模は年間平均成長率8.4%で成長し、2021年に3,419億800万円に達すると予測
Copyright 2018 Japan OSS Promotion Forum
2–1.市場規模②
国内ビッグデータ/アナリティクスソフトウェア市場予測、2016年~2021年
Note: 2016年は実績値、2017年以降は予測値
Source: IDC Japan, 6/2017
ビッグデータ市場の成長の背景 IoTなどあらゆるものからデータ取得できる環境整備
データを処理する技術革新
データドリブン(データを根拠とした)な意思決定などの動き
ビッグデータ市場をけん引する産業 金融(銀行、証券)がほぼ50%
食品・医療、自動車、電機、連邦/中央政府、プロフェッショナルサービス
企業規模 500人以上が市場の約3/4を占める。
国別では、米国が世界のビッグデータ市場の約半分。
Copyright 2018 Japan OSS Promotion Forum
2–1.市場規模③
国内企業のビッグデータ/アナリティクス成熟度調査結果 53.3%の企業は部門レベルでのビッグデータ/アナリティクスの戦略的取組
みの段階に到達している
ただし、部門横断の戦略的取り組みを示すステージ4(定量的管理)以上への移行が課題
全社に影響を持つCDOを任命し、ゴールとビジョンの全社的な浸透を促す必要がある
Copyright 2018 Japan OSS Promotion Forum
2-2.市場の成熟度
国内ビッグデータ/アナリティクスの成熟度ステージ分布
Source: IDC Japan, 8/2017
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」する機能、蓄積・貯蔵したデータを「分析」する機能にソフトウェアを分類した上で黒字・赤字(昨年調査から追加したもの)を対象に調査
Copyright 2018 Japan OSS Promotion Forum
3-1.ビッグデータ関連OSS俯瞰図(2016年度版)
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Apache Kafka
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステムMlib
Jubatus
Hivemall
機械学習
R言語
統計解析
Pentaho
JasperReports
BI/BAツール
Hinemos
Zabbix
運用管理/監視
MySQL
PostgreSQL
定型業務RDB
※OSSで著名なもの
はない
DWH/マートレスDB
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak Neo4j
インメモリDG/分散KVS/グラフDB
ElasticSearch
全文検索エンジン
MIT Kerberos
OpenLDAP
セキュリティ/認証
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
ディープラーニング
Caffe
Chainer
CNTK
Deeplearning4j
DSSTNE
PredictionIO
TensorFlow
Theano
Torch7
(※)灰色のソフトウェアは今回の調査対象からは除外
データソース
セキュリティ/認証
運用管理/監視稼働監視・性能監視・ジョブ管理などの管理系機能
データ収集 バッチ処理収集したデータのバッチ処理
ストリーム(リアルタイム)処理発生し続ける時系列データを処理す
るためのエンジン機械学習のモデルを使った判定など
データ蓄積・貯蔵・その他
データ分析
クローラWeb上などのデータを取得し、そのデータを保存するツール
データローダーRDBなどからデータロード、ETLをおこな
うツール
収集ログデータなどの非構造化データをデータ領域に格納するツー
ル
データ蓄積ファイルシステムスケールアウト可能な分散ファイルシステムにより、ビッグデータの保存領域として対応できるデータ蓄積基盤
アドホッククエリHadoopに対してアドホックなクエリ
を可能とするソフトウェア
並列分散処理データ蓄積ファイルシステムを利用するなどして並列分散処理を提供
する基盤
セキュリティ暗号化やアクセス制御関連のソフトウェア
認証認証の基盤となるディレクトリサービスやそれらの管理ソフトウェア
スケールアウト型データストア一般的に「NoSQL(Not Only SQL)」あるいは「NewSQL」と呼ばれる、RDBMS以外の幅広いデータストア
BIツール現状分析し、レポーティングやダッシュボードなどの形式で可視化するソフトウェア
統計解析統計学の手法で,データを解析して客観的に
説明する手法
機械学習与えられた情報を元に学習し、自律的に法則やルールを見つけ出す手法
BAツールデータマイニングを核にデータから将来を予測分析し、結
果を最適化することで意思決定を自動化
定型業務RDB従前から存在するリレーション型データベー
スソフトウェア
DWH大量の業務データを統合して格納し、様々な角度から分析するためのデータ倉庫
ディープランニング多層のニューラルネットワークによる機械学習手
法
全文検索エンジン複数の文書(ファイル)から特定の文字列を検索
ルールエンジン検知した事象から対応するアクションを結びつけるためのルールを管理するエンジン
メッセージングシステム
MQTT、AMQPなどのプロトコルを仲介するブローカ―
リアルタイムダッシュボードリアルタイムにKPIなどを表示するためのダッシュボード
3-2.ビッグデータ処理を実現する機能
Copyright 2018 Japan OSS Promotion Forum
Copyright 2018 Japan OSS Promotion Forum 13
3-3.今年度調査対象のソフトウェア(途中版)
データソース データ収集 バッチ処理収集したデータのバッチ処理
ストリーム(リアルタイム)処理
データ蓄積・貯蔵・その他
データ分析
クローラ
データローダー
収集
データ蓄積ファイルシステム
アドホッククエリ
並列分散処理
スケールアウト型データストア
BI/BAツール
統計解析 機械学習/ディープラーニング
DWH
全文検索エンジン
ルールエンジン
メッセージングシステム
リアルタイムダッシュボード
Apache Pig
Apache Hive
Apache MahoutApache Drill
Apache Hadoop
Apache Tez
Apache Samza
MLib
GraphX
Apache Spark
Apache Twill
Apache HBase
Apache Impara
Presto
Apache Kafka
Apache Flume
Sqoop
Fluentd
LogStash
Beats
Elasticsearch
Cassandra
Neo4j
OrientDB
GridDB
MongoDB
Apache Kudu
Jupyter Notebook Apache Zeppelin Kibana
R
Apache Storm
Apache Flink
Apache Hadoop(HDFS)
Apache Spark(Streaming)
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
利用顧客: 証券会社 企画・マーケティング部門
顧客ビジネス: 分析領域の拡大による商品・サービスの付加価値向上・シェア拡大
活用シーン: 構造化されたERPやCRMのデータに加えて、アクセスログやSNS等の非構造データを利用
導入
事例
・ITコストを適正化
⇒ DWHとのハイブリット構成として保守コストを削減するとともに、データ量に合わせて柔軟にスケールアウト
することで将来のITコスト適正化を実現
・分析利用の拡大
⇒ 各種ログやお客様の声などの非構造データの活用により効果的なマーケティングや商品開発を実現
導入
効果
15
構造化データ
ERP
CRM
SFA
非構造データ
アクセスログ
音声
SNS
ETLツール
◆ データ収集
構造化データ
非構造データ
DWH
◆ 使用頻度が高いデータ・
直近のデータを保持
DWH
Hadoop
◆ 過去のデータの蓄積
◆ 大量データの加工・変換
◆ BI/BA連携
分析ツール
① BI活用
② BA活用
-1
-0.5
0
0.5
1
平日のアクセス
週末のアクセス
深夜のアクセス
早朝のアクセス
午前中のアクセス
アクセス月
通常月
(ボーナス月でない
)
そのアクセスでのページ
…
ページ
A0
2の平均閲覧時間
ページ
A0
3の平均閲覧時間
ページ
A0
5の平均閲覧時間
ページ
A1
0の平均閲覧時間
ページ
G0
1の平均閲覧時間
ページ
G0
2の平均閲覧時間
ページ
G0
3の平均閲覧時間
ページ
G1
0の平均閲覧時間
ページ
I03の平均閲覧時間
ページ
I05の平均閲覧時間
ページ
I10の平均閲覧時間
合計アクセス回数
合計注文回数
遷移
/離脱
への正
/負の影響度
A04→I01
I01→A06
A06→A07
A07→A08
A08→I02
I02→I04
I04→I05
I05→I06
構造化データ
古いデータ
既存DWHの負荷軽減 非構造データとの組合せで分析利用が拡大
Hadoopでバイト単価&拡張コストを適正化
大量データにもBI/BAから直接接続可
Copyright 2018 Japan OSS Promotion Forum
4-1.ユーザ事例①(証券業)
利用顧客: 流通業様
顧客ビジネス: 清涼飲料の製造販売
活用シーン: 自販機の販売予測の精度向上のために新分析アプリをHadoop上で構築。
Spark活用により複雑なデータ整形・補正や予測ロジックの処理時間を大幅短縮
導入
事例
• 補充精度向上
⇒ 各商品の欠品率を下げ、適切な数量の補充が可能となる
• 訪問ルート/回数の最適化
⇒ ムダな訪問を減らし、訪問ルート、訪問回数を最適化し、作業員の効率化が図れる
導入効果
Hadoop環境(クラウド)
複雑な補正処理、整形処理、予測ロジックをSparkで高速化!
(性能要件1時間以内)
Hiveもインメモリで実行!
既存システム
Hive
販売管理システム
在庫売切れ伝票
ETL
ツール
ETL
ツール
データマート
Hive
テーブル
販売予測分析アプリ
販売予測
Hive
テーブル
精度・鮮度の高い予測値で補充計画を立案
Copyright 2018 Japan OSS Promotion Forum
4-2.ユーザ事例②(流通業)
利用顧客: 製造業様
顧客ビジネス: 電子機器の製造販売
活用シーン: 工場内の製造ラインや装置内のセンサーから、大量、且つ高頻度で発生するセン
サーデータのリアルタイム監視による異常検知やデータ分析による製造品質の改善
導入
事例
• データ量や処理性能に合わせたスケーラブルな拡張により適切なコストでの基盤運用が可能
⇒ 多数のセンサーから大量・高頻度に発生する秒間数万件のデータの確実な蓄積・活用
• リアルタイムな装置異常・製品異常検知による早期解決や、データ分析での製造品質改善に利用
⇒ ストリーム処理でデータを準リアルタイムで監視すると共に、データ加工・集計処理等を
バッチ処理で高速に実行し、BI/BAツールへ情報提供
導入効果
センサデータ収集・分析プラットフォーム
集計・分析
RDB
Apache Kafka
収集
各種センサー群
HDFS
加工・蓄積
準リアルタイム分析
Streaming
Impala
BIツールで準リアルタイム可視化、
統計・分析を実現
品質チェックや異常検知を即座に!
確実なデータ蓄積とインメモリDB活用による高速な集計データ提供
データ量増加に合わせて柔軟にスケールアウト!
Copyright 2018 Japan OSS Promotion Forum
4-3.ユーザ事例③(製造業)
Copyright 2018 Japan OSS Promotion Forum
Contents
1. ビッグデータ部会とは?
2. 市場動向
3. ビッグデータ関連OSS俯瞰図
4. OSS活用事例
5. ユーザニーズ調査結果
2017年10月25日開催の
『Bigdata/IoT/AI 時代におけるテクノロジー&ビジネスを考える(きっかけ)セミナー』においてビッグデータ関連OSSに求められるニーズ・課題を分析するため、アンケートを実施しました。
回答頂いたアンケートを集計・分析した結果を報告します。
Copyright 2018 Japan OSS Promotion Forum
5-1.ユーザニーズ調査結果
回答者の立場 業種、従業員数、役職、ビッグデータ導入時の立場
セミナーについて 内容の分かり易さ、役に立つか?
特にご興味のあった講演
Big Dataの取り組みについて Big Dataの期待領域
どのようなデータの分析が必要
Big Dataシステムの状況について(顧客への適用・提案を含む) Big Dataシステムの使用状況・計画
Big Dataシステム導入・構築の課題
使用されている(予定も含め)Hadoop、エコシステム
使用されているHadoop Distribution
Data Node総数、Hadoopクラスタ数、データセンタ数
Hadoopでの高可用性/バックアップ
Copyright 2018 Japan OSS Promotion Forum
5-2.アンケートの質問事項
Big Dataの活用のための
代表的なインフラとしての
Hadoopの現状にフォーカス
事前登録者数(関係者含む):93名
当日参加人数(関係者除く):43名アンケート回収数:47名
Copyright 2018 Japan OSS Promotion Forum
5-3.回答者の内訳
Sier,HW/SWが80%、従業員数1000人以上が半数
情報サービス会社(Web企業)は2割以下
Big DataおよびHadoopの一般企業での実情を反映
今後、Big DataおよびHadoopの本格的な拡がりを占うもの
8%2%
17%
30%17%
15%
11%
エンドユーザ(利用者) 教育・研究機関 情報サービス業
SIer ハード・ソフトベンダ コンサル
Copyright 2018 Japan OSS Promotion Forum
5-4.セミナーの評価
ポジティブな感想が9割近く、参加者満足度の高いセミナーとなり、 一定の成果
全般的・広範な話題をカバーする講演への興味大
29%
56%
15% 0%
大変よく理解 理解できた
理解できないところもあり 全く理解できない
29%
51%
20% 0%
大いに役立つ 役立つ
現時点では不明 役に立たない
0
5
10
15
20
25
Copyright 2018 Japan OSS Promotion Forum
5-5.ビッグデータにおける期待領域は何か?
業務の卓越性
例:生産性向上、品質向上(歩留り改善)等ものづくり革新
顧客親密
例:ソーシャルメディア等による精緻なパーソナライズ
新事業
例:交通渋滞サブスクリプションサービス
リスク管理
例:刻々変化するパターンに基づく不正・異常検知
0
5
10
15
20
25
業務の卓越性 顧客親密 新事業 リスク管理
BigDataへの期待
実現済 期待大 期待 不明
5-6.ビッグデータにおける期待領域は何か?
Copyright 2018 Japan OSS Promotion Forum
新事業に対する期待は大きいが。。。 分析したいデータのトップは顧客データの34%
欧米では顧客親密、リスク管理対応が先行
“まだ顧客の多くにソーシャルと業務のつながりが認知されていないと感じる”とのコメントもあり
狙う領域が絞られていないのが実情か?
どのようなデータ分析が必要と考えるか?
34%
26%
20%
20%
0%
顧客情報
(行動パターン
など含め)
生産関連情報
(センサデータ含む)
販売・売上情報 社会現状
(SNS、気象、交通、エネルギー等々)
その他
Fluentd、HDFSは多く利用、MongoDB,Sparkが健闘
R活用が急増。
商用の分析・意思決定製品との連携が少し進んだ?
Copyright 2018 Japan OSS Promotion Forum
5-7.Hadoopエコシステムの利用状況
0
1
2
3
4
5
6
7
8
9
10
Nu
tch
Sqo
op
Tale
nd
Flu
entd
Flu
me
Sto
rm
Spar
kStr
eam
ing
Had
oo
p H
DFS
Cep
h
Glu
ster
FS
Swif
t
Mo
ngo
DB
MR
MR
2/Y
AR
N
Spar
k
Hiv
e
Tez
Imp
ala
HB
ase
Dri
ll
Pig
Solr
Cas
san
dra
Mah
ou
t R
Pen
tah
o
Jasp
erR
epo
rt
MLl
ib
Qlic
kVie
w
Tab
leau
Spar
k
SAS
IBM
SP
SS
Tera
dat
a
Am
bar
i
Zoo
keep
er
Clo
ud
era
Man
ager
Ker
ber
os
Kn
ox
Oo
zie
収集・検知・ETL 蓄積・クエリ・その他 分析・意思決定 運用・監視
Hadoop Ecosystemの利用状況
Copyright 2018 Japan OSS Promotion Forum
5-8.ビッグデータシステムの使用状況・計画
2%
16%
16%
8%0%
42%
16%
拡大を検討中・実施中 実システム運用中 POC実施中
1年以内に導入予定 2年以内に導入予定 時期未定検討中
予定なし
拡大を検討・実施中、実システム運用中は2割程度、時期未定・予定なしが半数以上(減少傾向)
一方PoC実施中、1年以内も24% →導入のスピードは期待程、高くない?(増加傾向)
Copyright 2018 Japan OSS Promotion Forum
5-9. Hadoopシステムの現状
42%がApache版を使用、ディストリビュータの無償版も含めるとサポートなしで使用しているユーザが相当数?(増加傾向)
クラウド上での拡張、展開を考えているユーザが1/3に(減少傾向) クラウドとオンプレミスのハイブリッドでの利用はゼロ
33%
0%22%
45%
クラウドのみ オンプレとのハイブリッド
今後予定 なし
42%
5%
10%
16%
5%
0% 11%
11%
Apache Cloudera Hortonworks
MapR Oracle BDA Pivotal HD
IBM その他
Copyright 2018 Japan OSS Promotion Forum
5-10.ビッグデータシステム構築の課題
23%
34%11%
8%
6%
16%
2%
スキルの習得 導入効果の明確化
既存システムとの親和性・連携 対応製品の成熟度
(企業システム使用への不安)
必要性の認識なし
(経営陣)
データがない
収集が困難
その他
導入効果の明確化と必要性の認識なしを合わせると4割
→どのように使えば効果があるのかが明確になっていない状況(変化なし)
Big Dataの目的・投資効果が明確になっていない
この為、コストをかけないで何ができるのかを模索中のユーザが多いことが推察される サポートなし、クラウド志向
溜まったデータ量も小
Copyright 2018 Japan OSS Promotion Forum
5-11.現状の考察と今後への期待(途中版)
Copyright 2018 Japan OSS Promotion Forum
ご清聴ありがとうございました