ビッグデータ関連ソフトウェアの動向調査1167.5 0.0 200.0 400.0 600.0 800.0 1000.0...
Post on 04-Aug-2020
0 Views
Preview:
TRANSCRIPT
ビッグデータ関連ソフトウェアの動向調査
2016年2月3日
日本OSS推進フォーラム
ビッグデータ部会発表者:富士通株式会社 野山孝太郎(noyama@jp.fujitsu.com)
Copyright 2015 Japan OSS Promotion Forum
本資料は、日本OSS推進フォーラム ビッグデータ部会 技術調査チームにて、ビッグデータ基盤を実現するオープンソースソフトウェアの動向を調査したものです。
本調査は、Webなどから一般的に収集可能な情報を元に最近の傾向を把握する為に実施しています。本調査結果のみを元に各ソフトウェアの良し悪しを論じるものではありません。
本調査は以下のメンバで実施しています。
中島 武史(日本電気株式会社)主査
井上 不二雄(日本アイ・ビー・エム株式会社)
小川 研之(WANdisco, plc.)
本多 洋司(株式会社PFU)
倉知 陽一(富士通株式会社)
野山 孝太郎(富士通株式会社)
Copyright 2015 Japan OSS Promotion Forum
はじめに
1
主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」する機能、蓄積・貯蔵したデータを「分析」する機能から構成される
Copyright 2015 Japan OSS Promotion Forum
ビッグデータ基盤を構成する機能
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステム
MIT Kerberos
OpenLDAP
セキュリティ/認証
MLib
機械学習
R言語
統計解析
Hinemos
Zabbix
運用管理/監視
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
運用管理/監視
クローラ
データロード
収集
CEP
Complex Event
Processing
データ蓄積
ファイルシステム
並列分散処理
データロード
機械学習
統計解析
BI/BAツール
定型業務DB
インメモリDB
DWH/マートレスDBインメモリDG/分散KVS
セキュリティ/認証
準リアルタイムクエリ 全文検索エンジン
2
ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能
ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要
Copyright 2015 Japan OSS Promotion Forum
ビッグデータ基盤を構成する機能へのソフトウェアマッピング
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Apache Kafka
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステムMLib
機械学習
R言語
統計解析
Pentaho
JasperReports
SAS
MicroStorategy
BI/BAツール
Hinemos
Zabbix
運用管理/監視
MySQL
PostgreSQL
定型業務RDB
※OSSで著名なもの
はない
DWH/マートレスDB
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
インメモリDG/分散KVS
ElasticSearch
全文検索エンジン
MIT Kerberos
OpenLDAP
セキュリティ/認証
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
3
該当ソフトウェアの3/4はApache License 2.0を採用
Apache Software Foundation管理のソフトウェアが多い事も理由の一つ
今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大)
Copyright 2015 Japan OSS Promotion Forum
採用しているオープンソースライセンス
Apache License 2.0
73.7%
GNU
General Public License
13.2%
GNU
Lesser General Public License
7.9%その他
5.3%
4
最も利用されている言語は「Java」(55.2%)。
次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。
Copyright 2015 Japan OSS Promotion Forum
どの様なプログラミング言語で開発されているか?
Java
55.2%C/C++
23.1%
XML
10.0%
Web
3.7%
Python
3.4%
JavaScript
2.8%
CSS
0.8%Ruby
0.8%PHP
0.4%
5
Copyright 2015 Japan OSS Promotion Forum
開発の活性度そのソフトウェアは活発に開発されていますか?
6
Apache Sparkが2014年頃から急成長
Copyright 2015 Japan OSS Promotion Forum
コミッター数の推移(月ごと)
0
20
40
60
80
100
120
140
160
Sep-9
7
Jan-9
8
May-9
8
Sep-9
8
Jan-9
9
May-9
9
Sep-9
9
Jan-0
0
May-0
0
Sep-0
0
Jan-0
1
May-0
1
Sep-0
1
Jan-0
2
May-0
2
Sep-0
2
Jan-0
3
May-0
3
Sep-0
3
Jan-0
4
May-0
4
Sep-0
4
Jan-0
5
May-0
5
Sep-0
5
Jan-0
6
May-0
6
Sep-0
6
Jan-0
7
May-0
7
Sep-0
7
Jan-0
8
May-0
8
Sep-0
8
Jan-0
9
May-0
9
Sep-0
9
Jan-1
0
May-1
0
Sep-1
0
Jan-1
1
May-1
1
Sep-1
1
Jan-1
2
May-1
2
Sep-1
2
Jan-1
3
May-1
3
Sep-1
3
Jan-1
4
May-1
4
Sep-1
4
Jan-1
5
May-1
5
Sep-1
5
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch
Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph
Drools Fusion Elasticsearch Esper Fluentd GlusterFS
Impala Infinispan JasperReports Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB
Apache Spark
Talend
7
Apache Sparkが2014年から急成長
13年:27.8 → 14年:72.1 → 15年:114.7
Copyright 2015 Japan OSS Promotion Forum
月平均コミッター数(2015年)
0.0
0.0
0.5
2.0
2.6
3.0
3.8
4.7
5.3
5.7
5.8
6.2
6.9
8.3
15.1
17.3
21.4
21.5
25.5
26.2
27.8
28.1
31.3
35.3
38.0
38.3
39.7
48.7
114.7
0.0 20.0 40.0 60.0 80.0 100.0 120.0 140.0
Apache S4
Impala
Esper
Apache Flume
Apache ManifoldCF
Apache Sqoop
JasperReports
Apache Nutch
Redis
Fluentd
Apache Hive
Talend
Riak
R
Infinispan
Apache Drill
Apache Kafka
Apache Storm
Apache HBase
Drools Fusion
Apache Mesos
VoltDB
Apache Cassandra
Elasticsearch
MongoDB
Apache Hadoop
GlusterFS
Ceph
Apache Spark
8
年平均成長率ではApache Drillがトップ
Apache Sparkの他、Apache Mesosも急激に増加
Copyright 2015 Japan OSS Promotion Forum
コミッター数の年平均成長率(2011年から2015年)
-52.6%
-40.2%
-17.4%
-14.1%
-11.1%
-1.7%
0.0%
2.4%
4.5%
5.6%
6.9%
9.3%
11.7%
15.9%
18.7%
25.6%
28.2%
29.3%
31.3%
40.3%
45.9%
49.9%
52.8%
53.0%
60.8%
63.6%
144.4%
150.4%
184.4%
-100.0% -50.0% 0.0% 50.0% 100.0% 150.0% 200.0%
Apache S4
Talend
Riak
Esper
Apache Flume
Apache Hive
JasperReports
R
Apache ManifoldCF
Apache Sqoop
Redis
Infinispan
Drools Fusion
Apache Nutch
Fluentd
GlusterFS
Apache Hadoop
MongoDB
Apache HBase
VoltDB
Ceph
Elasticsearch
Apache Cassandra
Impala
Apache Kafka
Apache Storm
Apache Mesos
Apache Spark
Apache Drill
9
Apache Cassandra
Apache Drill
Apache Flume
Apache HadoopApache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Impala
Infinispan
JasperReportsMongoDB
R
Redis
Riak
Talend
VoltDB
-200.0%
-150.0%
-100.0%
-50.0%
0.0%
50.0%
100.0%
150.0%
200.0%
250.0%
0.0 20.0 40.0 60.0 80.0 100.0 120.0
Copyright 2015 Japan OSS Promotion Forum
月平均コミッター数(横軸)と年平均成長率(縦軸)
開発者の数も多く
ますます増加中
開発者の数は
まだまだ少ないが
急増中
10
Elasticsearchの開発が活性化
コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2015 Japan OSS Promotion Forum
コミット数の推移
0
200
400
600
800
1000
1200
1400
1600
1800
Sep-9
7
Jan-9
8
May-9
8
Sep-9
8
Jan-9
9
May-9
9
Sep-9
9
Jan-0
0
May-0
0
Sep-0
0
Jan-0
1
May-0
1
Sep-0
1
Jan-0
2
May-0
2
Sep-0
2
Jan-0
3
May-0
3
Sep-0
3
Jan-0
4
May-0
4
Sep-0
4
Jan-0
5
May-0
5
Sep-0
5
Jan-0
6
May-0
6
Sep-0
6
Jan-0
7
May-0
7
Sep-0
7
Jan-0
8
May-0
8
Sep-0
8
Jan-0
9
May-0
9
Sep-0
9
Jan-1
0
May-1
0
Sep-1
0
Jan-1
1
May-1
1
Sep-1
1
Jan-1
2
May-1
2
Sep-1
2
Jan-1
3
May-1
3
Sep-1
3
Jan-1
4
May-1
4
Sep-1
4
Jan-1
5
May-1
5
Sep-1
5
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos Apache Nutch
Apache S4 Apache Spark Apache Sqoop Apache Storm Ceph
Drools Fusion Elasticsearch Esper Fluentd GlusterFS
Impala Infinispan JasperReports Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB
Apache Spark
Elasticsearch
11
Elasticsearchの開発が活性化
コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2015 Japan OSS Promotion Forum
月平均コミット数(2015年)
0.0
0.0
3.8
6.3
7.7
16.9
18.9
25.2
28.5
37.7
38.5
43.8
51.1
63.4
72.3
75.6
139.0
152.4
182.3
182.7
212.6
244.1
246.7
323.8
351.2
354.8
705.1
838.3
1167.5
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0
Apache S4
Impala
Esper
Apache Flume
Apache Sqoop
Apache ManifoldCF
Apache Nutch
Talend
Riak
Fluentd
Apache Hive
JasperReports
Redis
Apache Kafka
Apache Drill
Infinispan
Apache HBase
R
Drools Fusion
Apache Storm
Apache Mesos
VoltDB
Apache Hadoop
Apache Cassandra
MongoDB
GlusterFS
Ceph
Apache Spark
Elasticsearch
12
Copyright 2015 Japan OSS Promotion Forum
コミッター数(縦軸)とコミット数(横軸)の相関
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Impala
Infinispan
JasperReports
MongoDB
RRedis
RiakTalend
VoltDB
0.0
20.0
40.0
60.0
80.0
100.0
120.0
140.0
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0
開発者の数は
比較的少ないが
開発は非常に活性
(頑張ってますね!)
開発者の数も多く
開発も活発
13
Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ
週休1日以下で頑張っている模様
Copyright 2015 Japan OSS Promotion Forum
開発のアクティビティ
21.03%
21.05%
21.47%
25.00%
26.33%
27.62%
31.22%
34.06%
38.90%
41.69%
48.74%
52.91%
53.77%
54.81%
54.98%
56.68%
56.85%
57.22%
62.90%
66.54%
67.20%
67.65%
69.74%
69.92%
70.16%
75.17%
78.27%
78.53%
81.81%
85.60%
85.77%
86.45%
91.19%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%
Apache Sqoop
JasperReports
Esper
Apache Nutch
Talend
Apache S4
Apache Flume
Riak
Fluentd
Jubatus
Apache Kafka
Apache ManifoldCF
Apache Hadoop MapReduce
Apache Mesos
Apache Drill
Ceph
Redis
Apache Hadoop HDFS
Apache Tez
Apache Storm
Pentaho
Impala
Apache Hive
Drools Fusion
Apache Spark
Infinispan
Apache HBase
GlusterFS
VoltDB
Apache Hadoop Common
Apache Cassandra
MongoDB
Elasticsearch
14
Copyright 2015 Japan OSS Promotion Forum
月平均コミット数(横軸)と稼働率(縦軸)の関係
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCFApache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Impala
Infinispan
JasperReports
MongoDB
Redis
Riak
Talend
VoltDB
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
0 200 400 600 800 1000 1200 1400
稼働率はあまり高くないが
開発は活発
(一気にやるタイプ)
稼働率が高く
開発も活発
(コツコツやるタイプ)
15
2006年~2009年にかけてApache Hadoopの議論が活性化
最近はApache HiveやApache Storm、Apache Kafkaの議論が活発
Copyright 2015 Japan OSS Promotion Forum
開発者向けメーリングリストの流量推移
0
1000
2000
3000
4000
5000
6000
7000
Apr-
97
Sep-9
7
Feb-9
8
Jul-
98
Dec-9
8
May-9
9
Oct-
99
Mar-
00
Aug-0
0
Jan-0
1
Jun-0
1
Nov-0
1
Apr-
02
Sep-0
2
Feb-0
3
Jul-
03
Dec-0
3
May-0
4
Oct-
04
Mar-
05
Aug-0
5
Jan-0
6
Jun-0
6
Nov-0
6
Apr-
07
Sep-0
7
Feb-0
8
Jul-
08
Dec-0
8
May-0
9
Oct-
09
Mar-
10
Aug-1
0
Jan-1
1
Jun-1
1
Nov-1
1
Apr-
12
Sep-1
2
Feb-1
3
Jul-
13
Dec-1
3
May-1
4
Oct-
14
Mar-
15
Aug-1
5
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Common
Apache Hadoop HDFS Apache Hadoop MapReduce Apache Hadoop YARN Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4 Apache Spark Apache Sqoop
Apache Storm Apache Tez GlusterFS Lustre
R
Apache Hive
Apache Hadoop
Apache
Storm
Apache
Kafka
16
Apache KafkaやApache Stormの議論が活性化
Apache Hiveは2014年をピークとして2015年は落ち着いている模様
Copyright 2015 Japan OSS Promotion Forum
開発者向けメーリングリストの月平均流量(2015年)
0.8
73.3
88.4
152.8
187.3
208.0
221.9
343.5
350.5
350.7
473.8
500.0
501.3
692.8
725.3
787.3
833.9
1118.7
1568.1
1764.3
0.0 200.0 400.0 600.0 800.0 1000.0 1200.0 1400.0 1600.0 1800.0 2000.0
Apache S4
Apache Cassandra
Apache Tez
R
Apache ManifoldCF
Apache Hadoop MapReduce
Apache Flume
GlusterFS
Apache Hadoop Common
Apache Nutch
Apache Spark
Apache Hadoop HDFS
Apache HBase
Apache Hadoop YARN
Apache Mesos
Apache Drill
Apache Sqoop
Apache Hive
Apache Storm
Apache Kafka
開発は活性化しているが
メーリングリストベースの議論は
あまり多くない
17
Copyright 2015 Japan OSS Promotion Forum
コミット数(横軸)とメールでの議論量(縦軸)の関係
Apache Drill
Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
GlusterFS
R
0
200
400
600
800
1,000
1,200
1,400
1,600
1,800
2,000
0 100 200 300 400 500 600 700 800 900
議論よりも実践
実践よりも
まずは議論
18
この割合が高いほど特定開発者の影響力が強いコミュニティと言える(かも)
Copyright 2015 Japan OSS Promotion Forum
最も開発している人のコミット割合
8.07%
8.69%
9.31%
9.45%
10.56%
11.04%
13.46%
14.36%
15.79%
16.43%
16.56%
16.75%
16.79%
17.90%
18.40%
19.29%
21.11%
24.32%
24.34%
26.62%
27.05%
27.43%
30.52%
33.88%
34.39%
34.55%
43.88%
45.15%
62.65%
65.78%
75.38%
75.64%
90.63%
0.00% 10.00% 20.00% 30.00% 40.00% 50.00% 60.00% 70.00% 80.00% 90.00% 100.00%
GlusterFS
Apache Hadoop Common
Pentaho
Riak
VoltDB
Apache Spark
Elasticsearch
Apache Nutch
Impala
Infinispan
Apache Hadoop MapReduce
Apache Hadoop HDFS
Apache Drill
Jubatus
Apache Hive
Apache Kafka
MongoDB
Apache Flume
Apache Storm
Drools Fusion
Apache Tez
Apache Mesos
Apache Cassandra
Apache Sqoop
Fluentd
Apache HBase
Ceph
Apache S4
Talend
JasperReports
Redis
Esper
Apache ManifoldCF
19
この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える(かも)
Copyright 2015 Japan OSS Promotion Forum
コミット数1位から5位のコミット割合
30.57%
33.01%
33.37%
34.64%
39.34%
44.61%
46.18%
47.44%
47.59%
50.08%
51.46%
52.31%
52.55%
55.20%
55.64%
57.44%
58.27%
58.80%
61.06%
63.57%
65.67%
65.80%
67.29%
72.30%
78.72%
82.65%
88.49%
92.07%
92.19%
96.39%
98.31%
99.99%
100.00%
0.00% 20.00% 40.00% 60.00% 80.00% 100.00% 120.00%
Apache Spark
Apache Hadoop Common
GlusterFS
Pentaho
Riak
Apache Kafka
Apache Hive
VoltDB
Elasticsearch
MongoDB
Apache Hadoop MapReduce
Apache Drill
Infinispan
Apache Hadoop HDFS
Apache HBase
Impala
Apache Mesos
Apache Storm
Apache Nutch
Jubatus
Apache Cassandra
Ceph
Drools Fusion
Fluentd
Apache Flume
Apache Sqoop
Apache Tez
Talend
Redis
Apache ManifoldCF
Apache S4
JasperReports
Esper
20
Copyright 2015 Japan OSS Promotion Forum
Top1(横軸)とTop1~5(縦軸)の関係
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop Common
Apache Hadoop HDFS
Apache Hadoop MapReduce
Apache HBase
Apache HiveApache Kafka
Apache ManifoldCF
Apache MesosApache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Apache Tez
CephDrools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Impala
Infinispan
JasperReports
Jubatus
MongoDB
Pentaho
Redis
Riak
Talend
VoltDB
0.00%
50.00%
100.00%
0.00% 50.00% 100.00%
主導型開発少人数先導型開発
コミュニティ型開発
開発が活性化しているプロジェクトは
コミュニティ型開発が多い
(やはりコミュニティは大事!)
21
Copyright 2015 Japan OSS Promotion Forum
利用の活性度そのソフトウェアは皆に利用されていますか?
22
利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2015 Japan OSS Promotion Forum
利用者向けメーリングリストの流量推移
0
500
1000
1500
2000
2500
3000
Mar-
05
Jun-0
5
Sep-0
5
Dec-0
5
Mar-
06
Jun-0
6
Sep-0
6
Dec-0
6
Mar-
07
Jun-0
7
Sep-0
7
Dec-0
7
Mar-
08
Jun-0
8
Sep-0
8
Dec-0
8
Mar-
09
Jun-0
9
Sep-0
9
Dec-0
9
Mar-
10
Jun-1
0
Sep-1
0
Dec-1
0
Mar-
11
Jun-1
1
Sep-1
1
Dec-1
1
Mar-
12
Jun-1
2
Sep-1
2
Dec-1
2
Mar-
13
Jun-1
3
Sep-1
3
Dec-1
3
Mar-
14
Jun-1
4
Sep-1
4
Dec-1
4
Mar-
15
Jun-1
5
Sep-1
5
Dec-1
5
Apache Cassandra Apache Drill Apache Flume Apache Hadoop
Apache Hadoop Common Apache Hadoop HDFS Apache Hadoop MapReduce Apache HBase
Apache Hive Apache Kafka Apache ManifoldCF Apache Mesos
Apache Nutch Apache S4 Apache Spark Apache Sqoop
Apache Storm Apache Tez GlusterFS Lustre
Riak
Apache Spark
Apache Casandra
Apache Hadoop
Common
23
利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2015 Japan OSS Promotion Forum
利用者向けメーリングリストの月平均流量(2015年)
0.8
54.9
64.7
67.5
70.3
77.3
98.1
130.7
279.4
281.6
290.6
320.9
321.2
321.8
321.9
325.2
334.7
416.1
453.9
519.4
836.5
2,192.2
0.0 500.0 1,000.0 1,500.0 2,000.0 2,500.0
Apache S4
Apache ManifoldCF
Apache Sqoop
Apache Tez
Lustre
Apache Flume
Apache Nutch
Riak
Apache Drill
Apache Hive
Apache Mesos
Apache Hadoop
Apache Hadoop MapReduce
Apache Hadoop Common
Apache Hadoop HDFS
Apache HBase
Apache Storm
GlusterFS
Apache Cassandra
Apache Kafka
Ceph
Apache Spark
24
Copyright 2015 Japan OSS Promotion Forum
開発者(横軸)/利用者(縦軸)メール流量の関係
Apache Cassandra
Apache DrillApache Flume
Apache Hadoop Common
Apache Hadoop HDFS
Apache Hadoop MapReduceApache HBase
Apache Hive
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache S4
Apache Spark
Apache Sqoop
Apache Storm
Apache Tez
Ceph
GlusterFS
Lustre
Apache Kafka
0
500
1000
1500
2000
2500
0 200 400 600 800 1000 1200 1400 1600 1800 2000
開発者の議論が活発
利用者の議論が活発
※Apache Sparkの場合
開発自体は非常に活発だが
メールベースの議論は少なめ
25
Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)
次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く
Copyright 2015 Japan OSS Promotion Forum
書籍数(日本語)
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
2
2
3
3
3
4
5
9
10
15
15
17
25
35
0 5 10 15 20 25 30 35 40
Apache Drill
Apache Flume
Apache S4
Apache Sqoop
Apache Storm
Drools Fusion
Esper
Impala
Lustre
Talend
Apache Tez
Ceph
GlusterFS
Infinispan
JasperReports
VoltDB
Apache Nutch
Jubatus
Apache Mesos
Pentaho
Riak
Apache Hive
Apache Spark
Apache ManifoldCF
Fluentd
Apache Cassandra
Apache HBase
Redis
MongoDB
Apache Hadoop
26
日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)
Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす
Copyright 2015 Japan OSS Promotion Forum
書籍数(英語)
0
1
2
7
14
15
15
16
16
17
17
17
17
20
21
24
26
28
47
49
50
58
59
64
99
162
170
170
274
635
0 100 200 300 400 500 600 700
Jubatus
Fluentd
VoltDB
Apache ManifoldCF
Ceph
GlusterFS
Infinispan
Apache Tez
Esper
Apache Drill
Apache Mesos
Apache S4
Riak
Lustre
JasperReports
Talend
Impala
Drools Fusion
Pentaho
Apache Flume
Apache Nutch
Apache Storm
Apache Sqoop
Apache Spark
Redis
Apache Hive
Apache Cassandra
Apache HBase
MongoDB
Apache Hadoop
27
Redisが圧倒的に好評価
商用展開されているソフトウェアに関しては組織票があるのかも(?)
Copyright 2015 Japan OSS Promotion Forum
GitHubのスター数
4
13
21
22
30
65
78
139
150
417
449
457
460
476
489
503
625
654
716
1,189
1,416
1,625
1,799
2,312
2,369
2,482
3,491
5,967
15,320
0 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000
Apache Hadoop Common
Apache Hadoop MapReduce
Apache Hadoop HDFS
Apache ManifoldCF
Apache S4
Esper
Apache Tez
Apache Sqoop
Pentaho
Infinispan
Apache HBase
Apache Nutch
Apache Flume
Drools Fusion
Jubatus
Apache Drill
GlusterFS
VoltDB
Apache Hive
Apache Hadoop
Impala
Ceph
Apache Mesos
Riak
Apache Cassandra
Apache Storm
Fluentd
Apache Spark
Redis
28
Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数
次いでApache Cassandra、Apache Hadoopが人気
Copyright 2015 Japan OSS Promotion Forum
Twitterのフォロアー数
3
21
32
32
144
145
262
609
827
945
990
2,122
3,956
5,263
5,995
10,379
11,605
11,899
13,427
15,012
25,263
32,934
204,787
0 50,000 100,000 150,000 200,000 250,000
Apache Sqoop
GlusterFS
Apache ManifoldCF
JasperReports
Apache Tez
Apache Storm
Apache Nutch
Apache Hive
Fluentd
Jubatus
Infinispan
Apache Drill
Ceph
VoltDB
Apache HBase
Apache Spark
Talend
Redis
Pentaho
Apache Mesos
Apache Hadoop
Apache Cassandra
MongoDB
29
国内で有償版または有償サポートが提供されているソフトウェアは赤字
ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能
Jubatusなどクラウドでサービス提供されているソフトウェアもあり
Copyright 2015 Japan OSS Promotion Forum
有償サポートの有無
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Apache Kafka
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステムMLib
機械学習
R言語
統計解析
Pentaho
JasperReports
SAS
MicroStorategy
BI/BAツール
Hinemos
Zabbix
運用管理/監視
MySQL
PostgreSQL
定型業務RDB
※OSSで著名なもの
はない
DWH/マートレスDB
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
インメモリDG/分散KVS
ElasticSearch
全文検索エンジン
MIT Kerberos
OpenLDAP
セキュリティ/認証
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
30
The Linux Foundation SI Forumの2015年度活用動向調査より
全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象
Copyright 2015 Japan OSS Promotion Forum
利用実績
導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports
導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre, Apache Cassandra, Apache Hbase, Redis, Elasticsearch, Pentaho
検証実績あり VoltDB
導入/検証実績なし
上記以外(という少し残念な結果)
31
Copyright 2015 Japan OSS Promotion Forum
ソフトウェアの品質そのソフトウェアは安心して利用できますか?
32
Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い
もっとも低いApache Stormにおいても6割のバグは解決済み
Copyright 2015 Japan OSS Promotion Forum
バグ解決率(全体)
60.4%
65.8%
67.8%
71.6%
71.9%
72.0%
72.1%
72.1%
73.6%
73.8%
73.9%
74.1%
74.3%
75.5%
76.0%
77.9%
79.5%
80.8%
81.6%
81.8%
83.0%
84.4%
86.7%
86.9%
88.1%
89.2%
93.1%
94.0%
95.7%
0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%
Apache Storm
Apache Mesos
Apache Drill
Apache Hadoop YARN
Lustre
VoltDB
Riak
Apache Flume
Apache Kafka
Apache Tez
Apache Hive
Drools Fusion
Apache Hadoop HDFS
Impala
Apache Hadoop MapReduce
Apache Sqoop
Pentaho
Apache Spark
MongoDB
Ceph
Apache Nutch
Apache Hadoop Common
Apache HBase
Jubatus
Fluentd
Apache Cassandra
R
GlusterFS
Apache ManifoldCF
33
重要バグの解決率に限定すると約8割以上は解決済み
こちらもApache ManifoldCFは解決率が非常に高い
Copyright 2015 Japan OSS Promotion Forum
バグ解決率(重要※Blocker/Criticalレベル)
77.2%
79.3%
79.8%
83.6%
84.4%
84.4%
85.7%
86.7%
86.8%
86.9%
88.2%
88.3%
88.4%
90.8%
91.5%
91.8%
92.8%
93.0%
94.6%
94.9%
96.3%
96.4%
96.9%
97.1%
97.4%
99.1%
0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0%
Apache Storm
Apache Sqoop
Drools Fusion
Apache Drill
Apache Hive
Impala
Apache Flume
Apache Hadoop YARN
Apache Mesos
Pentaho
Apache Tez
Apache Hadoop HDFS
Lustre
Apache Spark
VoltDB
Apache Kafka
Apache HBase
Apache Nutch
MongoDB
Apache Hadoop Common
Ceph
Apache Cassandra
GlusterFS
Apache Hadoop MapReduce
R
Apache ManifoldCF
34
Copyright 2015 Japan OSS Promotion Forum
コミット数(横軸)と重要バグ解決率(縦軸)の関係
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
GlusterFS
MongoDB
R
VoltDB
70.00%
80.00%
90.00%
100.00%
0 100 200 300 400 500 600 700 800 900
開発も活発に行われており
重要バグ解決率も高め
開発も活発ではないが
重要バグ解決率は高め
(≒安定)
重要バグ解決率がやや低く
開発も非活性
(要ウォッチ)
35
全体的に脆弱性の検出は少ない
一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件
Copyright 2015 Japan OSS Promotion Forum
脆弱性(2006年から2016年)
0
1
2
3
4
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016
Apache Cassandra Apache Drill Apache Flume Apache Hadoop Apache HBase
Apache Hive Apache ManifoldCF Apache Mesos Apache Nutch Apache S4
Apache Spark Apache Sqoop Apache Storm Apache Tez Ceph
Drools Fusion Esper Fluentd GlusterFS Impala
Infinispan JasperReports Jubatus Lustre MongoDB
Pentaho R Redis Riak Talend
VoltDB VoltDB
MongoDB
JasperReports
Pentaho
36
SonarQubeのソースコード解析機能で抽出した重複率
Apache S4、Redisなどは重複が少なく良いソースコードの模様
Copyright 2015 Japan OSS Promotion Forum
ソースコード品質:重複率
69.0%
27.7%
22.6%
21.1%
20.8%
20.2%
19.7%
19.2%
18.4%
14.5%
11.9%
9.0%
9.0%
7.7%
7.7%
7.4%
6.1%
5.6%
4.9%
4.5%
4.4%
4.3%
3.8%
3.0%
2.7%
2.7%
2.3%
1.7%
0.0% 10.0% 20.0% 30.0% 40.0% 50.0% 60.0% 70.0% 80.0%
Riak
Apache Nutch
Apache Hive
MongoDB
Drools
Apache ManifoldCF
Apache Hbase
Pentaho
Impala
Apache Hadoop YARN
Apache Cassandra
Apache Flume
Apache Mesos
Apache Sqoop
Esper
Apache Tez
Apache Drill
GlusterFS
Jubatus
R
Apache Hadoop HDFS
Apache Hadoop MapReduce
Ceph
Apache Spark
Apache Storm
Lustre
Redis
Apache S4
ソースコードの
重複が少ない
(≒高品質)
37
SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度
Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック
Copyright 2015 Japan OSS Promotion Forum
ソースコード品質:複雑度
251,416
216,460
206,185
160,555
128,728
113,628
75,733
66,009
60,045
59,487
49,430
46,337
44,387
42,705
25,197
19,617
16,867
13,274
12,923
12,190
11,105
10,728
9,185
8,956
8,044
2,793
1,919
1,807
0 50,000 100,000 150,000 200,000 250,000 300,000
Impala
Apache Hive
Apache Hbase
MongoDB
Pentaho
Drools
Esper
Apache Cassandra
Apache Drill
Ceph
R
Apache Spark
Apache ManifoldCF
Riak
Apache Mesos
Apache Tez
Apache Hadoop HDFS
Apache Flume
Apache Sqoop
Redis
Apache Hadoop MapReduce
GlusterFS
Lustre
Apache Nutch
Apache Storm
Jubatus
Apache S4
Apache Hadoop YARN
ソースコードの
複雑度が少ない
(≒高品質)
38
重複率と複雑度(全体)の間には軽い相関関係がある模様
ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数
Copyright 2015 Japan OSS Promotion Forum
重複率(横軸)と複雑度(縦軸)の関係
Apache CassandraApache Drill
Apache Flume
Apache Hadoop HDFS
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Hbase
Apache Hive
Apache ManifoldCFApache Mesos
Apache NutchApache S4
Apache Spark
Apache SqoopApache Storm
Apache Tez
Ceph
Drools
Esper
GlusterFS
Impala
JubatusLustre
MongoDB
Pentaho
R
Redis
0
50,000
100,000
150,000
200,000
250,000
300,000
0.0% 5.0% 10.0% 15.0% 20.0% 25.0% 30.0%
Riakは外れ値とみなした
39
Copyright 2015 Japan OSS Promotion Forum
まとめ
40
この様な感じでした
Copyright 2015 Japan OSS Promotion Forum
ちなみに昨年のまとめは…
41
Copyright 2015 Japan OSS Promotion Forum
昨年と同じ軸でまとめてみると…
Apache Cassandra
Apache Drill
Apache Flume
Apache Hadoop
Apache HBase
Apache Hive
Apache Kafka
Apache ManifoldCF
Apache Mesos
Apache Nutch
Apache Spark
Apache Sqoop
Apache Storm
Ceph
Drools Fusion
Elasticsearch
Esper
Fluentd
GlusterFS
Infinispan
JasperReports
MongoDB
RRedis
Riak
Talend
VoltDB
導入実績多数
導入実績あり
検証実績多数
検証実績あり
ランク外
エンタープライズ適用領域
新技術
ウォッチ領域 先行検討/アーリーアダプト領域
昨年「新技術ウォッチ領域」であったVoltDB、Apache Sparkは順調に成長Apache Sparkは一気に「エンタープライズ適用領域へ」
42
ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている
有償サービスも揃いつつある
ただし、機能や品質の見極めは当然必要
Apache Sparkとそのエコシステムは来ている(開発も利用も)
Elasticsearchはとても頑張り屋さん
MongoDBやCephはこの領域では比較的安定期に入りつつある
ただし、状況は変化しており今後も継続的なウォッチが必要
Copyright 2015 Japan OSS Promotion Forum
所感
ご興味を持って頂けた方がいらっしゃいましたら
ぜひ一緒にやりましょう!
43
付録
Copyright 2015 Japan OSS Promotion Forum 44
Copyright 2015 Japan OSS Promotion Forum
公式サイト
区分 ソフトウェア 公式サイト
クローラ Apache ManifoldCF http://manifoldcf.apache.org/
Apache Nutch http://nutch.apache.org/
データロード Apache Sqoop http://sqoop.apache.org/
Talend https://www.talend.com/
収集 Apache Flume https://flume.apache.org/
Apache Kafka http://kafka.apache.org/
Fluentd http://www.fluentd.org/
CEP Apache Storm http://storm.apache.org/
Apache S4 http://incubator.apache.org/s4/
Jubatus http://jubat.us/
Esper http://www.espertech.com/products/esper.php
Drools Fusion http://www.drools.org/
Apache Spark Streaming http://spark.apache.org/streaming/
並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/
Apache Hadoop MapReduce http://hadoop.apache.org/
Apache Hadoop YARN http://hadoop.apache.org/
Apache Mesos http://mesos.apache.org/
Apache Spark http://spark.apache.org/
Apache Tez https://tez.apache.org/
データ蓄積ファイルシステム
Apache Hadoop HDFS http://hadoop.apache.org/
Ceph http://ceph.com/
GlusterFS http://www.gluster.org/
Lustre http://lustre.org/
準リアルタイムクエリ Apache Drill https://drill.apache.org/
Apache Hive https://hive.apache.org/
Apache Spark SQL http://spark.apache.org/sql/
Impala http://impala.io/
インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/
Apache HBase http://hbase.apache.org/
Infinispan http://infinispan.org/
MongoDB https://www.mongodb.org/
Redis http://redis.io/
Riak http://docs.basho.com/
全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch
機械学習 Apache Spark MLib http://spark.apache.org/mllib/
統計解析 R https://www.r-project.org/
BI・BAツール JasperReports http://community.jaspersoft.com/
Pentaho http://community.pentaho.com/
インメモリDB VoltDB https://voltdb.com/
45
区分 ソフトウェア オープンソースライセンス
クローラ Apache ManifoldCF Apache License 2.0
Apache Nutch Apache License 2.0
データロード Apache Sqoop Apache License 2.0
Talend Apache License 2.0
収集 Apache Flume Apache License 2.0
Apache Kafka Apache License 2.0
Fluentd Apache License 2.0
CEP Apache Storm Apache License 2.0
Apache S4 Apache License 2.0
Jubatus GNU Lesser General Public License v2.1
Esper GNU General Public License v2
Drools Fusion Apache License 2.0
Apache Spark Streaming Apache License 2.0
並列分散処理 Apache Hadoop Common Apache License 2.0
Apache Hadoop MapReduce Apache License 2.0
Apache Hadoop YARN Apache License 2.0
Apache Mesos Apache License 2.0
Apache Spark Apache License 2.0
Apache Tez Apache License 2.0
データ蓄積ファイルシステム
Apache Hadoop HDFS Apache License 2.0
Ceph GNU Lesser General Public License v2.1
GlusterFS GNU General Public License v3
Lustre GNU General Public License v2
準リアルタイムクエリ Apache Drill Apache License 2.0
Apache Hive Apache License 2.0
Apache Spark SQL Apache License 2.0
Impala Apache License 2.0
インメモリDG/分散KVS Apache Cassandra Apache License 2.0
Apache HBase Apache License 2.0
Infinispan Apache License 2.0
MongoDB GNU Affero General Public License v3
Redis BSD License
Riak Apache License 2.0
全文検索エンジン Elasticsearch Apache License 2.0
機械学習 Apache Spark MLib Apache License 2.0
統計解析 R GNU General Public License
BI・BAツール JasperReports GNU Lesser General Public License
Pentaho Apache License 2.0
インメモリDB VoltDB GNU General Public License v3
Copyright 2015 Japan OSS Promotion Forum
オープンソースライセンス
46
区分 ソフトウェア 開発者向けメーリングリスト
クローラ Apache ManifoldCF dev@manifoldcf.apache.org
Apache Nutch dev@nutch.apache.org
データロード Apache Sqoop dev@sqoop.apache.org
Talend -
収集 Apache Flume dev@flume.apache.org
Apache Kafka dev@kafka.apache.org
Fluentd ※Google groupsを利用
CEP Apache Storm dev@storm.apache.org
Apache S4 s4-dev@incubator.apache.org
Jubatus ※Google groupsを利用
Esper dev@esper.codehaus.org (未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common common-dev@hadoop.apache.org
Apache Hadoop MapReduce mapreduce-dev@hadoop.apache.org
Apache Hadoop YARN yarn-dev@hadoop.apache.org
Apache Mesos dev@mesos.apache.org
Apache Spark dev@spark.apache.org
Apache Tez dev@tez.apache.org
データ蓄積ファイルシステム
Apache Hadoop HDFS hdfs-dev@hadoop.apache.org
Ceph ceph-devel@vger.kernel.org
GlusterFS gluster-devel@gluster.org
Lustre lustre-devel@lists.lustre.org
準リアルタイムクエリ Apache Drill dev@drill.apache.org
Apache Hive dev@hive.apache.org
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra dev@cassandra.apache.org
Apache HBase dev@hbase.apache.org
Infinispan infinispan-dev@lists.jboss.org
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak ※利用者向けメーリングリストのみ
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R r-devel@r-project.org
BI・BAツール JasperReports -
Pentaho -
インメモリDB VoltDB -
Copyright 2015 Japan OSS Promotion Forum
開発者向けメーリングリスト
47
区分 ソフトウェア 利用者向けメーリングリスト
クローラ Apache ManifoldCF user@manifoldcf.apache.org
Apache Nutch user@nutch.apache.org
データロード Apache Sqoop user@sqoop.apache.org
Talend -
収集 Apache Flume user@flume.apache.org
Apache Kafka users@kafka.apache.org
Fluentd ※Google groupsを利用
CEP Apache Storm user@storm.apache.org
Apache S4 s4-user@incubator.apache.org
Jubatus ※Google groupsを利用
Esper user@esper.codehaus.org (未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common user@hadoop.apache.org
Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ
Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ
Apache Mesos user@mesos.apache.org
Apache Spark user@spark.apache.org
Apache Tez user@tez.apache.org
データ蓄積ファイルシステム
Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ
Ceph ceph-user@lists.ceph.com
GlusterFS gluster-users@gluster.org
Lustre lustre-discuss@lists.lustre.org
準リアルタイムクエリ Apache Drill user@drill.apache.org
Apache Hive user@hive.apache.org
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra user@cassandra.apache.org
Apache HBase user@hbase.apache.org
Infinispan ※開発者向けメーリングリストのみ
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak riak-users@lists.basho.com
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R ?(r-help@r-project.org と考える?)
BI・BAツール JasperReports -
Pentaho ※Google groupsを利用
インメモリDB VoltDB -
Copyright 2015 Japan OSS Promotion Forum
利用者向けメーリングリスト
48
区分 ソフトウェア 利用しているソースコードリポジトリサービス
クローラ Apache ManifoldCF GitHub(apache/manifoldcf)
Apache Nutch GitHub(apache/nutch)
データロード Apache Sqoop GitHub(apache/sqoop)
Apache Kafka GitHub(apache/kafka)
Talend -
収集 Apache Flume GitHub(apache/flume)
Fluentd GitHub(fluent/fluentd)
CEP Apache Storm GitHub(apache/storm)
Apache S4 GitHub(apache/incubator-s4)
Jubatus GitHub(jubatus/jubatus)
Esper GitHub(espertechnic/esper)
Drools Fusion GitHub(droolsjbpm/drools)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common)
Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce)
Apache Hadoop YARN -
Apache Mesos GitHub(apache/mesos)
Apache Spark GitHub(apache/spark)
Apache Tez GitHub(apache/tez)
データ蓄積ファイルシステム
Apache Hadoop HDFS GitHub(apache/hadoop-hdfs)
Ceph GitHub(ceph/ceph)
GlusterFS GitHub(gluster/glusterfs)
Lustre -
準リアルタイムクエリ Apache Drill GitHub(apache/drill)
Apache Hive GitHub(apache/hive)
Apache Spark SQL ※Apache Sparkと同じ
Impala GitHub(cloudera/impala)
インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra)
Apache HBase GitHub(apache/hbase)
Infinispan GitHub(infinispan/infinispan)
MongoDB -
Redis GitHub(antirez/redis)
Riak GitHub(basho/riak)
全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch)
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports -
Pentaho GitHub(pentaho/pentaho-platform)
インメモリDB VoltDB GitHub(VoltDB/voltdb)
Copyright 2015 Japan OSS Promotion Forum
ソースコードリポジトリサービス
49
Copyright 2015 Japan OSS Promotion Forum
Twitterアカウント
区分 ソフトウェア Twitterアカウント
クローラ Apache ManifoldCF @ApacheManifold
Apache Nutch @ApacheNutch
データロード Apache Sqoop @sqoopit
Talend @Talend
収集 Apache Flume -
Apache Kafka @apachekafka
Fluentd @fluentd
CEP Apache Storm @ApacheStorm
Apache S4 -
Jubatus @JubatusOfficial
Esper -
Drools Fusion -
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common @hadoop
Apache Hadoop MapReduce ※Apache Hadoopと同じ
Apache Hadoop YARN ※Apache Hadoopと同じ
Apache Mesos @Apache Mesos
Apache Spark @ApacheSpark
Apache Tez @ApacheTez
データ蓄積ファイルシステム
Apache Hadoop HDFS ※Apache Hadoopと同じ
Ceph @Ceph
GlusterFS @glusterfs
Lustre -
準リアルタイムクエリ Apache Drill @ApacheDrill
Apache Hive @ApacheHive
Apache Spark SQL ※Apache Sparkと同じ
Impala -
インメモリDG/分散KVS Apache Cassandra @Cassandra
Apache HBase @Hbase
Infinispan @infinispan
MongoDB @MongoDB
Redis @redisfeed
Riak -
全文検索エンジン Elasticsearch @Elasticsearch
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports @jasperreports
Pentaho @Pentaho
インメモリDB VoltDB @VoltDB
50
区分 ソフトウェア Issue Tracker
クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS)
Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH)
データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP)
Talend -
収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME)
Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA)
Fluentd GitHub(https://github.com/fluent/fluentd/issues)
CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM)
Apache S4 -
Jubatus GitHub(https://github.com/jubatus/jubatus/issues)
Esper -
Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP)
Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE)
Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN)
Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS)
Apache Spark JIRA(https://issues.apache.org/jira/browse/spark)
Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ)
データ蓄積ファイルシステム
Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS)
Ceph Redmine(http://tracker.ceph.com/projects/ceph)
GlusterFS Bugzilla(https://bugzilla.redhat.com/)
Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa)
準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL)
Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE)
Apache Spark SQL ※Apache Sparkと同じ
Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa)
インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA)
Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE)
Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa)
MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa)
Redis Google Project Hosting(https://code.google.com/p/redis/issues/list)
Riak GitHub(https://github.com/basho/riak/issues)
全文検索エンジン Elasticsearch -
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/)
BI・BAツール JasperReports -
Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa)
インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM)
Copyright 2015 Japan OSS Promotion Forum
Issue Tracker
51
区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供
クローラ Apache ManifoldCF - ○ ○ -
Apache Nutch - - - -
データロード Apache Sqoop - ○ △ △
Talend ○ - ○ ○
収集 Apache Flume - ○ △ △
Apache Kafka - ○ - ○
Fluentd - ○ - -
CEP Apache Storm - ○ - △
Apache S4 - - - -
Jubatus - - - ○
Esper ○ - - -
Drools Fusion ○ - - -
Apache Spark Streaming - ○ △ △
並列分散処理 Apache Hadoop Common ○ ○ ○ ○
Apache Hadoop MapReduce ○ ○ △ ○
Apache Hadoop YARN ○ ○ △ △
Apache Mesos - - - ○
Apache Spark - ○ ○ ○
Apache Tez - ○ - -
データ蓄積ファイルシステム
Apache Hadoop HDFS ○ ○ △ △
Ceph ○ ○ △ -
GlusterFS ○ ○ ○ -
Lustre - - - ○
準リアルタイムクエリ Apache Drill ○ ○ - △
Apache Hive - ○ ○ △
Apache Spark SQL - ○ △ △
Impala - ○ ○ △
インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○
Apache HBase - ○ ○ ○
Infinispan ○ - - -
MongoDB ○ ○ ○ ○
Redis - - ○ ○
Riak ○ - - ○
全文検索エンジン Elasticsearch - ○ ○ ○
機械学習 Apache Spark MLib - ○ - △
統計解析 R ○ ○ ○ ○
BI・BAツール JasperReports ○ ○ ○ ○
Pentaho ○ ○ ○ ○
インメモリDB VoltDB - - - -
Copyright 2015 Japan OSS Promotion Forum
国内でのサービス提供状況
52
top related