オープンデータサイエンス データ民主化時代のoss...

39
Hadoopはもうバッチ処理だけではない! データ民主化時代のOSSデータ分析基盤と オープンデータサイエンス Cloudera シニアセールスエンジニア 嶋内

Upload: others

Post on 14-Mar-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

Hadoopはもうバッチ処理だけではない!データ民主化時代のOSSデータ分析基盤とオープンデータサイエンスCloudera シニアセールスエンジニア 嶋内 翔

Page 2: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

2 © Cloudera, Inc. All rights reserved.

• ビッグデータのトレンド

• Hadoop とは何か?

• Clouderaの紹介

• Clouderaによるデータレイク

• データレイクの基本パターン

アジェンダ

Page 3: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

© Cloudera, Inc. All rights reserved.

ビッグデータのトレンド

Page 4: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

4 © Cloudera, Inc. All rights reserved.

データの爆発的な成長2025年までに生成されるデータ量は163兆ギガバイト(2016年比で約10倍)

200

2016 2017 2018 2019 2020 2021 2022 2023 2024 2025

150

0

生成されたデータ量(単位:1兆

GB)

Source: IDC Japan

100

50

Page 5: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

5 © Cloudera, Inc. All rights reserved.

ビッグデータブーム

「これからの時代は非構造の大量データを扱うようになる」

RDBMS + ログデータ + SNS + メール + テキストが中心

AI・機械学習

ディープラーニングの主要ユースケースである画像や音声認識のために、さらに大量の非構造化データが追加

IoTセンサーデータやモバイルデバイスデータが追加

リアルタイム性がより強く求められるようになる

ビッグデータが現実になる

2011 2014 2017

Page 6: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

6 © Cloudera, Inc. All rights reserved.

データの活用を前提とした新しいビジネスへの対応

• フィンテック

• 自動運転

• スマートグリッド

• スマートファクトリー

• 無人店舗

• 予測メンテナンス

新たなリスク・コンプライアンス対応

• 個人情報保護

• GDPR• 情報漏えい

• 実験データの改ざん防止

• データ管理・ガバナンス

システム統合によるコスト削減

• RDBMSリプレース・オフロード

• DWHリプレース・オフロード

• メインフレームオフロード

• マルチテナント化

• アーカイブ統合

ビッグデータによって会社が変わる

Page 7: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

7 © Cloudera, Inc. All rights reserved.

技術者 バックオフィスビジネス層

• データの民主化とは、社員の誰もが自由にデータを活用できるようにする企業内文化のこと

• 誰もが自ら指標を考え、計測し、データ・ドリブンでビジネスを推進する時代へ

データの民主化

営業

マーケティング

企画

経営層 エンジニア

研究者

データサイエンティスト

サポート

監査

経理

人事

情報セキュリティ

顧客データ

製品データ

Webサイトのアクセスログ

サポート問い合わせ記録

実験データ

SNSログ

店舗データ

スマホアプリログ

アンケート結果

取引記録

イベント動画

入退場履歴

Page 8: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

8 © Cloudera, Inc. All rights reserved.

• データがないと何もできない• データサイエンス、AI、機械学習

• BI、ダッシュボード、分析

• データ駆動型企業、デジタルトランスフォーメーション

• データの民主化を実現すれば…• どこにデータがあるのかを一元管理できる

• データを利用するたびに許可を得る必要がなく、自由にデータを活用できる

• 再現のハードルが低く施策を横展開しやすい

なぜデータの民主化が必要なのか?

Page 9: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

9 © Cloudera, Inc. All rights reserved.

• 最先端のデータサイエンスは、論文を読んで自分で実装する

• 商用ソフトの機能追加は1年かかる

• 論文のOSS実装は1週間で公開される

• 試行回数を少しでも増やすことが重要

• OSSデータサイエンス

• OSSの活用はデファクトに

• OSSの機械学習・統計・可視化ライブラリは数千種類にも及ぶ

• データの準備はオーバーヘッド

• 負担を減らせば試行回数は増やせる

データの民主化とオープンデータサイエンス

データの民主化により、データサイエンティストを実験に集中させる必要がある

Page 10: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

10 © Cloudera, Inc. All rights reserved.

2011年

• データソース

• SNSの投稿

• ユースケース

• SNSのバックエンドDB• 利用技術

• NoSQL

2018年

• データソース

• 車載カメラ

• ユースケース

• 自動運転

• アルゴリズム• ディープラーニング

データのコンテキストは時代とともに変わる画像データの例

同じ画像データでも、技術の変化やユースケースの違いにより、コンテキストが変化生データを保持し続けていないと、時代が変わったときにデータが再利用できない

Page 11: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

11 © Cloudera, Inc. All rights reserved.

ビッグデータへの挑戦ビッグデータには、価値ある情報が無限にある

データ量多様性成長速度

が新たなアプローチを 求めている

しかし

WEBログ

ソーシャルメディア

トラディショナルデータ

スマートグリッド

オペレーショナルデータ

デジタルコンテンツ

R&Dデータ

広告のインプレッション数

ファイル

Page 12: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

12 © Cloudera, Inc. All rights reserved.

ビッグデータへの挑戦と求められるもの

データの「量」「多様性」「成長速度」を高い費用対効果で管理する

「構造化データ」ならびに「非構造化データ」に

またがって価値を引き出す

コンテキストの変化に対応、新しいデータソースとデータ形式を統合する

高い費用対効果

データの「量」「多様性」「成長速度」の管理

処理と分析

大規模、複雑なデータセットを迅速に

柔軟性ある対応

コンテキストの変化と新しいデータ形式

Page 13: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

© Cloudera, Inc. All rights reserved.

Hadoopとは何か?

Page 14: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

14 © Cloudera, Inc. All rights reserved.

• スケーラブルで、耐障害性が高く、あらゆる種類・大きさのデータを扱うことができる、分散コンピューティングと分散ストレージのOSSプラットフォーム

Apache Hadoopとは?

Apache Hadoop

分散ストレージ

分散コンピューティング

バッチ処理ストリーミング処理

機械学習Apache Spark

DWH用SQLエンジンApache Impala

全文検索エンジンApache Solr

大規模データストレージ

Apache HDFS

大規模NoSQLApache HBase

DWH用ストレージApache Kudu

スケーラブル 耐障害性 多様・大規模データ

Page 15: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

15 © Cloudera, Inc. All rights reserved.

• Hadoopは、RDBMSでは扱えない規模のデータをバッチ処理するための基盤

• Hadoop:「分散ストレージ」 + 「分散処理フレームワーク」

Hadoopのはじまり

Page 16: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

16 © Cloudera, Inc. All rights reserved.

ビッグデータプラットフォームとしての進化

ストレージ

バッチ

分析SQL

バッチ処理としてのHadoopから始まったプラットフォームは、今はHadoopエコシステムして様々なコンポーネントが登場し、ビッグデータプラットフォームとして、あらゆるユースケースに対応

バッチSQL

高度な分析処理機械学習ストリーミング処理

Page 17: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

17 © Cloudera, Inc. All rights reserved.

分散ストレージとしてのHadoop

1

2

3

4

5

2

4

5

1

2

5

1

3

4

2

3

5

1

3

4

受け取ったファイルを一定単位に分割し、クラスタ全体にわたって重複して格納

1つのファイル

Page 18: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

18 © Cloudera, Inc. All rights reserved.

分散コンピューティングとしてのHadoop

1

2

3

4

5

2

4

5

1

2

5

1

3

4

2

3

5

1

3

4

多数のノード間で大規模ジョブを並列処理

1つのファイル

Page 19: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

19 © Cloudera, Inc. All rights reserved.

スケーラビリティ

• サーバ数台でスモールスタートし、1000台規模まで拡張可能

• サーバを足すだけで無停止で拡張。システムの改修は不要

• サーバを足した分だけ処理能力とストレージを拡張可能

様々なアプリケーションとの接続

• BIツールやSQLを使って大規模DWHとして

• 大量のデータを処理するバッチ処理の基盤として

• リアルタイムに流れてくるストリームデータの処理基盤として

• PythonやRと接続したデータサイエンスの基盤として

あらゆるデータ形式に対応

• DB、テーブルなどの構造化データ

• ログ、SNS、画像、センサーデータなどの非構造化データ

• 構造化・非構造化データの両方を扱うことが可能

Hadoopの価値

Page 20: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

20 © Cloudera, Inc. All rights reserved.

既存システムの

ITコスト削減

• 高価なRDBMS・DWHを統合

• 高額な改修費用を必要とするDWHやメインフレームの処理をオフロード可能

• 従来システムよりはるかに低コストで大幅な性能向上を実現可能

データの一元管理による

リスク低減

• データへのアクセス制御や監査などを一元化。情報漏えいや改ざん・不正などを阻止

新規ビジネスの

早期の実現

• 蓄積したデータをそのまま機械学習・AIシステムに活用可能。追加のシステムの構築は不要

• 新しいデータを追加していくことで、新規ビジネスの種を次々に生み出していくことが可能

なぜHadoopを使うのか?

Page 21: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

21 © Cloudera, Inc. All rights reserved.

従来のRDBMS

• 主に構造化データのみ扱える

• トランザクション処理を実行可能

• OLAPにも利用可能

• サーバ1台でも利用可能

• 複数台を組み合わせた大規模データ基盤の構築はコスト的に困難。性能追加はスケールアップが基本

Hadoop

• 構造化・非構造化のデータ両対応

• 複数行トランザクション処理以外の広範な用途に利用可能

• OLAP• 全文検索

• バッチ処理

• ストリーミング処理

• NoSQL• サーバは最低4台必要

• 数千台までスケールアウト可能

従来のRDBMSとHadoopとの違い

Page 22: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

© Cloudera, Inc. All rights reserved.

Cloudera紹介

Page 23: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

23 © Cloudera, Inc. All rights reserved.

Clouderaは現在は不可能なことも、データの力によって近い将来可能になると信じています

Apache Hadoopの信頼できるリーダー企業

▪ エンタープライズ企業1000社以上の実績を持つ、Apache Hadoopをコアとしたデータ基盤を提供するベンダー

▪ Apacheエコシステム全体に対するトップレベルのコントリビュータ陣

▪ 10万以上のノードの運用管理実績

Hadoopを簡単に使える企業向けソリューションに

▪ 検証・認定済みで、サポートも行うApache Hadoopディストリビューション

▪ Hadoop管理者用マネジメント・ソフトウェア群

▪ トレーニングと認定プログラム

▪ 包括的なサポートとコンサルティングサービス

Hadoopを簡単に使えるエンタープライズ向けデータ

基盤に

▪ Hadoopをコアに、20種類以上のOSSを組み合わせ、運用管理・セキュリティ・データガバナンスの機能を加えた統合データ基盤

▪ 日本で2000人以上の実績を持つトレーニングと認定プログラム

▪ 日本語での包括的なサポートと、機械学習を活用した予測サポート

業界をリードする   卓越した知識と経験      

▪ PoCから本番環境まで、あらゆるフェーズでの設計・構築・最適化を支援

▪ 金融、通信、医療、ハイテクなど、あらゆる業界のトップ10企業や、27カ国もの政府機関での実績

▪ トレーニング、サポート、プロフェッショナルサービスの全てを日本語で提供

実績ある能力を持つ強力な経営陣

CEOTom Reilly

COOMike Olson

CTOAmr Awadallah

Chief ArchitectDoug Cutting

Page 24: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

24 © Cloudera, Inc. All rights reserved.

Cloudera概要

お客様への成功への貢献

大規模企業の成長促進

48% 140%+

顧客増加数 契約拡大

過去4年間のグローバル売上上位8000社

データの増加と新しい用途の開拓による案件規模の

増大

オープンパートナーネットワーク最高品質のソリューション

3000+パートナー数

ソリューション、サービスプロバイダーで構成される巨大なエコシステム

市場への早期参入

オープンソースイノベーション

2008設立

1600+社員数

世界28カ国でグローバルチームがビジネスを展開

Google、Yahoo、Oracleからビッグデータの変革者が

集結

Page 25: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

25 © Cloudera, Inc. All rights reserved.

ビジネス状況

132%年間成長率

新しいユースケースと利用データの増加による

84%毎年のサブスクリプション

収益比率

$391M過去1年の売上

サブスクリプションの売上成長率は44%

539毎年1000万円以上

ご購入されているお客様

(2)(1)

Notes:1. FQ1’18: 392, FQ2’18: 429, FQ3’18: 475, FQ4’18: 501.2. Our quarterly net subscription revenue expansion rate equals: the subscription revenue in a given quarter from all customers that had subscription

revenue in the same quarter of the prior year, divided by the subscription revenue attributable to that same group of customers in that prior quarter. Our net expansion rate equals the simple arithmetic average of our quarterly net subscription revenue expansion rate for the four quarters ending with the most recently completed fiscal quarter.

• クラウドに最適化された、機械学習とアナリティクスのための最先端の基盤

• 巨大な成長市場 - ビッグデータ、クラウド、IoT、機械学習/AI、デジタルトランスフォーメーション

• 継続的な差別化要素の開発と業界でのリーダーシップを拡張していくイノベーション

• ソリューションとサービスプロバイダパートナー様による、大規模なエコシステム

• 導入して拡張していくことによる、素早い成長

Page 26: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

26 © Cloudera, Inc. All rights reserved.

エンタープライズ企業での導入

金融機関 通信 公共 ヘルスケア ハイテク

7/10グローバルトップ

9/10グローバルトップ

27政府機関に導入済みの

国家数

6/10グローバルトップ

8/10ブローバルトップ

幅広い業界における1,000社以上の導入顧客

グローバル8,000社中、約500社が導入

Page 27: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

27 © Cloudera, Inc. All rights reserved.

エンタープライズ用途での豊富な実績を誇る機械学習と分析機能

パターン認識

異常検知

予測

セルフサービスインテリジェンス

セキュアなレポーティング

リアルタイム分析

機械学習 分析

800社以上のお客様実績

ON

850社以上のお客様実績

ON

Page 28: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

28 © Cloudera, Inc. All rights reserved.

データ駆動型企業へのジャーニー

ユースケース

可視化

生産性

トランスフォーメーション

故障予測予兆保守

インダストリー 4.0用のIoT

Hub

高度な脅威検知 リスク

モデリングと分析

マーケティングシ

ステム統合

顧客360 インサイト

探究的なデータ

サイエンス

データウェアハウス

応用機械学習

成長セールス&マーケティング

接続業務と製品

保護セキュリティとコンプライアンス

モダナイズIT、Tech、データサイエンスと分析

Page 29: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

© Cloudera, Inc. All rights reserved.

Clouderaによるデータレイク

Page 30: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

30 © Cloudera, Inc. All rights reserved.

Cloudera Enterpriseあらゆるデータを蓄積し、活用するための最新のデータレイク基盤

クラウドストレージ(Amazon S3 / Microsoft ADLS)

オンプレミス分散ストレージ(Hadoop / Kudu)

IoTセンサー

データソース

サーバー

ログ

RDBMS

ファイル

定型レポート

ダッシュボード

セルフサービスBI

機械学習システム

リアルタイムBI

全文検索システム

NoSQL バッチ処理ストリーム処理

ETL

データサイエンス

データウェアハウス

Page 31: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

31 © Cloudera, Inc. All rights reserved.

従来のDWHとClouderaの違い

ログ

DB

画像

ETLサーバ

RDBMS

DWH

データ量とアクセス量の増加に耐えられない

わずかなリソースの追加だけで膨大な追加コスト

BIツール

業務アプリ

非構造化データを取り扱えない

重複したデータや正確性が不明なデータ

限定的なデータアクセス

構造化データも非構造化データも取り込み可能ログ

DB

画像

オンプレもクラウドも安価にストレージ・計算リソースを追加可能

クラウドストレージ

拡張

オンプレサーバ

追加

BIツール

業務アプリ

全てのデータに自由にアクセス可能

従来のDWH・RDBMS Cloudera によるデータレイク

Page 32: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

32 © Cloudera, Inc. All rights reserved.

データソース

より現実的なデータウェアハウスシステムの構成例データウェアハウスは業務システムとセット

各種非構造化データ(HDFS)

分析SQL(Impala)

加工処理等(Spark Streaming)

ETL・バッチSQL(Hive/Spark)

業務DB・分析DB(Kudu)

IoTセンサー

データソース

サーバー

ログ

データ取得(Flume)

アプリ

ETLツール

MQTTBroker

データ取得 アプリ

アプリ

BIツール業務DB・分析DB

クエリ/処理エンジン

アーカイブ・分析DB

メッセージキュー

(Kafka)

加工処理等(アプリ)

業務DB(HBase)

業務DB

RDBMS

ファイル

DBインポート(Sqoop)

NFSゲートウェイ

NFSゲートウェイ

ファイル

Page 33: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

33 © Cloudera, Inc. All rights reserved.

アーキテクチャ例: 小売業店舗での購買に関するデータ活用

分析SQL(Impala)

業務DB・分析DB(Kudu)

決済端末データ取得

(Flume)リアルタイムダッシュ

ボード

メッセージキュー

(Kafka)

Data Science Workbench

機械学習モデルリアルタイム異常検知

(Spark Streaming)

買い物客

買い物してすぐに、不正検知のアラートメールを受け

取る

マーケティング

急なトレンドの変化もすぐに検知可能

各種非構造化データ

(HDFS)

天気データ

列車運行情報

政府統計

他DB

経営層向けダッシュボード

過去10年以上のデータを高速に横断分析

Page 34: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

© Cloudera, Inc. All rights reserved.

データレイクの基本パターン

Page 35: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

35 © Cloudera, Inc. All rights reserved.

従来のコールドアーカイブ•テープバックアップ等

•必要なときにすぐにデータを取り出せない

アクティブアーカイブ•普段使わないデータでも、必要に応じてすぐに利用可能

アクティブアーカイブ

他システム

古いデータのアーカイビング

必要に応じて活用可能- 警察対応- 経営層からの特命

Page 36: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

36 © Cloudera, Inc. All rights reserved.

従来のバッチ処理

•ストレージ容量が限定的

•リソース不足時の拡張に莫大な費用がかかる

Clouderaの高速バッチ処理

分散・インメモリによる高速処理

リソース不足時にはサーバを追加するだけ。開発、業務停止一切不要

既にデータをアーカイブ化している場合は入力データの転送も不要

高速バッチ処理

他システム

バッチ処理用入力データの転送(既にアーカイブ化している場合は転送不要!)

高速バッチ処理

処理結果の書き戻し

Page 37: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

37 © Cloudera, Inc. All rights reserved.

従来のデータウェアハウス

•ストレージ容量が限界に来ている

•多数のBIワークロードが重くなってきている

•わずかな拡張のために多大な追加投資が必要

Clouderaの分析基盤

高速バッチ処理基盤と同様、無停止・開発不要でサーバ追加のみで柔軟にリソースを追加可能

結果をDWHに書き戻すため、BI等の他のシステムに影響を与えない

DWHオフロード

DWH

ETL処理対象データ

ETL処理

処理結果の書き戻し BIツール

従来の定型業務レポート重要データ(直近の売上など)のBI

Page 38: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進

38 © Cloudera, Inc. All rights reserved.

従来の分析基盤

データが多数のDB・DWHに分散している

相関分析・クロス集計だけでも非常に困難

Clouderaの分析基盤

全社のデータを一箇所に集めて分析

あらゆる相関・集計を高速に実行可能

ユーザ接続数も拡張可能

従来のデータ基盤への書き戻しも可能なため、段階的な移行が可能

全社横断BI

DWH分析DB

分析データのアーカイビング

ETL処理

処理結果の書き戻し

他システム

BIツール全社横断のデータ分析

従来の定型業務レポート重要データ(直近の売上など)のBI

Page 39: オープンデータサイエンス データ民主化時代のOSS …ossforum.jp/jossfiles/OSS推進フォーラム講演...Cloudera概要 お客様への成功への貢献 大規模企業の成長促進