pentaho概要 - cloudera world tokyo 2017|connecting the ... 2016... · •...

20
Pentaho概要 Pentaho Corporation Sales Engineer Mark Burnette (マーク ブルネット)

Upload: hoangkiet

Post on 22-Oct-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Pentaho概要 Pentaho Corporation Sales Engineer

Mark Burnette (マーク ブルネット)

ビッグデータレイク 急成長中のテクノロジー

新たなテクノロジーの形態が出現

データの世界が急激に広がるとともに、データがヒトとモノをつなげている

1

2

3

新たなデータアーキテクチャでは、 ソースに関係なくすべてのデータを ブレンドし分析することが求められる ユーザーはデータドリブンアプリという 新しい形で分析を利用する

データ準備–10倍の速さ データフローを管理 データドリブンアプリを実現

Pentahoの信念

ビッグデータによって、分析における 市場要件は大きく変わってきている

最も有益な情報はソースでオンデマンドによって提供されるブレンドデータから得られる

過去のツールで 未来を予測する ことはできない

ビッグデータも他のデータと 同様にうまく 処理される 必要がある

1 2 3

Pentaho製品コンポーネント

ETL、ジョブオーケストレーション、 ビッグデータ

Pentahoデータ統合 (PDI)

Pentahoはデータ分析ソリューションを一元化する統合プラットフォームを提供します

データサイエンス

R、Python、Weka

データモデリング

Pentaho メタデータ

+Mondrian

データディスカバリー

Pentahoアナライザー

オペレーションレポート

Pentahoレポートデザイナー

+インタラクティブレポート

ダッシュボード

Pentahoダッシュボードデザイナー

+CTools

EDW データマート

顧客

プロビジョニング

請求

データ統合

ビジネス アナリティクス

Pentahoデータ統合 (PDI) で対処する ビッグデータの課題

場所

Web

ソーシャル メディア

ネットワーク ビッグデータの課題

ビッグデータを扱う際、EDWは柔軟性に欠け、時間と費用がかかり過ぎる

Hadoop

クラスター

NoSQL

スキル習得が困難、人材不足

半構造化/非構造化/構造化データ解析、抽出、処理、 データ品質

ビッグデータを従来型のデータとブレンドし360度ビューに利用

データアクセス、ガバナンス

リアルタイム

データ統合

データ統合

データ統合

データ統合

データサイエンス

データサイエンス

オープンなシステム

標準で100%対応できる

製品は存在しない

ギャップをどう埋めるか?

閉ざされた 独自開発システム

オープンでプラグ可能なアーキテクチャ

カスタムコネクター

カスタム変換ステップ

アクティブなコミュニティ エコシステム

自社開発コードの呼び出し: Java、JavaScript、

シェルスクリプト、SQL…

マーケットプレイス

組み込み可能

カスタム視覚化

Hadoopエコシステムの オーケストレーション/統合

Pentaho +

Cloudera

レガシー データベース

サーバー ログデータ

ネットワーク

顧客 デモグラフィック

場所

Web

ソーシャル メディア

マシン センサー

予測

レポート

サービス としての データ

視覚化

検出

組み込み アプリ

ケーション

Impala

Vertica SAP

HANA

検証 クレンジング 標準化

最適化 仮想化

視覚化データ

PentahoおよびEnterprise Data Hub データ統合、オーケストレーション、分析

Redshift

MapReduce

Yarn Spark

カスタムコード

オーケストレーション&運用管理

Enterprise Data Hub

あらゆるデータ あらゆる分析

ブレンドおよび採集 提供

処理および精製

PentahoによるEnterprise Data Hubのサポート

セキュリティおよび管理

処理 採集

Sqoop、Flume、

Kafka

変換

MapReduce、Hive、Pig、

Spark

検出 分析

データベース Impala

検索

Solr

モデル 機械学習

SAS、R、Spark、Mahout

提供 NoSQL

データベース HBase

ストリーミング Spark

Streaming

無制限ストレージHDFS、HBase

YARN、Cloudera Manager、Cloudera Navigator

Cloudera Enterprise Data Hub

高速かつ柔軟性の高いデータ採集/変換 •視覚的なMapReduce

•変動するワークロードおよびユースケースに合わせて 最適化されるデータオーケストレーション

• Spark、HDFS、Hbase、Impala、YARN、Sqoop、Flume、Hive、Pigのサポート

管理されたデータ提供 •管理されたデータ採集 •大規模なレポートおよび分析 • Impalaと統合して高速分析を実現 視覚化準備+モデリングツール •大規模分析モデルの構築、トレーニング、および実行 •データサイエンスパックでRを簡易サポート •クラスター内のWeka分散モデル •分析結果をダウンストリームプロセスに簡単に取り入れられる Pentahoラボでの継続的イノベーション •Cloudera検索ショーケース •Spark Streaming、Visual Spark

Cloudera Enterprise Data Hub用に最適化 Pentaho分析の利点

ビジネスケース

• クライアントに対して世帯データおよび時系列データを含めた顧客の 詳細情報を提供するという新しいサービスを開始

• 市場で競争力を維持する必要性

課題

• 毎月最大100件のカスタムクエリを手動で実行しており、 顧客の質問への回答が遅延

• 顧客アクティビティを把握するための単一ビューが存在しないため、 マーケティングプログラムの宣伝効果を上げることが難しかった

• 顧客プロファイル情報は動きがなく、リアルタイムで更新されなかった

Pentaho導入後の成果

• データの収益化 - このサービスは既存顧客にも販売

• マーケティングチームに効果的なキャンペーン方法を提供

• 専門的な知識や経験のないユーザーも簡単にデータを利用可能

OPOWER: 顧客行動パターンについての 新しいデータ分析情報を提供

Pentahoを選んだ理由 • 簡単に組み込めるビジネス アナリティクスプラットフォーム

• 既存のテクノロジーとの統合

• 短期間での運用開始を実現

ビジネスケース

• 新規サービスBT Assure Cyberの立ち上げ: あらゆるデータタイプを統合、管理、分析して正確な情報を提供するエンタープライズソリューション

• これまでBT Assure Cyberでは、リレーショナルデータソースと、 ビッグデータソース以外の統合しかできなかった

Pentaho導入後の成果

• あらゆるデータソースを直ちに分析して活用

• サイバー脅威の検出時間を週単位から秒単位に短縮

Pentahoを選んだ理由

• メタデータアプローチによるエンドツーエンドのデータ統合と分析を提供

• エンタープライズ環境でのHadoopのネイティブサポート

• 新たなデータ脅威への対処と将来に向けたアーキテクチャの拡張性

BT: ビッグデータのブレンディングと分析を行うために サイバーセキュリティサービスにPentahoを組み込む

ビジネスケース

• 25万台のストレージデバイスからのストレージ稼動データは毎月倍増

• レガシーデータウェアハウスのコストは年間1,500万ドル

課題

• 解析データを利用できるようになるまで72時間を要する

• 毎週5TBの新しいデータをHadoopで採集し解析

• GUIによるドラッグ&ドロップで開発時間を短縮

Pentaho導入後の成果

• データシステムで年間600万ドルの節約

• 長年満たすことのできなかった週ごとのサービスレベル(SLA)を初めて達成

• 顧客ストレージ機器の問題を早期に発見、対処までの時間を短縮

NetApp:年間600万ドルのコストを削減

Pentahoを選んだ理由 • 高度にカスタマイズ、チューニングできるオープンソースで拡張可能な製品

• BIへの俊敏なアプローチをサポートする 使いやすいプラットフォーム

• ビッグデータを含む多種多様なデータを 扱える高度なスケーラビリティを持つ環境

ビジネスケース

• 緊縮財政計画により、コスト削減が必要

• データウェアハウスの最適化: 運用コストの削減 - ライセンス料の削減と統合により、 年間2,000万ポンドの節約を目指す

• 歳入増加が必要

• Taxpayer360 - データ品質を向上させることによる、340億ポンドの歳入増の可能性

課題

• HMRCは世界最大級の仮想コールセンターを運営しており、22ヶ所にあるコンタクトセンターで、年間6,000万件の問合せを受信

• 400TBのデータを11台の個別のレガシーデータウェアハウスに保管

• カスタマイズが必要なレポート、またはリードタイムの長いレポートはコンサルタント任せ

Pentaho導入後の成果

• 40種類ものレポーティングストリームをセルフサービスレポーティングに統合

• 一日あたり約900工数のコスト削減を実現 (ユーザーベース1,200社に基づく)

• BI能力開発センターの設立など、他のビジネス領域にもPentahoの利用を拡大

HMRC:Pentahoでビジネスを変革

Pentahoを選んだ理由

• Pentahoのソフトウェアはオープンソースベース

• ソフトウェア自体のサイズが小さいため、 すばやく簡単にインストール可能

• 極めて広範囲で深いレベルのビッグデータ統合を可能にするプラットフォーム

• 柔軟にすばやくソリューションを提供

Q&A

Thank you