awsとtalendの連携による 最新のデータドリブン …...• apache kafka • amazon...
TRANSCRIPT
22
イノベーションと企業成長の歴史クラウド/ビッグデータ統合プラットフォーム
会社概要
• 2017年の売上:対前年度140+%
• 80%以上の伸びを示すクラウド/ビッグデータ
• 全世界で900人超の従業員
• 300万超のオープンソースダウンロード
• NASDAQ:TLND
Multi-Cloud & Real Time
Data Preparation
Cloud, Spark & Spark Streaming
Hadoop 2.0
Big Data
Application Integration
Master Data ManagementData Quality
Data Integration
(Revenue Growth)
2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017
33
TALENDで実現するデータ統合プラットフォーム
既存システム
社外システム
ソーシャルメディア
IoT
オープンデータ
ERP
CRM
DBMS
M/F
ETLバッチ処理リアルタイムストリーミング
データクレンジング
データエンリッチメント
スケジューリングトリガー
フェールオーバーロードバランス
スマートファクトリー
データ統合基盤 データ蓄積基盤
DWH/DM
ELT
Hadoop分散処理
HDFS/HIVE
SparkバッチSparkストリーミング
クラスタ管理
データガバナンス
マスターデータ管理
データマスキング
データクオリティ管理
システム連携
Webサービス/ESB
メッセージブローカーオーケストレーションメディエーション
セルフサービス
データプレパレーションスチュワードシップ
ストリームカタログ
他システム
ビジネスユーザー
メタデータ管理
44
TALENDが選ばれる理由
開発生産性
• ハンドコーディングと比較して5-10倍省力化
• 豊富な開発支援機能
ネイティブ
• Javaコード• MapReduce/Sparkコード
ポータビリティ
• Write Once、Run Anywhere
コネクティビティ
• 豊富なシステム連携• DBMS/NoSQL• 構造化/非構造化• ERP/CRM/ファイル
ユニファイド
• データ統合バッチ• Sparkストリーミング• DQ• ESB• データフロー• ジョブ管理
66
データ統合/連携アプリケーションを効率よく開発
GUI開発環境Talend Studio
ERP
CRM
各種DBMS
M/F
CSV
Excel
• ETL/ESB• 構造変換• データ加工• クレンジング• コード変換• フロー連携
クラウド
ERP
CRM
各種DBMS
M/F
CSV
Excel
クラウド
77
TALENDによるAWSの更なる活用
データ
加工処理
データ
転送
データ
加工処理
データ
加工処理
AmazonEC2
AmazonEMR
HDFS
Sparkによる高速分散処理 Redshiftを使った
ELT
オンプレミス
• データフローだけでなくジョブ管理/デプロイ環境マネジメントまでをトータルにサポート
クラウドへのオフロード
デプロイ環境マネジメント
99
多様化するデータ活用システムとして対応できるのは、組織単位のニーズ。個別ニーズには対応できない→ラスト1マイルは未対応。現場の非効率が放置される
属人化されたデータ加工ビジネスユーザーは自分の欲しいデータをExcelなどを使って加工、修正。→どのデータが正しい/最新?誰が何をやっている?
アドホックなデータ要求常に状況が変化するビジネス部門から、恒常的にデータ要求がIT部門になげられる→多くのデータ要求をタイムリーに処理できない
セルフサービスが求められる背景
1010
• セルフサービス
• 直感的なパイプラインデザインGUI
• ストリーミングメッセージキュー• Apache Kafka
• Amazon Kinesis
• スキーマオンリード
• 最新データフォーマットに対応• AVRO, JSON, Parquet, CSV
• ビルトインフィルター、正規化、ウィンドウイングといったデータ変換機能
• Pythonコーディングによる容易な拡張
TALEND DATASTREAMS FOR AWS
1111
• AWS Marketplace
• AWS使用料=$0.266/hr~• 使用するリージョンやインスタンスタイプによって料金は異なる
• Talend使用料=$0
TALEND DATA STREAMS FOR AWS
自動ローンチ型Amazon EC2インスタンス
ブラウザからPublic DNSにアクセスして使用
1212
TALEND DATA STREAMS FOR AWS
Talend Data Streams for AWSでできること
データエンジニア• サーバーレスですぐに使えるデータインジェクション環境
• ストリーミング/バッチアプリケーションを効率よく開発
データサイエンティストデータアナリスト• データ分析のために必要なデータをソースから抽出
• 目的に応じてデータを加工/整形• Pythonを使った高度なデータ処理
1313
TALEND DATA STREAMS FOR AWS豊富な接続性
• HDFS
• Elasticsearch
• Kafka
• Salesforce
• Amazon Kinesis
• Amazon S3
• SQL SERVER
• MARIADB
• MYSQL
• DERBY
• SNOWFLAKE
• REDSHIFT
• POSTGRESQL
Amazon Kinesis
AmazonS3
JDBC
1414
TALEND DATA STREAMS FOR AWS豊富なパイプライン処理
• Pythonを使ったデータ加工
• 集計
• フィールドの選択
• フィルタリング
• 正規化
• パイプラインの分岐
• 型変換
• ウィンドウイング