awsとtalendの連携による 最新のデータドリブン …...• apache kafka • amazon...

15
AWSとTALENDの連携による 最新のデータドリブンデザイン TALEND株式会社 プリセールスマネージャー 三浦大洋 2018年5月30日

Upload: others

Post on 28-May-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

AWSとTALENDの連携による最新のデータドリブンデザイン

TALEND株式会社

プリセールスマネージャー

三浦大洋

2018年5月30日

22

イノベーションと企業成長の歴史クラウド/ビッグデータ統合プラットフォーム

会社概要

• 2017年の売上:対前年度140+%

• 80%以上の伸びを示すクラウド/ビッグデータ

• 全世界で900人超の従業員

• 300万超のオープンソースダウンロード

• NASDAQ:TLND

Multi-Cloud & Real Time

Data Preparation

Cloud, Spark & Spark Streaming

Hadoop 2.0

Big Data

Application Integration

Master Data ManagementData Quality

Data Integration

(Revenue Growth)

2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017

33

TALENDで実現するデータ統合プラットフォーム

既存システム

社外システム

ソーシャルメディア

IoT

オープンデータ

ERP

CRM

DBMS

M/F

ETLバッチ処理リアルタイムストリーミング

データクレンジング

データエンリッチメント

スケジューリングトリガー

フェールオーバーロードバランス

スマートファクトリー

データ統合基盤 データ蓄積基盤

DWH/DM

ELT

Hadoop分散処理

HDFS/HIVE

SparkバッチSparkストリーミング

クラスタ管理

データガバナンス

マスターデータ管理

データマスキング

データクオリティ管理

システム連携

Webサービス/ESB

メッセージブローカーオーケストレーションメディエーション

セルフサービス

データプレパレーションスチュワードシップ

ストリームカタログ

他システム

ビジネスユーザー

メタデータ管理

44

TALENDが選ばれる理由

開発生産性

• ハンドコーディングと比較して5-10倍省力化

• 豊富な開発支援機能

ネイティブ

• Javaコード• MapReduce/Sparkコード

ポータビリティ

• Write Once、Run Anywhere

コネクティビティ

• 豊富なシステム連携• DBMS/NoSQL• 構造化/非構造化• ERP/CRM/ファイル

ユニファイド

• データ統合バッチ• Sparkストリーミング• DQ• ESB• データフロー• ジョブ管理

トラディショナルなデータ統合/連携

66

データ統合/連携アプリケーションを効率よく開発

GUI開発環境Talend Studio

ERP

CRM

各種DBMS

M/F

CSV

Excel

• ETL/ESB• 構造変換• データ加工• クレンジング• コード変換• フロー連携

クラウド

ERP

CRM

各種DBMS

M/F

CSV

Excel

クラウド

77

TALENDによるAWSの更なる活用

データ

加工処理

データ

転送

データ

加工処理

データ

加工処理

AmazonEC2

AmazonEMR

HDFS

Sparkによる高速分散処理 Redshiftを使った

ELT

オンプレミス

• データフローだけでなくジョブ管理/デプロイ環境マネジメントまでをトータルにサポート

クラウドへのオフロード

デプロイ環境マネジメント

最新のデータドリブンデザインセルフサービス

99

多様化するデータ活用システムとして対応できるのは、組織単位のニーズ。個別ニーズには対応できない→ラスト1マイルは未対応。現場の非効率が放置される

属人化されたデータ加工ビジネスユーザーは自分の欲しいデータをExcelなどを使って加工、修正。→どのデータが正しい/最新?誰が何をやっている?

アドホックなデータ要求常に状況が変化するビジネス部門から、恒常的にデータ要求がIT部門になげられる→多くのデータ要求をタイムリーに処理できない

セルフサービスが求められる背景

1010

• セルフサービス

• 直感的なパイプラインデザインGUI

• ストリーミングメッセージキュー• Apache Kafka

• Amazon Kinesis

• スキーマオンリード

• 最新データフォーマットに対応• AVRO, JSON, Parquet, CSV

• ビルトインフィルター、正規化、ウィンドウイングといったデータ変換機能

• Pythonコーディングによる容易な拡張

TALEND DATASTREAMS FOR AWS

1111

• AWS Marketplace

• AWS使用料=$0.266/hr~• 使用するリージョンやインスタンスタイプによって料金は異なる

• Talend使用料=$0

TALEND DATA STREAMS FOR AWS

自動ローンチ型Amazon EC2インスタンス

ブラウザからPublic DNSにアクセスして使用

1212

TALEND DATA STREAMS FOR AWS

Talend Data Streams for AWSでできること

データエンジニア• サーバーレスですぐに使えるデータインジェクション環境

• ストリーミング/バッチアプリケーションを効率よく開発

データサイエンティストデータアナリスト• データ分析のために必要なデータをソースから抽出

• 目的に応じてデータを加工/整形• Pythonを使った高度なデータ処理

1313

TALEND DATA STREAMS FOR AWS豊富な接続性

• HDFS

• Elasticsearch

• Kafka

• Salesforce

• Amazon Kinesis

• Amazon S3

• SQL SERVER

• MARIADB

• MYSQL

• DERBY

• SNOWFLAKE

• REDSHIFT

• POSTGRESQL

Amazon Kinesis

AmazonS3

JDBC

1414

TALEND DATA STREAMS FOR AWS豊富なパイプライン処理

• Pythonを使ったデータ加工

• 集計

• フィールドの選択

• フィルタリング

• 正規化

• パイプラインの分岐

• 型変換

• ウィンドウイング

Talend株式会社〒106-0032 東京都港区六本木1-4-5アークヒルズサウスタワー 3F

03-6427-6370https://jp.talend.com/contact