talend勉強会 20150414

Post on 19-Jul-2015

143 Views

Category:

Software

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Talend勉強会 2015-04-15 @kuro

本スライドの内容は個人的な調査の結果であり、株式会社Talendとの関係はありません。

!

アジェンダ• Talend製品について:10分

• Talend Open Studio for Data Integration デモ:20分

• 有償版との違いについて:15分

• 質疑応答:15分

• 質問は適宜して頂いて結構です!3

Talend製品について

Talend製品ポートフォリオ

• http://www.slideshare.net/talendkk/talendtalend54 のP.26~

• 6つのモジュールと3つの製品レベル

5

10分

Talend Open Studio for Data Integration デモ

デモのお題• 店舗ID(storeId)と売上(sales)が含まれるcsvファイルを入力とする。店舗IDは同じIDが複数回含まれる。

• 同一店舗IDで売上を合算した売上合計(totalSales)を一覧として店舗名(storeName)と組でcsvファイル出力する。店舗名はDBの店舗マスタ(store)を参照する。

• 細かいルール(店舗IDの規則など)は省略。

デモのお題

storeId,sales 0001,100 0002,200 0003,300 0001,10000 0002,20000 0003,30000

storeName,totalSales 池袋店,10100 新宿店,20200 品川店,30300

store_id store_name0001 池袋店

0002 新宿店

0003 品川店

店舗マスタ(store)

入力データ(sales)

出力ファイル(totalSales)

事前準備するもの

• 入力ファイルサンプル(1行目はカラム名)

• 出力ファイルサンプル(1行目はカラム名)

• マスタデータサンプル@DBサーバ

デモ メタデータの作成

メタデータの作成• メタデータ≒スキーマ≒入出力データ定義

• 入出力データ定義はコンポーネント毎にも指定できるが、メタデータ化することで他のコンポーネントやジョブ間で共有できる。

• メタデータを変更した場合、該当のメタデータを利用しているコンポーネントに自動反映。

• メタデータを0から手で作ることも可能だが、実データを元に自動生成した方が楽。

デモ ジョブの作成

ジョブの作成• コンポーネントの配置はパレットからドラッグ&ドロップ or 名前を覚えたらデザイナーの空き地にフォーカスを当てて文字入力することでインクリメンタルサーチ。

• 各コンポーネント間の接続はRow接続(データの接続)とトリガ接続(イベントの接続)の2パターンがある。

デモ ジョブのエクスポート

ジョブのエクスポート• エクスポートでjarとランチャ(sh, bat)が生成される。

• ランチャの実行でジョブが実行される。

• 実行時にパラメータを指定してジョブに渡すことも可能。

• 有償版はエクスポートでサーバ配置するのではなくリポジトリ(SVN)経由。

デモ コンテキストの利用

コンテキストの利用• コンテキストを利用することで環境別設定が実化可能(DB接続先、ファイル配置先、ファイル文字コード、区切り文字など)。

• メタデータのパラメータを自動的にコンテキストすることが可能(コンテキストとしてエクスポート)。

• どの環境設定を利用するかはジョブ実行時にパラメータとして指定できる。

デモ 試験データの作成

試験データの作成

• tRowGeneratorコンポーネントでデータ生成が可能。

• ランダムデータを作るための関数もいくつか用意されている(シーケンス、ランダム、US氏名、US住所)。

デモ その他コンポーネントの紹介

その他コンポーネントの紹介

• Java実行

• Sort

• など時間があれば

30分

有償版との違い (Data Integration)

製品比較表(概要)

http://jp.talend.com/products/data-integration

特長 Talend Open Studio forData Integration

Talend EnterpriseData Integration

ジョブデザイナ x xビジネスモデラ x x800以上のコネクタ x xバージョン管理 x x共有リポジトリ xスケジューリング xモニタリング xウィザード x補償/保証 xライセンス Open Source Subscription

http://jp.talend.com/products/data-integration/matrix詳細は

モジュール構成

Talend Open Studio

 開発・運用端末

Subversion (リポジトリ)

JobServer

Administration Center

Activity Monitoring Console

LogServer

Kibana

JobServerJobServerJobServer

ログモニタリング

ログをLogServerに集約

メタ、統計データ

ジョブ資材を取得

ジョブ実行支持

設定保存、読込

資材チェクイン、チェックアウト

統計情報取得

ブラウザ

共有リポジトリStudioで保存する度にSubversionに自動コミット。

TACからのジョブ制御Talend Administration Centerからジョブのデプロイ、スケジューリングが可能。

バージョン指定したデプロイ

TACからのジョブ制御Talend Administration Centerからジョブのデプロイ、スケジューリングが可能。

処理の並列化有償版Studioでは処理の並列化が可能。tParalizeコンポーネントを利用した並列化

データフローの並列化

ドキュメント自動生成ジョブ作成時に自動的にドキュメントを生成。Open Studioでも手動で作成はできる。

AMCによる性能監視Activity Monitoring Consoleによるジョブのステータス、処理時間の監視。

遠隔サーバでの実行Studioから遠隔サーバでジョブを実行可能。

45分

質疑応答

top related