data scientist summit 2014
Post on 05-Jul-2015
459 Views
Preview:
TRANSCRIPT
© Talend 2014 1
ビッグデータの収集、整備、統合、活用のティップス
日時 :2014年6月27日(金)於 :秋葉原コンベンションホール主催 :翔泳社
Talend株式会社コンサルティングマネージャー正金秀規
DATA SCIENTIST SUMMIT 2014
【A-4】 15:30~16:10
本スライド内で引用される全ての商標、商標名、画像、ロゴ等は各社に帰属します
© Talend 2014 2
データ分析の阻害要因
© Talend 2014 3
歴史のある典型的なDWHシステム
DWHシステム
データマートDWHステージングエリアファイル類
ERP
Cloud / SaaS
DBMS
DWH
分析・レポーティング
業務システム
最適化が必要顧客情報分析、リスク分析売上傾向分析、管理会計サプライヤ分析、その他
© Talend 2014 4
ビジネスが
新たなデータを
要求する時代に
© Talend 2014 5
想定していなかった情報が業務を取り巻いてきています
天気情報
マーケット・ニュース
オープンデータ
センサーネットワーク
スマートメーター
データ量
データの種類
ソース数
データ量
データの鮮度
© Talend 2014 6
ビッグデータでトレンドな分析対象〜構造・半構造・多構造・非構造データ〜
• 顧客インタラクションデータ
- クリックストリーム、WEBアクセスログ
- コールセンターのボイスデータ、e-mail
• ソーシャルネットワークデータ:Facebook, Twitter等
• 非構造コンテンツ
• センサーデータ
- GPS位置情報、天気情報、光量、移動、振幅、気圧、RFID/NFC等
• 業種・業界特化データ
- CDR:通話明細、銀行トランザクション等
出典:The Real-World Use
of Big Data Said Business
School Oxford and IBM,
October 2012
© Talend 2014 7
困難な点:ソースデータの複雑さ
• データの種類が多岐にわたる- RDB等で管理された構造化データ
- 半構造化データ:XML, HTML, JSON等
- 非構造データ:テキスト
- マシン生成データ:センサーデータ等の特殊フォーマット
• データ量があまりに膨大- ギガからペタへ
- 億から数十億へ
• 情報の鮮度に対する要求の高度化- バッチ処理からストリームへの対応も考慮が必要
• データの意味を理解しなければならない- データ項目には様々な意味があります
© Talend 2014 8
困難な点:ソースデータの複雑さ
アクセスログ
XML
画像データ
© Talend 2014 9
例:Twitter
タイムスタンプ
スクリーンネーム
時間帯
つぶやき
※以下は加工済みです
© Talend 2014 10
分析作業の負荷軽減と
精度向上、定着化のためにデータの整理整頓が必要
© Talend 2014 11
データ分析とビッグデータインテグレーション
© Talend 2014 12
データ分析におけるプロセスと役割
仮説構築データ
収集
データ
整備・変換視覚化
データ
分析
データ
活用
データサイエンティスト
データ分析者
データインテグレーション担当者
システム基盤担当者
© Talend 2014 13
データ分析システム
昨今のデータ分析システムが保持すべき3つの機能
データインテグレーション機能
ビジネスインテリジェンス機能
ビッグデータストア機能
仮説構築データ
収集
データ
整備・変換視覚化
データ
分析
データ
活用
© Talend 2014 14
ビッグデータストア機能とBIの役割
• ビッグデータストア機能
- Hadoop:大量データを蓄積
- NoSQL DB:データ・検索手法に対する最適化
- Spark:インメモリ
• ビジネスインテリジェンス機能
- データ収集(必要なデータを見つける)
- データ整理(有効な項目を見つける)
- 視覚化
- 分析
© Talend 2014 15
データインテグレーション機能の役割
• データ収集の自動化
• コンバージョン
• クレンジング・フィルタリング
• 属性の付与・結合
• データストアへ投入
さらにインテグレーション担当者は、
• 分析担当者がパイロットした分析アルゴリズムを定形処理に実装
• 自動実行化することで定着化
© Talend 2014 16
データ分析システム
データインテグレーション機能
ビジネスインテリジェンス機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張例:ブループリント作成フェーズ
仮説構築データ
収集
データ
整備・変換視覚化
データ
分析
データ
活用
小規模体制、低コストで PRJプランニング、戦略、予算策定
© Talend 2014 17
データ分析システム
データインテグレーション機能
ビジネスインテリジェンス機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張例:コアシステム化フェーズ
OSS系インテグレーションツール BIツール
仮説構築データ
収集
データ
整備・変換視覚化
データ
分析
データ
活用
小規模体制、先ずはBIツールと基盤へ予算を振分けることも勘案
© Talend 2014 18
データ分析システム
データインテグレーション機能
ビジネスインテリジェンス機能
ビッグデータストア機能
モノ(道具と基盤)は投資獲得と共に順次拡張例:システム運用フェーズ
仮説構築データ
収集
データ
整備・変換視覚化
データ
分析
データ
活用
定形処理は、インテグレーションへ。小さなP-D-C-Aを積上げる
商用版インテグレーションツール BIツール
© Talend 2014 19
ビッグデータインテグレーションのポイント
システム構築やデータ分析は最終目標ではない、
データ分析やデータ統合によってビジネスを推進する、
ビジネス目標を達成することこそ目的
目的と手段を取り違えない
スナップショットによるデータ統合や分析ではなく、
仮説・検証・データ分析という「PDCAサイクル」を
まわして実績を積み上げていく
スパイラルアプローチ
データサイエンティスト(データ分析者)、データインテ
グレーション担当者、システム基盤担当者が一体と
なって進めることが重要三身一体
© Talend 2014 20
ビッグデータ統合のTalendを御紹介
© Talend 2014 21
Talendの概要と製品紹介
© Talend 2014 22
Talend Open Studio for
Talend Platform for ….
Talend製品体系
Talend Enterprise
WithBig Data
WithBig Data
WithBig Data
Talend EnterpriseData Integration
Talend EnterpriseBig Data
Talend EnterpriseESB
Talend Platform forBig Data
Talend Platform forData Management
Talend Platform forData Services
Talend Platform forMaster Data Management
Talend Platform forEnterprise Integration
© Talend 2014 23
複雑なMap Reduce処理をGUIで開発
• Map Reduceジョブデザインワークスペースでインディケーターを表示
- 実行時にMapステップとReduceステップの進捗状況とステータスをリアルタイム表示
- Map Reduceジョブのチューニングがビジュアルに可能
ビッグデータインテグレーションの生産性を飛躍的に向上!
© Talend 2014 24
Talendの特徴:ダイナミックインテグレーション
• ダイナミックに発生するデータを迅速に取得していくインテグレーション
多種多様なソースデータの取得・収集を可能とする
500コンポーネントを搭載。
コミュニティには300以上のユーザー作成コンポーネントも
500以上のコンポーネント
ビッグデータ統合処理をMapReduce上でネイティブでの
実行することが可能なため投資効果を高く保ちながら
無限のスケーラビリティを実現
Hadoopネイティブ稼働
ライセンス対象はTalendを使う人
データ量、サーバー数、CPU数、コネクター数はライセンス対象ではない
コンポーネントは無料提供
プライスモデルは、サブスクリプションモデル
ビジネスモデル
© Talend 2014 25
Talend製品で実装済みのコネクターやコンポーネント
Hadoop NoSQL DB DWH, Technology
Amazon Elastic
MapReduce
© Talend 2014 26
金融サービス保険
通信サービス
製造業流通小売り
公共機関教育
導入顧客例:ワールドワイド4,000+社、国内200+社でご活用
© Talend 2014 27
Contact us:
info@talend.com
Learn more:
www.talend.com
お問合せ:GroupSalesJP@talend.com
WEBサイト:http://jp.talend.com
ご清聴有難う御座いました
top related