トレジャーデータ新サービス発表 2013/12/9
DESCRIPTION
トレジャーデータサービスをリリースして一年あまり、今年の最後に目玉となる新サービスのお披露目を東京にて行いました。創業者・CTO 太田 一樹によるプレゼンテーションを公開させていただきます。 トレジャーデータの概要から、新サービスである、Treasure Query Accelerator(当社比従来の10-50倍高速化しました)、 Treasure Viewer(ドラッグアンドドロップで簡単にクロス集計などのグラフが作成できる)、新サービス価格体系についてのご案内も盛り込んでいます。 当日ご来場いただけた方はもちろん、ご都合で欠席された方もぜひご覧ください。 また、今後同内容のWebinarも開催していく予定です。TRANSCRIPT
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
サービス・会社概要紹介 Treasure Data
Founder & CTO 太田 一樹
会社概要 チーム概要
Hiro Yoshikawa – CEO Open source business veteran
Kaz Ohta – CTO Founder of world’s largest Hadoop Group
Jeff Yuan – Director, Engineering LinkedIn, MIT / Michale Stonebraker Lab
Keith Goldstein – VP Sales & BD VP, Business Devt, Tibco and Talend
Rich Ghiossi – VP Marketing VP Marketing, ParAccel and HP
投資家概要
Bill Tai Renown investor, GP Charles River Ventures
Jerry Yang Founder, Yahoo!
Yukihiro “Matz” Matusmoto Creator, “Ruby” programming language
James Lindenbaum Founder, Heroku
Sierra Ventures – (Tim Guleri) Leading venture capital firm in Big Data
2011年12月創業、米国カリフォルニア州。創業者は日本人3人組。2013年12月現在、社員約30名。
ビッグデータの収集・保存・解析を一手に行えるクラウドサービスを提供。他のサービスと異なり、数日で始められるのが特徴。
サービスコンセプト • すぐに使い始められる • クラウドサービスとしての提供を行う • シンプルな機能セット、手厚いサポート
• “Trend Setting Products” in Data for 2014(Database Trends and Applications)
• “5 Hot Big Data Startups”(Enterprise Apps Today)
”データ解析の世界をシンプルにする”
3
事業概要 (2013年12月現在)
>50% 四半期のアカウント数の伸び
>100 社以上のお客様
>2,500,000,000,000 お客様から預かっている
レコード数
>7,000,000 実行した解析ジョブの数
1秒間に保存されている レコード数
>4,000 単一のお客様が
データ収集を行っている アプリケーションサーバー数
>150,000
お客様の例
“データサイエンスはGREEのビジネスにとって最も重要であり、現在、トレジャーデータを使うことによって、数々のゲームの成功をドライブしている。”
“我々のビジネスのように、変化の早い業界において時間はもっとも重要な資産であり、トレジャーデータによって非常に多く節約することが出来た。”
6
“A number of startups have begun to converge on the space as well, including Treasure Data and BIME, which specifically positions as cloud-based Big Data provider.”
“The question becomes, then, what role - if any - will the public cloud play in helping enterprises turn Big Data into actionable insights? Treasure Data believes it has an answer.”
“Treasure Data has taken a leadership position in providing the first end-to-end public cloud-based big data analysis service”
“It’s only been six months since cloud data warehousing company Treasure Data launched its services, but they’re already reporting some impressive growth figures.”
各メディア / アナリストからの評価
7
保存されているデータ量の伸び
2兆件
1兆件
3兆件
サービス開始
BIツール Tableau, Dr.Sum,
Metric Insights, Excel, etc.
サービス概要
REST API, SQL, Pig クエリ結果プッシュ
ダッシュボード Custom App, Local DB,
FTP Server, etc.
データ収集 データ分析 データ保管
Cloud Storage
Flexible, Scalable, Columnar Storage
Webログ
Appログ
センサー
CRM
ERP
RDBMS
並列バルクアップローダー
Bulk Import
REST API, SQL, Pig, JDBC / ODBC
BIツールとの接続 ストリームログコレクタ Treasure Agent
収集・保存・解析まで単一のサービスでの提供を行うサービスはTreasure Dataのみ。
なぜ Treasure Data? – 実装の早さ、本質的な作業に集中
• 既存のデータウェアハウスの実装プロセス
• Treasure Dataのクラウドサービス
Data Collection ETL Data Warehouse BI/Reporting
6ヶ月 ~ 1年, 5-10億円+maintenance, ベンダーロックイン
Data Collection ETL Data Warehouse BI/Reporting
2 – 3週間
月額課金制での支払い
既存のBI/Reportingが利用可能
他社サービス・製品との位置付け
自社 データ
センター
構造化データソース (取引履歴、会計、個人情報)
非構造化、新しいデータソース (Web、センサー、デバイス)
マーケティングクラウド (DMP)
アプリケーションログのレポーティング、分析
センサーデータ/M2M Internet of Things
クラウド
自社データセンターで 保存・解析するには
コスト・人材面でマッチしない
セキュリティ/法律上 クラウドにデータが
上げられない事が多い
補完関係
1. ヨーロッパ最大のモバイルアドエクスチェンジ
2. 2万5千以上のモバイルアプリから月間60億件以上のリクエストを裁く
3. サインアップから14日間、1人のエンジニアによってシステムを完成させた
利用例: 14日間で月間600億インプレッションを裁くシステムを開発
“Time is the most precious asset in our fast-moving business, and Treasure Data saved us a lot of it.” Julian Zehetmayr, CEO & Founder
1. Online Video Service serves millions of users in 150 languages
2. In-house Hadoop cluster too complex, costly and scaling uncertain
3. Eliminated in-house Hadoop cluster and redeployed engineers on core businesses.
Before
After
Benefit – Reduce Cost and Complexity – Replace Hadoop
“Treasure Data has always given us thorough and timely support peppered with insightful tips to make the best use of their service." – Huy Nguyen, Software Engineer
2014年〜: 新たなデータソースの台頭の始まり
13
ログデータ
センサーデータ
The Internet of Things!“モノのインターネット”!
www.treasuredata.com Copyright 2013 14
Cloud Data Service Flexible, Scalable!Columnar Storage!
BI Tools REST API, SQL, Pig, JDBC / ODBC!
BI Connectivity
Dr.Sum / MotionBoard
車、時計、電柱 スマートシティ、センサー、etc.
Custom App REST API, SQL, Pig!Result Push
• 付加サービス • 医療 • 保険 • 機器メンテナンス • etc
新たなデータソース例: M2Mユースケース
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
サービス技術詳細
www.treasuredata.com Copyright 2013 16
Treasure Data Cloud
Data Acquisition – Streaming Capture
# Application Code ... ... # Post event to Treasure Data TD.event.post('access', {:uid=>123}) ... ...
Treasure Data Library Java, Ruby, PHP, Perl, Python, Scala, Node.js
ApplicaIon Server
Treasure Agent (local)
• AutomaIc Micro-‐batching • Local buffering Fall-‐back • Network Tolerance
www.treasuredata.com Copyright 2013 17
Data Acquisition – Bulk Loader
Treasure Data
Cloud
RDBMS App SaaS
FTP
CSV, TSV, JSON, MessagePack, Apache, regex, MySQL, FTP
Bulk Loader
Prepare > Upload > Perform > Commit
www.treasuredata.com Copyright 2013 18
Data Storage Treasure Data Cloud
+me v
1384160400 {“ip”:”135.52.211.23”, “code”:”0”}
1384162200 {“ip”:”45.25.38.156”, “code”:”-‐1”}
1384164000 {“ip”:”97.12.76.55”, “code”:”99”}
+me ip : string code : int
1384160400 135.52.211.23 0
1384162200 45.25.38.156 -‐1
1384164000 97.12.76.55 99
Default (schema-‐less)
Schema applied ~30% Faster
• Stored “schema-less” as JSON – Schema can be applied/updated
AFTER storage • Compressed & columnar format
– For higher query performance
• Optimized for time-based filtering • Quickly scale-up processing power
– WITHOUT reloading/redistributing the data
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
新サービス & 新価格プラン の発表
20
ビッグデータ活用: 7つのステージ
定型レポート
アドホックレポート
ドリルダウン
アラート
統計分析
予測分析
最適化
What happened?
Where?
Where exactly?
Error?
Why?
What’s a trend? What’s the best?
データ解析
レポーティング
お客様の進化に合わせて、我々のサービスも進化を続ける。
発表1: Treasure Query Accelerator • Treasure Query Accelerator (TQA)
• アドホックデータ解析向けのクエリエンジン • 既存のバッチ型クエリエンジンと比較し、10 〜 50倍高速 • 目的に応じて、既存のバッチ型クエリエンジンと使い分け
21
MPP (Massively Parallel Processing) Query Executor
Plazma Cloud Storage
(2.5兆件のデータを保持)
Queries
22
バッチ型クエリ アドホック型クエリ
定時レポーティング • 顧客向けの定時パフォーマンスレポー
ティング • 1時間に1回の更新、確実に終わらせる
事が重要
配信最適化 • 接続しているアドネットワークのパフォーマ
ンスをリアルタイム集計 • 集計結果から広告配信のロジックをリア
ルタイムに最適化
定時レポーティング • 社内 / 子会社 / 経営層向けの定期パ
フォーマンスレポーティング • 大量のKPIを定義し、毎日 / 毎時確実に
終わらせる事が重要
サポート業務効率化 • ユーザーからのサポートリクエストに応じ
てその場でデータを集計 • サポートのレスポンス・対応を効率化し、
ユーザーの満足度向上に繋げる
定時レポーティング • PoS・Webサイト解析システム・タッチパ
ネルシステムから上がってくるデータの
定期レポーティング • 毎時確実に終わらせる事が重要
即時バスケット分析 • 過去数年分、数百億件のデータから、そ
の場でバスケット分析を実行可能 • 商品開発のミーティングの中で、過去デー
タを参照。データを元にした商品開発活動
を開始
オンライン広告
Web / Social
リテール
発表2: Treasure Viewer • データ可視化ツールをデフォルトで提供
• TQA (Treasure Query Accelerator) を利用し、大量のデータからドラッグ & ドロップでデータの可視化が行える
• 簡易な可視化ツールの扱い。高度な機能・要件が求められる場合、パートナーのBIツールを使用してお客様の要件を満たす事も多い。
23
3rd Party BI Tool (Tableau) Treasure Viewer
新価格プラン: Premiumプラン
24
Free Standard Premium Custom
価格 $0 $3000/月 $7500/月 -‐
レコード数 年間20億件 年間150億件 年間500億件 Unlimited
バッチクエリ 0コア 8コア 16コア Unlimited
アドホック クエリ N/A N/A ○ Unlimited
ユーザー数 1 5ユーザー 20ユーザー Unlimited
サポート オンライン 通常 専任 NegoIable
大企業様からの要望に答える形で、サポート体制の強化を行ったプランを新設
“ソリューションテンプレート”の提供 25
Treasure Data Service
データ解析テンプレート
データ収集テンプレート
ソリューション コンポーネント: - Treasure Data Service
- 構造化ログのテンプレート
- データ収集エージェント設定
ファイルテンプレート
- 設定済みBIレポーティング・
ダッシュボード
初期セットアップ期間内で、事前定義した解析ダッシュボードを提供
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
Marketing Unified Analytics Solution
26
www.treasuredata.com Copyright 2013
Business & Technical Problems
27
• Marketing Tools data silos – Manual data pulling
– Manual data integration
• Difficult to merge other data
– Data from online / offline systems
– Sensor, CRM, ERP, Relational Data
• Resource & time waste – Spend time pulling CSVs
– Pull same data multiple times
– Less time to focus on trends
– Hard to get cross-brand insight
Website A Website B Website C
Sensor RDB CRM ERP MAN
UAL PRO
CESS
www.treasuredata.com Copyright 2013
Marketing Tool Unified Analytics
28
Files sent daily!from SiteCatalyst!
Send to FTP
FTP Server
qp://qp.treasure-‐data.com/
Push to API via Bulk Import
Monitor files, process, and daily
sync to API!
Receive / Process
Automate queries across multiple profiles for KPIs!
Store, Query, & Analyze BI Tableau, Metric
Insights, etc.
BI Connectivity
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
Gaming Analytics Solution
29
www.treasuredata.com Copyright 2013
Goals & Solution
30
Analy+cs Requirement How Treasure Data Delivers
Unify AnalyIcs in One LocaIon Easily and automaIcally load data to cloud DB every 5 minutes
Drive Cross-‐Game Insights Add automated queries and analyses as needed
Scale and adapt to new tools and future KPI requirements
Flexible database and data collecIon layers
Implement quickly with no upfront costs or IT lag Ime
Provisioned cloud service and setup within weeks
Updates and changes are easy and take hours, not weeks or months
Easy to use, self-‐service plasorm and robust services / support when you need it
www.treasuredata.com Copyright 2013 31
App Developer
ApplicaIon
Unified Analy+cs
App Developer
ApplicaIon
App Developer
ApplicaIon
App Developer
ApplicaIon
App Developer
ApplicaIon
App Developer
ApplicaIon
Treasure Data Gaming Solution
Data Upload
Dashboard for each game
Dashboard for management
Log Template
www.treasuredata.com Copyright 2013
Setting Up for Governance
32
Game1 Game2 Game3 Game4 Game5
A
B
C
A
B
C
A
B
C
A
B
C
A
B
C
Game1 only has access to their database
Cross Game AnalyIcs team can access / analyze all data
holisIcally
今回の発表内容のまとめ
• 新機能 • Treasure Query Accelerator (TQA)
• バッチ型クエリと比較し、10〜50倍高速な実行エンジン • 弊社のお客様の強い要望により実現、更なるデータ活用を促
進し、新しいユースケースを切り開く • Treasure Viewer
• TQAを利用したデータ可視化サービス • シンプルさを追求、高度なBIが必要無いユーザーに可視化機
能を提供する • 新価格体系
• 月額 $7500 のプレミアムプランが追加、高度な機能と手厚いサポートにより、大企業での導入を容易に
• 業界別ソリューションテンプレートの提供を開始
33
34
今後の展開: “Treasure Dataでしか出来ない事”
Old データソース
Old アプリケーション New アプリケーション
New データ ソース
• レポーティング • アドホック分析
• レポーティング • アドホック分析
2014年のTreasure Dataにご期待下さい!
www.treasuredata.com Copyright 2013
Board Meeting Presentation August 15th, 2013 - 3:30PM PDT
Presented by
Hironobu Yoshikawa – CEO Kazuki Ohta – CTO Rich Ghiossi – VP, MarkeIng Keith Goldstein – VP, Sales Kengo Hirouchi – Director, Japan Ankush Rustagi – Director, MarkeIng
最後に: オープンソース活動
”データ解析の世界をシンプルにする”
36
”データ収集をシンプルにする”
Project
• Treasure Data のデータコレクタ部分は、オープンソース化 • 2013年、国内外で広く浸透 • 世界中でデータを解析可能な形で収集するのに一役買っている
37
"We utilize Fluentd to collect a very large amount of logs. The logs are written into Hadoop HDFS clusters, and are also used to analyze various service statuses in realtime. We also use many plugins from rubygems.org to further enhance this mechanism."
Fluentd is very similar to Apache Flume or Facebook’s Scribe [but] it’s easier to install and maintain and has better documentation and support than either Flume or Scribe”
"We use Fluentd to collect massive data logs for our platforms. Having developed a system based on Fluentd, we are now effectively monitoring and analyzing our services in real-time. We are very much satisfied with its flexibility, especially how easy it is to use in tandem with other systems."
Fluentd オープンソースプロジェクトのユーザー例
Before Fluentd: M x N 通りのデータ収集・活用方法
Nagios
MongoDB
Hadoop
Alerting
Amazon S3
Analysis
Archiving
MySQL
Apache
Frontend
Access logs
syslogd
App logs
System logs
Backend
Databasesfilter / buffer / routing
ARer Fluentd: M + N 通りに経路を集約して簡素化
エンジニアリングチーム
40
• Fluentd/Hadoopの他にも様々なOSSへの貢献活動を行っています。
名称
MessagePack 多言語シリアライズライブラリ
Javassist Javaバイトコード生成ライブラリ
Huahin Framework
Hadoop MapReduce向け 汎用ライブラリ
D Language D言語
ZeroMQ Java版 ZeroMQ の実装 (jeromq)
Angular.JS JavaScript MVW フレームワーク
弊社ではエンジニア自身がサポート業務も担当。 プロダクトへのPDCAサイクルの高速化を意識して体制作りを行っています。