深入淺出 aws 大數據工具
Post on 05-Apr-2017
831 Views
Preview:
TRANSCRIPT
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
John Chang (張書源 )Technology EvangelistAmazon Web Services
March 2017
大數據入門
深入淺出 AWS 大數據工具
贊助廠商
§Build an entire analytics application to power your business§Scale Hadoop cluster to thousands of instances in minutes§Leverage powerful AWS compute instances using Intel technology
Big Data Spotlight: Analytics
大綱
• AWS 大數據應用介紹
• AWS 上的大數據分析選項• 使用模式和不適合的使用模式
• 效能與成本
• 耐用性與擴充能力
• 介面
• 建置大數據分析解決方案— AWS 的方法
• 範例方案
大數據 (Big Data)用於批次或即時
有效處理任何規模的大量數據的技術與技巧.
速度(Velocity)
大量(Volume)
多樣(Variety)
大數據的 3V
GB TBPB
ZB
EB
大數據: 沒有成長的限制
• 非結構化資料呈現爆炸性的成長
• 數位匯流 1.2 ZB 資料中,95% 的資料是非結構化的
• 來自機器的資料與物聯網會讓這曲線更顯著
• 70% 的資料由用戶產生
Source: IDC, The Internet of Things: Getting Ready to Embrace Its Impact on the Digital Economy, March 2016.
為何建立大數據解決方案?
Security threat detection
User Behavior Analysis
Smart Application (Machine Learning)
Business Intelligence
Fraud detection
Financial Modeling and Forecasting
Spending optimization
Real-time alerting
更快獲得答案而且可以找出目前未發現的問題
關聯式
NoSQL
Web 伺服器
Mobile phones/Tablets
3rd party feeds
IoT
Clickstream
來源
Big Data 資料來源
結構化
非結構化
文字
二進位
即時/接近即時
批次
格式
大數據格式與速度 (Velocity)
速度
彈性與高度延展性
無需前期資本費用
只需支付實際用量+
+
隨時根據需求提供+
= 雲端,移除了導入大數據的門檻
為大數據打造的AWS 雲端平台
並非一個工具可以駕馭全部
輸入/搜集
使用/視覺化
儲存 處理/分析
資料1 4
0 95
洞察結果
從這裡開始WITH A BUSINESS CASE
© 2016, Amazon Web Services, Inc. or its Affiliates. All rights reserved.
AWS Big Data 服務
AWS Big Data 平台
EMR EC2
Glacier
S3
Import Export
Kinesis
Direct Connect
Machine LearningRedshift
DynamoDB
AWS Database Migration Service
搜集 彙整 儲存 分析
AWS Lambda
AWS IoT
AWS Data Pipeline
Amazon Kinesis Analytics
AmazonSNS
AWS Snowball
AmazonSWF
Amazon Athena
Amazon QuickSight
Amazon AuroraAWS Glue
參考架構: Data Lake
AthenaGlue
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
AWS Cloudcorporate data center
使用 Amazon Redshift 建立資料倉儲
PB 級規模
大量平行處理
關聯式資料倉儲
完全受管,無需任何管理作業
低達 $1,000/TB/年
快上許多便宜許多簡單許多
Amazon Redshift
Amazon Redshift• 理想的使用模式—分析
• 銷售資料
• 歷史資料
• 博弈資料
• 社會發展趨勢
• 廣告資料
• 效能• 大量平行處理
• 直欄式儲存
• 資料壓縮
• 區域圖
• 直接連接儲存
• 成本模型• 不需支付前期成本或長期投入
• 免費備份儲存等於 100% 的佈建儲存
使用直欄式儲存時,只需讀取所要的資料
Amazon Redshift
• 可擴展性與彈性• 調整規模或擴展—只要按幾下就能變更節點的數目或類型
• 耐用性與可用性• 複寫
• 備份
• 從故障的磁碟和節點自動復原
• 介面• JDBC/ODBC 介面 (包含 BI/ETL 工具)• Amazon S3 或 DynamoDB
• 不適合的使用模式• 小型資料集
• OLTP• 非結構化資料
• BLOB 資料
10 GigE(HPC)
擷取備份還原
JDBC/ODBC
你的 (大數據) 資料要如何匯入AWS?
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
AWS Cloudcorporate data center
Migrate your data to AWS
AWS Database Migration Service
AWS Direct Connect
AWS Import/Export& Snowball
• 10分鐘內開始你的第一個資料搬移
• 資料搬移期間你的 app 可以正常運作
• 可將資料搬移到執行在 Amazon EC2, Amazon
RDS, or Amazon Redshift上面的資料庫
AWSDatabase
Migration Service
你的 CEO 並不想直接看到SQL 查詢出來的結果
建置視覺化
進行專案性分析
透過Storyboard進行分享與協作
主要行動平台的原生存取功能
Amazon QuickSight
Amazon QuickSight 介紹
雲端驅動的商業智慧服務,
成本只需傳統 BI 軟體的 1/10
ü 不需 IT 介入。不需建置維度模型
ü 自動搜索所有 AWS 資料來源
ü 超快速、並行、記憶體內計算引擎 (SPICE)
ü 全受管
aws.amazon.com/quicksight
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloudcorporate data center
使用 Amazon QuickSight 視覺化你的資料
AWS Database Migration Service
AWS Direct Connect
AWS Import/Export& Snowball
如果是非結構化資料?
如果你不需要所有的 raw data 怎麼辦?
如果你需要合併數個資料集怎麼辦?
事件驅動、全受管運算
不需管理基礎設施
自動擴展
AWS Lambda
AWS Lambda• 理想的使用模式
• 即時檔案處理
• 擷取、轉換、負載
• 效能• 處理事件只需幾毫秒的時間
• 成本模型• 按使用量付費• 不需管理執行個體,只要針對服務付費即可
• Lambda 免費方案包含 1 百萬次免費要求
1 2 3無伺服器 事件驅動擴展 次秒級計費
AWS Lambda• 耐用性與可用性
• 無維護空窗期或排程停機
• 如果失敗,非同步功能會重試 3 次
• 可擴展性與彈性
• 可執行任意數目的並行功能
• AWS Lambda 將動態分配容量以符合連入事件的速率。
• 介面
• Lambda 支援 Java、Node.js 和 Python• 透過事件或排程觸發
• 不適合的使用模式
• 長時間執行的應用程式
• Lambda 中保存狀態的應用程式
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloud
使用 AWS Lambda 進行事件導向的資料轉換
corporate data center
AWS Lambda Structured DataIn Amazon S3
Raw dataIn Amazon S3
在大規模狀況下如何實施?
資料處理超過 timeout 時間怎麼辦?
快速啟動叢集
依小時付費,利用競價來節省成本
MapReduce、Apache Spark、
Presto
Amazon EMR
Amazon EMR• 理想的使用模式
• 記錄處理與分析
• 大型 ETL 與資料移動• 風險模型建置與威脅分析
• 廣告目標設定與點擊流分析
• 基因體
• 預測分析
• 非例行性資料採礦與分析
• 效能—驅動因子• 執行個體類型
• 執行個體的數目
• 成本模型
• 只針對叢集啟動的時數付費
• EC2 執行個體與 EMR 價格
Amazon EMR
• 可擴展性與彈性• 調整執行中叢集的規模
• 增加更多核心或任務節點
• 耐用性與可用性• 從屬節點的容錯能力 (HDFS) • 備份至 S3,以提供主節點故障時的復原能力
• 介面• Hive、Pig、Spark、Hbase、Impala、Hunk、
Presto、其他熱門的工具
• 不適合的使用模式• 小型資料集
• ACID (原子性、一致性、隔離與耐用性)
Amazon EMR 叢集
Amazon EMR 叢集
Amazon EMR 叢集
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloud
使用Amazon EMR大規模轉換和探索數據
corporate data center
Amazon EMR Structured DataIn Amazon S3
Raw dataIn Amazon S3
當您探索新數據時,怎麼樣做即時查詢?
無伺服器互動式查詢服務
• 使用標準 SQL 輕鬆分析 Amazon S3 中的資料,不用設定和管理任何伺服器或資料倉儲
• 不需載入資料,直接從 S3 查詢
• 無須擔心是否有足夠的運算資源,可獲得快速的互動式查詢效能。
• 支援多種標準資料格式,包括 CSV、JSON、ORC、Avro 和Parquet。
• 只需支付所執行查詢掃描資料的費用。將資料壓縮、分割並轉換為單欄格式,則每個查詢的成本可節省 30% 到 90%,且可獲得較高的效能。
AmazonAthena
建立大數據應用程式使用 Amazon Athena 將您的資料倉儲擴展到 S3
web clients
mobile clients
DBMS
Raw dataIn Amazon S3
Amazon Redshift
Staging DataIn Amazon S3
Amazon QuickSight
AWS Cloudcorporate data center
Amazon EMR
Amazon Athena
建立大數據應用程式使用 Amazon Athena 將您的資料倉儲擴展到 S3
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloudcorporate data center
Amazon EMR
Orc/Parquet in Amazon S3(Columnar Data Format)
Amazon EMR
Raw dataIn Amazon S3
Staging DataIn Amazon S3
Amazon Athena
如果我想要執行自訂的程式碼,或是多種應用程式框架怎麼辦?
建立大數據應用程式在 Amazon EMR 上使用 Presto, Spark SQL等, 將您的資料倉儲擴展到 S3
web clients
mobile clients
DBMS Amazon Redshift
Orc/Parquet in Amazon S3(Columnar Data Format)
Amazon QuickSight
AWS Cloudcorporate data center
Amazon EMR
Amazon EMR
Amazon EMR
Raw dataIn Amazon S3
Staging DataIn Amazon S3
即時資料該如何處理?
擷取串流資料
即時處理資料
每小時儲存 TB 級的資料Amazon Kinesis
Amazon Kinesis Streams
• 可擴展性與彈性
• 擴展—增加碎片數
• 耐用性與可用性
• 複寫
• 保留指標
• 介面
• 輸入—資料傳入• 輸出—資料傳出• Kinesis Firehose
• 不適合的使用模式
• 小規模的傳輸量一致• 長期資料儲存與分析
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Orc/Parquet(Columnar Data Format)
Amazon QuickSight
Amazon Kinesis Streams
AWS Cloud
使用 Amazon Kinesis 加上 Spark on Amazon EMR 建立即時資料層
corporate data center
Amazon EMR
Amazon EMR
Amazon EMR
Raw dataIn Amazon S3
Staging DataIn Amazon S3
Amazon Athena
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloud
使用 Amazon Kinesis Analytics 與 AWS Lambda 響應即時資料
corporate data center
Amazon Kinesis Firehose
Amazon Kinesis Analytics
AWS Lambda
Amazon Kinesis Streams
Amazon SNS
Reference data in Amazon S3
Amazon Athena
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloud
使用 Amazon Machine Learning 智能的響應即時資料
corporate data center
Amazon Kinesis Firehose
Amazon Kinesis Analytics
AWS Lambda
Amazon Kinesis Streams
Reference data in Amazon S3
Amazon Machine Learning
Amazon SNS
Amazon Athena
如果你需要透過加密或是網路隔離以符合業界法規準則該怎麼辦?
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
Amazon Kinesis Streams
AWS Cloud
使用 AWS KMS 進行資料存放時加密
corporate data centerAWS KMS
Amazon EMR
Amazon EMR
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3(Columnar data)
建立大數據應用程式
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
Amazon Kinesis Streams
AWS Cloud
AWS KMS
VPC subnet
SSL/TLS
SSL/TLS
資料傳輸保護與網路隔離
corporate data center
Raw data in S3 Staging Data in S3
Orc/Parquet in Amazon S3(Columnar data)
其他大數據服務
全受管式 NoSQL 資料庫
大規模處理時延遲時間僅單位
數毫秒範圍
支援文件與鍵值
AmazonDynamoDB
Amazon DynamoDB• 理想的使用模式
• 行動應用程式、遊戲、數位廣告投放、即時投票、感測器網路、記錄擷取
• 對Web 內容的存取控制、電子商務購物車• Web 工作階段管理
• 效能• SSD• 根據資料表計算的佈建傳輸量
• 可擴展性與彈性• 對儲存的資料量無限制• 提高或降低資料表的讀取和寫入容量
• 成本模型• 依用量計費• 佈建的吞吐容量 (每小時)• 已檢索資料的儲存 (每月每 GB)• 傳入或傳出的資料 (每月每 GB)
ü 每資料表的已佈建讀取/寫入效能。ü 透過主控台或 API 擴展的可預測高效能
受管服務的設計,可讓所有程度的開發人員輕鬆使用機器學習
採用 Amazon 內部資料科學家使用多年的 ML技術
Amazon Machine Learning使用可擴充而強大的實作產業標準 ML演算法
Amazon Machine Learning
快速建立 Elasticsearch 叢集
與 Logstash 和 Kibana 整合
無縫擴展 Elasticsearch 叢集
Amazon Elasticsearch
服務
Amazon Elasticsearch• 耐用性與可用性
• 區域意識• 自動與手動快照
• 可擴展性與彈性• 新增或移除執行個體• 隨資料增長修改 EBS 磁碟區
• 介面• AWS 管理主控台• API 的介面• SDK 的介面• Kibana 與 Logstash (ELK 堆疊)
• 不適合的使用模式• OLTP• 需要 5TB 以上儲存容量的工作負載
Elasticsearch + Logstash + Kibana = 即時分析與視覺化
AWS Glue
• 了解您的資料來源,準備數據以進行分析,並將其可靠地載入到資料存儲
• 完全託管的ETL服務
• 集中式數據目錄組織您的資料來源
• 自動產生資料轉換
• 靈活的工作排程和協調
• 內建整合S3,RDS,Redshift和任何符合JDBC的資料來源
• 支持您已知的工具和技術,如Python,Spark,Git和您最喜歡的整合開發環境(IDE)
aws.amazon.com/glue
視需要擴展與縮減規模
按使用量付費
多重選項
自造式大數據應用程式
Amazon EC2
web clients
mobile clients
DBMS Amazon Redshift
Amazon QuickSight
AWS Cloudcorporate data center
Amazon Kinesis Firehose
Amazon Kinesis Analytics
AWS Lambda
Amazon Kinesis Streams
Reference data in Amazon S3
Amazon Machine Learning
Amazon SNS
<這裡留給您的公司>
Amazon Athena
謝謝!
John Chang (張書源)Technology Evangelist
johnchan@amazon.com
AWS Facebook Taiwan Page
請記得填寫問卷!
Q&A
top related