amazon redshift...amazon redshift 弹性调整大小 向redshift 集 群 增加额外节点...
TRANSCRIPT
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
使用 Amazon Redshift 构建现代数据仓库解决方案
王友升,AWS 高级解决方案架构师
分 会 场 三 : 大 数 据 分 析
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
24%
15%
领导者 追随者
企业收入增长
分析需求演变
数据
每5 年
数据的增长速度比以往任何都快
15年
持续
数据平台需要
1,000x
规模
>10x
增长
数据比以往任何时候更有价值. 挖掘数据的组织相比其他组织能创造更多的业务价值
数据分析工具比以往任何时候都多
使用数据的人比以往任何时候都多
如何提供安全的访问与管理策略
数据访问
数据治理
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
传统分析如下
价格昂贵:巨额初始资本支出+每年 1 万美元/ 5 万美元 / TB
GB-TB 规模 [不适用于 PB/EB ]
关系型数据
由于成本问题,90% 的数据被丢弃
OLTP ERP CRM LOB
数据仓库
业务智能
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
传统的数据仓库不能满足现代的分析需求
难以设置
难以管理
难以扩展
存在安全隐患或合规性差
黑暗数据
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS 数据仓库服务满足现代分析需求
OLTP ERP CRM LOB
数据仓库
业务智能
数据湖
设备 网络 传感器 社交
目录
机器学习
DW 查询 大数据处理 交互式 实时
数据仓库的分析能力
无服务器计算的无限可伸缩性
大数据系统的分布式处理
=+
+
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon S3
EB 规模
存储和分析关系型数据和非关系型数据
内置分析工具
成本高效• 在 Amazon S3 中以每月 2.3 美分的价格存储
• 使用 Amazon Athena 以 ½ 美分/ GB 扫描查询
• 使用 Amazon Redshift 达到 1,000 美元/ TB /年
数据共享• Amazon QuickSight:30 分钟 0.30 美元AWS
Snowball
AWS
SnowmobileAmazon
Kinesis
Data Firehose
Amazon
Kinesis
Data Streams
Amazon
Redshift
Amazon
EMR
Amazon
AthenaAmazon
Kinesis
Amazon Elasticsearch
Service
Amazon
Kinesis
Video Streams
人工智能服务
Amazon
QuickSight
AWS 数据仓库和数据湖协同工作,支持所有分析工作负载
*价格可能因区域不同;服务价格可能调整;具体价格以AWS 网站为准
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
应用 Amazon Redshift 使数据仓库现代化
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift
快速
为所有类型的分析工作负载获得更快的洞察时间,由机器学习、柱状存储和 MPP 驱动
极强的扩展性 扩展数据湖 1/10 成本
即使存在不可预测的分析需求和数据量,动态扩展可以
保证性能
以开放的格式分析 Amazon
S3 数据湖中的数据,并将数据加载到 Redshift 的高性能
SSD 中
每小时 0.25 美元起,通过自动管理任务节省成本,消除停机对业务的影响,低至每年每
tb 1000 美元
快速、简单、成本高效的数据仓库,可以将查询扩展到数据湖
使用 SQL 工具以开放格式(如Parquet、ORC和JSON)分析数据
*价格可能因区域不同;服务价格可能调整;具体价格以AWS网站为准
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据仓库服务
更多客户使用
Amazon
快速、可扩展、简单易用、成本高效
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
开箱即用性能提升> 2 倍
• AZ64 压缩
• Bloom filter:
• collocated & broadcast JOIN
• Enhanced planner:
• 更先进的硬件 CPU 和网络
• HLL (HyperLogLog) 统计信息
• 缓存优化 AGGREGATE 和 JOIN
2.35x speed up
0%
50%
100%
150%
200%
250%
Out of box—baseline (Jun'19) Out of box - improved (Nov'19)
Cloud DW benchmark, 30TB* Cloud DW benchmark is based on TPC-DS (v2.10) with no query modifications done
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AZ64—优化存储 更高性能
适用于所有的• Numeric
• 日期/时间硬体加速• Parallel SIMD AZ64 存储减少 AZ64 性能加速
RAW 60–70% 更少存储 25–30% 更快
LZO 35% 更少存储 40% 更快
ZSTD 相匹配 70% 更快
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
RA3: 存储与计算分离
即将到来 ra3.4xl
ra3.16xlarge
vCPUs 48
Memory (GB) 384
Managed storage (per
node)
Up to 64TB compressed
Node counts 2-128
Max capacity 8PB compressed
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
DS2 -> RA3
Most DS2.8XL clusters will get up to 2x performance and 2x
storage with RA3.16XL for the same on-demand price (in 2:1
ratio)
Can migrate in 2:1, 3:1, oreven 4:1 node count ratio
(DS2.8XL:RA3.16XL)
Smaller DS2 clusterswith under 10 TB, best
suited for RA3.4XL
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift基于机器学习的加速
Machine learning
机器学习预测查询的运行时间1
短查询按路线发送到快速队列2
如果查询结果不在缓存中,则执行查询,并缓存结果
3
工作原理:分析和
BI / 仪表盘工具
计算节点 计算节点 计算节点
Amazon
Redshift结果缓存
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Federated Query (预览)
查询 Amazon RDS 和 Aurora PostgreSQL 数据库
无数据移动的实时数据分析
跨数据仓库、数据湖和操作数据库的统一分析
灵活易用的数据采集方法
快速和安全访问数据
RDS
PostgreSQL
Aurora
PostgreSQL
S3 Data lake
JDBC/ODBC
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Materialized View (预览)提高可预测分析工作负载的查询性能
按数量级加速查询连接, 过滤, 汇总, 和投影
简化和加速 ELT/BI 管道• 增量更新
• 使用 trigger 维护
简单和快速迁移到 Amazon Redshift
Limitations and usage notes:
https://docs.aws.amazon.com/redshift/latest/dg/mv-usage-notes.html
item store cust price
i1 s1 c1 12.00
i2 s2 c1 3.00
i3 s2 c2 7.00
sales
store owner loc
s1 Joe SF
s2 Ann NY
s3 Lisa SF
store_info
loc total_sales
SF 12.00
NY 10.00
loc_sales
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
简单易用
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
缓存层
并发扩展
按需自动创建更多集群
即使有数千个并发查询,性能也始终保持快速
无需合并
快速扩展适用于不断变化的查询工作负载
新!
备份
Amazon Redshift S3快照
1
2 3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
在需求高峰期间,并发扩展提供一致的快速性能
您的主集群每使用 24 小时,我们将为并发集群使用提供一个小时的信用。
超过 97% 的 Amazon Redshift 客户可以免费进行并发扩展。
针对用户活动的激增启用 auto-scaling
Redshift Redshift with auto-scaling
更高更好每小时查询
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift 弹性调整大小
向 Redshift 集群增加额外节点
繁忙时段快速运行查询
最小化转换时间
规模计算和按需存储
按比例放大和缩小只需几分钟
Amazon Redshift 集群
Amazon Redshift S3 快照
JDBC/ODBC
Leader 节点
CN2CN1 CN3 CN4
备份
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift 智能维护
自动自动 自动
像 vacuum 和 analyze 这样的维护过程将在后台自动运行
Amazon Redshift 自动调整 WLM 并发设置,以提供优化的吞吐量。
致力于零维护
Distribution/Sort Key Advisors
AutomaticAnalyze
Automatic Vacuum Delete
Automatic Table Sort
Automatic Table Distribution Style
自动自动
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
成本高效
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Redshift
采用预留实例价格
计算
Amazon Redshift 是极具价格竞争力的云数据仓库
性价比最高
根据1年预留实例(RI)价格
高达 75%
$110,560
$560,640
$264,902
$944,941
REDSHIFT VENDOR 1 VENDOR 2 VENDOR 3
每年的价格
越低越好
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
安全内置
选择合规性认证*
10 GigE(HPC)客户VPC
内部VPC
JDBC/ODBC
计算节点
管理节点
网络隔离
端对端加密
与 AWS Key Management Service 集成
Amazon S3
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
与数据湖集成
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift Spectrum
Amazon Redshift Spectrum查询引擎
跨 Redshift 与Amazon S3 查询
Amazon Redshift 数据
Amazon S3 数据湖
扩展数据仓库功能,用于支持 Amazon S3 数据湖内的 EB 级别数据
无需数据加载
实现计算与存储资源的独立规模伸缩
直接查询 Amazon S3 中的存储数据
支持 Parquet、ORC、Avro、JSON 以 及 CSV 数据格式
Spectrum Request Accelerator
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Amazon Redshift Spectrum:使用 AWS Lake Formation 实现列级访问控制
Amazon
Redshift
Spectrum与AWS Lake
Formation 目录相集成,可实现表与列级访问控制
实现对S3数据的细粒度访问控制
Amazon RedShift Spectrum 与 AWS Lake Formation 目录相集成。管理员创建一个 IAM 角色。在 AWS Lake Formation 控制台中,通过 AWS Lake Formation 与访问权限获取table 角色。
JDBC/ODBC
优势:
细粒度安全管理,尽可能缩小可访问数据集范围。
Amazon RedShift
从表 C 中选择 A、B
数据分析师
数据管理员
S3 中的数据湖
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
AWS Lake Formation:全面的统一访问策略
Kinesis社交媒体
Web
传感器 设备
LOBCRM
ERPOLTP
IAM KMS
数据目录
Athena
EMR
Elasticsearch
AI服务
QuickSight
Redshift
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
迁移更容易
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
低风险的迁移
AWS 提供了广泛的工具,可以方便、快速、安全地在 AWS 云之间移动数据
AWS Direct
Connect
AWS
Snowball
AWS Database
Migration ServiceAWS Storage
Gateway
Amazon S3
Transfer
Acceleration
Amazon Kinesis
Firehose
ISV
Connectors
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
自助迁移到 Amazon RedshiftAWS Database Migration Service
DMS 免费使用 6 个月更多信息:https://aws.amazon.com/dms/free-dms/
“AWS Database Migration Service 是我们见过的最令人印象深刻的迁移服务。”
Azure SQL
Database
AWS DMS Amazon
Redshift
2.关系型数据库
1.非关系型数据库
3.其他源
Amazon S3
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
与系统和数据集成合作伙伴一起迁移
AWS 合作伙伴带来了宝贵的技术专长和资源,帮助处理复杂的迁移项目
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
广泛、深入的生态系统数据集成 业务智能 系统集成商
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
案例分享
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
Sysco 是销售、市场营销和分发食品的领导者。
挑战:大量的数据分布于多个系统中。此外,维护本地部署 EDW 部署的成本高。
解决方案:使用 Amazon Redshift、Amazon S3、Amazon EMR 和 Amazon Athena 将其本地部署解决方案迁移到云端。
© 2020, Amazon Web Services, Inc. or its affiliates. All rights reserved.
AWS 中国(宁夏)区域由西云数据运营AWS 中国(北京)区域由光环新网运营
数据湖分析
• Sysco 是销售、市场营销和分发食品的领导者。
• 挑战:大量的数据分布于多个系统中。
• 将数据合并到一个 S3 数据湖中
• 数据科学家使用 Amazon
EMR Notebook、AmazonAthena 和 Amazon
Redshift Spectrum 分析业务
Amazon
Redshift
ETL过程
数据准备
从多个源获取原始数据
Amazon S3
Amazon Redshift
Spectrum
Amazon
Athena
Amazon
EMR
市场营销数据源
其他源系统 转换后的数据
Amazon S3