extreme performance data warehousing - oracle · ‗22-jan-2010‘… 汇总 返回2010 年1 月22...
TRANSCRIPT
<在此处插入图片>
极限性能的数据仓储冯明磊咨询顾问
知识经济热潮的兴起
“经济衰退带来了重组大量行业结构的机会,我们可以为各行各业提供创新技术,使它们在未来 50 年占领先机,以更高的
效率运行业务。”
Lessons Learned in Building the Intelligent Economy,2010 年 5 月
所有企业都希望具有更好的洞察力
行业 典型问题
零售 应该关闭或出售什么样的商店?哪些客户对新促销感兴趣?
电信 影响区域客户流失的问题是什么?什么是每个用户的平均收入 (ARPU)?
医疗保健 最常见的患者服务要求是什么?什么是常备临床药品的平均水平?
金融服务 新兴网上服务将如何影响储蓄?如何与上一年比较平均贷款?
公用事业 谁是我们节能计划的目标客户?断电恢复时需要哪些资源?
公共部门 预算和支出的趋势如何?垃圾处理的最经济的方法是什么?
21%
20%
21%
19%
17%
5%
12%
18%
25%
34%
Less than 500 GB
500 GB - 1 TB
1 - 3 TB
3 - 10 TB
More than 10 TB
In 3 Years Today
信息来源:TDWI Next Generation Data Warehouse Platforms Report,2009 年
挑战:需要分析的数据大幅增加数据仓库的大小和增长性
挑战:非唯一信息源昂贵的数据仓库架构
ETL
OLAP 数据挖掘
OLAP数据挖掘
ETL
数据集市
数据集市
21%
23%
23%
29%
33%
37%
39%
40%
45%
We need platform that supports mixed workloads
Can't support data modeling we need
Current platform is a legacy we must phase out
Poorly suited to real-time or on demand workloads
Cost of scaling up is too expensive
Can't scale to large data volumes
Inadequate data load speed
Can't support advanced analytics
Poor query response
信息来源:TDWI Next Generation Data Warehouse Platforms Report,2009 年
挑战:未满足用户需求数据仓库平台的流失率很高
整合到单一平台更高的性能,唯一信息源
Oracle Database 11g
Oracle 数据库云服务器
数据集市
数据挖掘
联机分析 ETL
Oracle 数据库云服务器用于 OLTP、数据仓储和整合的负载
• 查询性能提高 10 倍
– 更好地洞察客户需求
– 增加营收机会
• 整合 OLTP 和分析负载
– 降低管理和维护成本
– 减少故障点
• 集成分析和数据挖掘– 复杂预测分析
• 风险更低
– 简化部署
– 一站式支持
Oracle 数据库云服务器系列Oracle 数据库云服务器 X2-2
Oracle 数据库服务器池
• 8 台双处理器数据库服务器
– 96 个 CPU 内核
– 768 GB 内存
– Oracle Linux 或 Solaris 11 Express
Exadata Storage Server 池
• 14 台存储服务器
– 5 TB 智能闪存缓存
– 336 TB 磁盘存储
统一的服务器/存储网络
• 40 Gb/秒 Infiniband 链路
以全机架、半机架和四分之一机架提供
Oracle 数据库云服务器系列Oracle 数据库云服务器 X2-8
Oracle 数据库服务器池
• 2 台八处理器数据库服务器
– 128 个 CPU 内核
– 2 TB 内存
– Oracle Linux 或 Solaris 11 Express
Exadata Storage Server 池
• 14 台存储服务器
– 5 TB 智能闪存缓存
– 336 TB 磁盘存储
统一的服务器/存储网络
• 40 Gb/秒 Infiniband 链路
全机架和多机架配置
Select sum(sales)where salesdate=‗22-Jan-2010‘…
汇总
返回整个Sales 表
传统的查询问题
昨天的销售量是多少?
• 数据被推送到数据库服务器以执行处理
• I/O 速率受磁盘驱动器速度和数量的影响
• 网络带宽紧张,会限制性能和并发性
sales 表的大部分被丢弃
Select sum(sales)where salesdate=‗22-Jan-2010‘…
汇总
返回 2010 年 1 月 22 的销售额
数据库云服务器智能扫描将查询性能提高 10 倍或更高
昨天的销售量是多少?
• 在 Exadata Storage Server 中运行数据密集处理
• 在数据从磁盘流出时筛选行和列
• 还可在存储中运行复杂操作
• 并行执行查询而消除瓶颈
内置分析可扩展的安全平台实现高级分析功能
• Oracle Database 11g 中嵌入了复杂预测分析
• 降低增加硬件、管理资源所需的成本
• 通过避免数据移动和数据重复提高性能
Oracle Data Mining
发现和预测
Oracle OLAP
分析和汇总
数据库云服务器存储索引无需任何开销即可透明地消除 I/O
• 在内存中保存表数据的汇总信息
• 如果 MIN/MAX 值不匹配―where‖子句,则可免除磁盘 I/O
• 完全自动化和透明
A B C D
1
3
5
5
8
3
Min B = 1
Max B = 5
索引
Min B = 3
Max B = 8
Select * from Table where B<2 - 仅第一组记录匹配
数据库云服务器混合列压缩降低磁盘空间要求
0
10
20
30
40
50
60
70
80
90
100
Da
ta –
Te
rab
yte
s
3 倍
10 倍 15 倍
1.4 倍
2.5 倍
未压缩的数据
数据仓库软件设备
OLTP 数据 DW 数据 存档数据
Oracle
收益倍增从 TB 级转换到 GB 级
10 TB 用户数据
20 GB 用户数据 5 GB 用户数据
无索引使用存储索引
100 GB 用户数据
10 TB 用户数据
10 TB 用户数据 1 TB 用户数据
使用分区修剪使用 10 倍压缩率
使用智能扫描
亚秒级“10 TB”扫描
使用分区管理数据增长压缩数据以降低存储成本
• 分区分布于多个压缩层
• 节省存储空间并提高查询执行速度
• 无需更改现有应用程序
活动数据
3 倍 OLTP 压缩
只读数据
10 倍 DW 压缩
存档数据
15 至 50 倍存档压缩
Turkcell通过数据库云服务器将运行速度提高 10 倍将数据仓库压缩 10 倍
• 取代了高端 SMP 服务器和 10 个存储机柜
• 将数据仓库从 250 TB 减少到 27 TB
• 使用 OLTP 及混合列压缩
• 为未来每年的数据倍增做好准备
• 查询速度提高 10 倍
• 每月提供 50,000 个报表
• 平均报表运行时间由 27 分钟缩短至 2.5 分钟
• 某些报表的性能提高 400 倍
Softbank 使用数据库云服务器将运行速度提高 2 至 8 倍将 36 个 Teradata 机架替换为 3 个数据库云服务器机架
Teradata36 个机架
数据库云服务器3 个机架
Oracle 数据库云服务器发展迅速为全世界各行各业所采用
数据库云服务器智能闪存缓存为 OLTP 应用程序提供极限性能
• 全机架具有 5 TB 智能闪存缓存
• 每秒可以处理超过 1 百万次 IO
• 使用未压缩数据时每秒 50 GB 的查询吞吐量
• 超出 1000 块磁盘组成的企业存储阵列 5 倍的 I/O
不常用数据
常用数据
Oracle Database 11g针对数据仓储的最佳数据库
• 其信息访问速度拥有世界记录的性能
• 经济高效地管理持续增长的信息量
• 通过整合服务器和数据降低成本
Real Application Clusters
Advanced Compression
Partitioning
OLAP
Data Mining
使用 Oracle Database 11g 的 ETL
• 使用 DBFS 和外部表快速加载数据
• 通过并行 DML 操作在 Oracle Database 11g 中快速转换
• 面向大型批处理数据加载的同类最佳性能
非 Oracle 源
临时存储原始文件
Oracle 源
数据泵卸载SCP
FTP
BCP 卸载
并行负载
分区的概念随着数据库规模的增长保持一致的性能
SALES SALES
一月 二月
SALES
一月 二月
欧洲
美国
大型表
•难以管理
分区
•分而治之
•更易于管理
•提升性能
组合分区
•更高性能
•满足业务需求
通过分区提高性能分区修剪
2010 年 5 月 20 日和 5 月 21 日的销售总额是
多少?
Select sum(sales_amount)
From SALES
Where sales_date between
to_date(‗05/20/2010‘,‘MM/DD/YYYY‘)
And
to_date(‗05/22/2010‘,‘MM/DD/YYYY‘);
5/20
5/21
5/22
5/19
Sales 表
• 只在相关的分区上执行操作
• 大大降低从磁盘检索的数据量
• 提高查询性能,优化资源利用
内存中并行执行有效利用集群服务器上的内存
• 将更多的数据压缩到集群的可用内存中
• 智能算法– 将内存中的表片段放在不同节点上
• 减少磁盘 IO 并提高查询执行速度
© 2010 Oracle Corporation
在数据库层执行内存中并行查询
自动确定并行度
• 优化器获得最优并行度
• 基于所有并发操作的资源需求
• 更少的 DBA 管理,更高的资源利用率
自动确定DOP
有足够的并行服务器可用
立即执行
如果没有足够的并行服务器可用,则对语句进行排队
所需数量的服务器可用时,执行第一条语句
8
64 32 16
• Oracle Database 11g 内存储的预先汇总的信息
• 独立数据库对象,对查询透明
• 支持复杂的透明查询重写
• 变更数据的快速增量刷新
汇总管理通过物化视图改善响应时间
日期
产品 渠道
SQL 查询按时间汇总的销售额
按产品汇总的销售额
按地区汇总的销售额
按渠道汇总的销售额
地区
物化视图关系星型模式
查询重写
• 将 Oracle OLAP 多维数据集显示为关系物化视图
• 为 OLAP 多维数据集中存储的数据提供 SQL 访问
• 任何 BI 工具或 SQL 应用程序均可利用 OLAP 多维数据集
地区 日期
产品 渠道
多维数据集组成的物化视图
SQL 查询
自动刷新
查询重写
汇总
• 多维分析引擎用于分析汇总数据
• 提供更好的查询性能和快速的增量更新
• 嵌在 Oracle 数据库实例和存储中
Oracle OLAP内置的分析计算访问
• 如何将本季度西部地区的销售额与去年同期销售额相比较?
• 下一季度的销售将怎么?
• 我们可以改进哪些因素以提高销售预测?
Oracle OLAP 和 OBIEE在 OLAP 引擎中提高计算速度
• 收集数据挖掘算法用于解决业务问题
• 简化预测 BI 应用程序的开发
• 嵌在 Oracle 数据库实例和存储中
Oracle Data Mining发现隐藏的模式,作出预测
零售 金融服务
• 客户细分• 响应建模
• 信用评级• 违约概率
通信 公用事业
• 客户流失• 网络入侵
• 产品捆绑• 预测电力线路故障
医疗保健 公共部门
• 患者疗效分析• 欺诈检测
• 偷税漏税• 犯罪分析
Oracle Data Mining 和 OBIEE报告中集成的预测和可能结果
• 以地图显示 Oracle Spatial 数据,从而丰富商业智能
• 在报告、警报和通知中支持定位分析
• 使用地图来引导数据导航、筛选和下钻
• 通过地理空间和非空间数据提高投资回报率
Oracle Spatial 和 OBIEE
数据模型
数据库云服务器
业务智能
Oracle 数据库云服务器智能仓库适用于各行业
• 结合了深层行业知识与数据仓储专业知识
• 帮助迅速启动数据仓库的设计与实施
• 适用于零售及通信行业
• 主动性建议以降低部署成本和风险
• 预防性评估以确定和解决问题
• 预测性管理以提供高质量服务
高级客户服务针对 Oracle 数据仓储和数据库云服务器
生命周期服务 运营管理 专家服务
安装与配置 服务质量监视 解决方案架构
升级 事件和问题管理 服务交付
修补 配置管理 数据加载和迁移
性能评估 现场或远程管理 备份与恢复
解决方案支持中心
24x7 专家服务台 问题优先级与升级 与标准支持服务集成
Oracle 数据库云服务器之于数据仓库
© 2010 Oracle Corporation
极限性能的数据仓储集成的技术体系
• 单一信息源
• 易于部署和管理
• 极限性能
• 满足所有最终用户的需求
• 降低拥有成本
智能存储
数据库
数据模型
ELT 工具
BI 工具
BI 应用产品
Oracle — 数据仓储的首选
信息来源:IDC,2009 年 7 月 —―Worldwide Data Warehouse Management Tools 2008 Vendor Shares‖
硬件和软件,集成设计、卓越性能