dtcc ibm big data platform 2012-final_cn

16
IBM Big Data Platform 王云 IBM院士 中国研究院首席技DTCC2012 DTCC2012

Upload: ypfangdong

Post on 28-Nov-2014

1.519 views

Category:

Documents


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Dtcc ibm big data platform 2012-final_cn

IBM Big Data Platform

王云

IBM院士

中国研究院首席技术官

DTCC2012DTCC2012

Page 2: Dtcc ibm big data platform 2012-final_cn

2

2009

800,000 petabytes

2020

35 zettabytes

未来的10

年里,数据和内容将增长 44倍 商界领袖经常需要以不信任的

或不存在信息为基础进行决策 1 in 3

83% CIO们提到的“商业智能和分析”作为有远见计划的一部分来提高竞争力

商界领袖无法获取做好本职 工作所需要的信息 1 in 2

CEO们需要更迅速捕获和了解信息,以便迅速作出业务决策来做取得更好的工作成绩 60%

企业需要更深入的远见卓识

的数据是非结构化的

80%

信息是新一轮机遇中的核心…

DTCC2012DTCC2012

Page 3: Dtcc ibm big data platform 2012-final_cn

3

群体和个体之间交互沟通的方式发生了 翻天覆地的变换由此带来的信息量的巨增

A brand new game

Consumers become increasingly interconnected

Consumers become increasingly intelligent

IBM Institute for Business Value CMO Study

2011

Consumers become increasingly instrumented

+ + =

DTCC2012DTCC2012

Page 4: Dtcc ibm big data platform 2012-final_cn

4

从巨大、以无与伦比的速度增长和多样化的数据中

提取远见卓识,而这些是以前无法做到的

Big Data 的机遇

DTCC2012DTCC2012

Page 5: Dtcc ibm big data platform 2012-final_cn

5

The IBM Big Data Platform

DTCC2012DTCC2012

Page 6: Dtcc ibm big data platform 2012-final_cn

6

Big Data 平台能够做什么事情?

分析流动中的信息

流数据分析

针对数据爆炸和ad-hoc模式的分析

分析多样化的信息

基于大范围混合信息的上下文分析,而这种分析此前根本不能执行

发掘和探索

Ad-hoc模式的分析、数据发现和验证

分析极端大量的数据

成本最优化地处理和分析PB量级的信息

管理、分析大容量的结构化和关系型数据

计划和管控

加强数据结构的完整性和控制,以确保可重复查询的一致性

DTCC2012DTCC2012

Page 7: Dtcc ibm big data platform 2012-final_cn

7

Big Data 丰富了整个信息管理生态系统

谁?在什么时候?什么地方?动用了什么

样的数据?

审计路线图精减了工作和任务

管理治理过程

优化OLTP

(SAP, checkout, +++)

通过生活事件、爱好和角色等等使主数据变得更加丰富

建立信息即服务

优化归档成本

DTCC2012DTCC2012

Page 8: Dtcc ibm big data platform 2012-final_cn

8

互为补充的分析能力 传统的做法

结构化,可分析,逻辑性

新的路径 创造性, 整体思维, 知觉

Structured Repeatable

Linear

Monthly sales reports Profitability analysis

Customer surveys

来自内部应用的数据

数据仓库

传统数据源

结构化

可重复

线性的

事务数据

来自ERP的数据

来自主机的数据

OLTP 系统中的数据

Unstructured Exploratory Iterative

Brand sentiment Product strategy Maximum asset utilization

Hadoop

Streams

新数据源

非结构化

探索性

迭代的

Web 日志

社交网络中的数据

文本数据: emails

来自传感器的数据: 影像

RFID

企业集成

DTCC2012DTCC2012

Page 9: Dtcc ibm big data platform 2012-final_cn

9

Streams 和 BigInsights – 沉淀的数据和流动数据的无缝集成

1. 数据注入

数据集成,数据挖掘,机器学习,统计建模

可视化的实时和历史的见解

3. 自适应分析模型

数据采集,准备,在线分析,模型验证

Data

2. 数据反馈

Control

flow

InfoSphere

BigInsights,

Database &

Warehouse

InfoSphere

Streams

DTCC2012DTCC2012

Page 10: Dtcc ibm big data platform 2012-final_cn

10

InfoSphere BigInsights

Platform for volume, variety,

velocity -- V3

增强的Hadoop方案

Analytics for V3

文本分析的工具箱 机器学习与预测分析

Usability

Web console 集成安装 可视化工具 大数据分析的apps,如apps

Store

Enterprise Class

企业存储,安全,集群管理

Integration

与DB2,Netezza, JDBC数据的互联互通 DTCC2012DTCC2012

Page 11: Dtcc ibm big data platform 2012-final_cn

11

流数据分析 分析和关联500万市场消息/秒,

以30微秒的平均延迟执行算法期权交易。

以500K/秒的速度,每天分析6B+ IPDRs,每年分析 4 PBs. sustaining 1GBps.

Consider: 数据不用存储, 不用遵循信息生命周期管理,极大量

的节省存储等资源消耗

height: 640

width: 480

data:

height: 1280

width: 1024

data:

height: 640

width: 480

data:

DTCC2012DTCC2012

Page 12: Dtcc ibm big data platform 2012-final_cn

12

IBM Watson

12

IBM Watson 是在分析创新方面的一项重大突破,但它之所以取得成功,完全得益于它处理的信息的速度和质量。

InfoSphere BigInsights “Big Data” analysis (Hadoop)

InfoSphere Streams Massively parallel analysis

DTCC2012DTCC2012

Page 13: Dtcc ibm big data platform 2012-final_cn

13

tokens

do

cu

me

nts

V W H ≈

docum

ents

topics

top

ics words

x

while (i < max iteration) {

H = H ∗ (WT V / WTWH);

W = W ∗ (V HT / WHHT );

i = i + 1;

}

基于BigData 平台的预测分析

DTCC2012DTCC2012

Page 14: Dtcc ibm big data platform 2012-final_cn

14

各个行业BigData 应用的适用范围和场景

Homeland Security

Finance Smarter Healthcare Multi-channel sales

Telecom

Manufacturing

Traffic Control

Trading Analytics Fraud and Risk

Log Analysis

Search Quality

Retail: Churn, NBO

DTCC2012DTCC2012

Page 15: Dtcc ibm big data platform 2012-final_cn

15

INT

EG

RA

TIO

N

营销

数据仓库一体机

数据库

内容分析

业务分析

主数据管理

IBM & non-IBM

InfoSphere MDM

DB2 & non-IBM

Cognos & SPSS

Unica

ECM

数据增长管理

InfoSphere Optim

规则 / 业务流程管理

iLog & Lombardi

数据仓库

InfoSphere

Warehouse

IBM Big Data Solutions 客户和合作伙伴方案

Big Data 企业引擎

Big Data 加速器

文本

影像/视频

音频信息 财经

时间序列

统计数据

挖掘

地理信息

数学信息

InfoSphere BigInsights InfoSphere Streams

Info

rmati

on

Serv

er

提升和优化生产效率

工作负载管理和优化 工作流 工作时间表 作业跟踪 配置 数据摄入

管理 配置管理器 身份和访问管理 事件监控 数据保护 管理工具

连接器 应用 蓝图

DTCC2012DTCC2012

Page 16: Dtcc ibm big data platform 2012-final_cn

IBM big data • IBM big data • IBM big data

IBM big data • IBM big data • IBM big data

IBM

big

da

ta •

IB

M b

ig d

ata

IB

M b

ig d

ata

• IBM

big

da

ta

THINK

DTCC2012DTCC2012