阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ......

26
阿里运维架构及云实践 王海亚 阿里技术保障资深技术专家 2014.9

Upload: others

Post on 06-Sep-2019

38 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里运维架构及云实践

王海亚

阿里技术保障资深技术专家

2014.9

Page 2: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里基础设施架构

去IOE介绍

阿里云及金融解决案例

2

Page 3: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里基础设施架构

Page 4: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里巴巴集团业务

菜鸟

物流

淘宝

天猫

Alib

ab

a.co

m

1688.co

m

Alie

xpre

ss电子商务

支付宝

小额贷款

保险

基金

金融

数据平台

阿里云

聚划算

阿里技术保障

Page 5: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

我们的历程

2007

2009

2010

2012

2013

2014

阿里巴巴骨干网ABTN投入使用

淘宝技术保障部成立,成为统一整合的阿里技术保障的前身

淘宝启动首个去IOE项目

阿里集团技术保障部整合完成

第一代AliRack 和AliSwitch投入使用

阿里最后一台IBM小型机下线

首次实现5000台飞天集群,万兆CDN上线

保障余额宝上云

完成阿里集团监控体系和支撑平台的无缝整合

Page 6: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

内外交互WEB server

网络 {无线|ABTN|OTN|SDN }

交易金融

IDC { 风|火|水|电|全球 }

用户

运营商

Ali-DNS

ANATAliSLBABTN AliCDN

Ali-Guard

监控-预案

架构-优化

飞天{MySQL|OceanBase}

数 据

硬件 {Server|Storage| CPU|Rack}

OS | 基础服务| Ai

事业部

基础设施整体架构

Page 7: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

网络基础架构

7

ABTN

ISR-1 ISR-2 ISR-3 ISR-4

CSR-2CSR-1

ANAT ClusterAGW Cluster

DSW DSW DSW DSW

ACTN

eBGP(private-as)

OSPF

Page 8: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

运行时数据实时采集&计算平台

变更管控平台

编译构建

CMDB

源码管理

环境配置

应用发布

限流保护

系统预案

应用扩容

网络变更

RootCause

定位故障管理

研发支撑平台

缺陷管理

持续集成

任务调度/资源管理

系统变更

AOM(Alibaba Operation Model)/AOL(Alibaba Operation Language)

基线管理配置管理 依赖管理 比对校验

事件总线

告警管理

离线数据分析平台

故障诊治

应用监控

系统监控

性能基线

容量管理

故障预测

在线压测

研发流程 交付&变更 运行保障 分析&优化

DB变更

容灾切换

应用管理

运维工具架构

依赖发现

Page 9: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里系统技术路线图

运维自动化

自动化安装 自动化部署

Armory

AliMonitorSRMPIDCFreeSSOPAliClone

数据中心

土建规划 环境设计

供配电系统

制冷系统

总控中心容量规划综合布线弱电系统标识系统

OTN DNS DefenderAliGuard NetFrame VPC

ABTN

ACTN

交换AliSLB 网络架构 路由AliSwitch

网络操作系统Linux

AliOS

定制内核 AliDNS Ext4 NTP

硬件

FPGA

服务器

AliRack

RAID

ASIC

硅光 AliStorage

数据库

去IOE

AliMySQL

OceanBase ADHADRCDBFreeIDB

监控 I 安全

性能优化

容量规划

Page 10: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

数据中心微模块技术美感环境友好

网络100G / SDNT级流量分析T级安全清洗

数据库分布式技术架构云数据库ODPS

服务器AliRack整机柜

高性能低功耗

自动化研发流程平台资源自由伸缩资源高效管理

阿里系统技术研发方向

Page 11: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

去IOE介绍

Page 12: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

Ali ORACLE

RAC20-曾经的亚洲最大,Oracle界的传奇,当时的骄傲

2007 部署4节点RAC 10G;

2008 扩展到8节点RAC;

2009 扩展到20节点RAC;

Oracle ACE 6+

Page 13: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

去IOE的缘由

• 成为制约业务发展的瓶颈

• 分布式 vs 集中式(线性扩展能力)

• 专用设备规模化场景下诸多限制

• PC服务器处理能力增强(CPU,flash,大内存)

• 成本

Page 14: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

去IOE如何做?

• MySQL

• TDDL(分库分表)

• Tair 缓存/tfs文本图片存储

• 数据分析

• 存储过程/函数

• 日志分析

• 其他

Page 15: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

去IOE关键点

MySQL的硬伤

1. join查询/子查询/复杂查询。

2. 数据分析

3. 单实例性能瓶颈(分布式带来的问题)

4. MySQL的门槛 (bug,使用门槛,debug)

Page 16: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

去IOE改造点

1. 基础语法改造

2. 复杂SQL改造

3. 存储过程/函数的改造

4. 集中式改造到分布式

5. 上线之前的性能压测

6. 数据迁移

7. …

Page 17: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

新的架构

Page 18: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

产品化

1. Ali MySQL分支

2. Oceanbase海量关系型数据库

3. Ali RDS(关系型数据库服务)

4. DRDS(分库分表技术)

5. OCS(缓存)

6. OSS (分布式存储)

7. ODPS(离线数据处理)

8. SLS日志分析系统

Page 19: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里云及金融解决案例

Page 20: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里云服务产品

虚拟服务器 存储与数据库 大数据

ODPS

ECS 云服务器

SLB 负载均衡

ODPS

开放数据

处理服务

DPC 采云间

RDS 关系型数据库服务

OSS 开放存储服务

OTS 开放结构化数据服务

OCS 开放缓存服务

CDN 内容分发网络

OAS 开放归档服务

ECS SLB RDS OSS OTS OCS CDN

安全

CS

CS 云盾

CM 云监控

CM

PaaS

ACE

ACE 云引擎

SLS 简单日志服务

MQS 消息队列服务

PTS 性能测试服务

OpenSearch

开放搜索服务

Page 21: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里云生态体系

21

云服务器

关系数据库服务SQL

基础服务全部 By 阿里

云监控 云盾

VPC

负载均衡 CDN 云盾

开放存储服务结构化数据服务NoSQL

缓存服务

开放数据处理服务大数据计算

日志服务工作流云引擎ACE

中间服务• 小部分By 阿里• 大部分By 合作伙伴

第三方产品(云市场)• Notify• OpenSearch• …

二方产品

行业软件开发商ISV

系统集成商SI

行业解决方案

中大型企业客户

SaaS服务市场应用服务• 完全由第三方提供• 云市场平台承载

中小企业、创业企业客户个人开发者

工具市场

客户

Page 22: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里云的典型客户

游戏

电子商务

互联网金融

云政务

移动APP个人站长

中小企业

大企业

政府

基于阿里云的聚石塔电商云平台2013年双十一支撑了约1.8亿笔订单,80%的商家后台

余额宝统一基于阿里云,短短几个月基金规模超过3000亿人民币

Apple App Store排名Top40的APP,约20%基于阿里云平台

Aliyun Confidential

Page 23: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

云产品运维保障

释放

下单

创建

迁移

停止

重置

PR PO SRM Armory

部署落日弓大禹

ECSAPI

Op

en

AP

I

释放

创建迁移

OSS API

SLB API

object

上传

下载删除

过保

硬件故障

整体下线/局部替换

Idcfree维修

压测回归云盾傲盾

过保机器零收益

Aliyun.com

vm/ip

vip

采购交付周期

部署生产周期

过保维修周期

OTS

ODPS

RDS

SCM

审计、风控、计费、监控、故障处理

Page 24: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

阿里金融云总体规划

银行,基金,保险,证券,期货,小贷 金融行业合作伙伴

金融云专属集群

云计算服务

弹性计算服务(ECS)

负载均衡服务(SLB)

关系型数据库服务

(RDS)云盾 云监控

开放数据存储服务

(OSS)

开放数据处理服务

(ODPS)

金融增值服务SSH VPN

接入架构支持护航保障

异地灾难备份

数据安全 合规安全IPsec VPN专线接入

堡垒机服务

特殊设备托管

大规模分布式云操作系统(飞天)分布式文件系统(盘古) 任务调度(伏羲)集群部

署(大禹)

集群监控

(神农)命名服务(女娲) 安全管理(钟馗) 网络通讯(夸父) 分布协同(仓颉)

金融能力开放

云支付接口6.0 金融沙箱 绿灯 合作伙伴的能力

Page 25: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

金融行业案例:余额宝

IOE架构面临的问题

– 清算任务在150分钟内无法完成。

– 直销与清算的资源争抢。

– Oracle出现性能瓶颈

– 扩容周期长

– 直销的高并发实时开户请求,业务峰值高。

– 安全性与可靠性要求已经无法满足。

阿里云的解决方案

– 清算系统水平拆分,横向扩容。

– 双11清算35分钟内完成。

– 数据库去O,使用RDS,水平拆分,快速扩展

– 去IBM,使用ECS,资源弹性伸缩

– 按需付费,不会造成资源浪费

– 专线接入,两地三中心部署

Page 26: 阿里运维架构及云实践 - t.nxb100.com · 淘宝技术保障部 成立,成为统一 ... odps(离线数据处理) 8. sls日志分析系统. 阿里云及金融解决案例

谢谢关注,欢迎交流

@ 阿里技术保障