研发运营一体化(devops)能力成熟度模型 第4部分技术运营》权 … ·...

29
研发运营一体化( DevOps )能力成熟度模型 4 部分 技术运营》权威发布 中国信息通信研究院 云计算与大数据研究所云计算部 运维业务主管 牛晓玲

Upload: others

Post on 21-Oct-2019

18 views

Category:

Documents


0 download

TRANSCRIPT

《研发运营一体化(DevOps)能力成熟度模型第4部分技术运营》权威发布

中 国 信 息 通 信 研 究 院云 计 算 与 大 数 据 研 究 所 云 计 算 部运 维 业 务 主 管 牛 晓 玲

目录Contents

DevOps能力成熟度系列标准背景01

技术运营标准内容解读03

DevOps能力成熟度系列评估体系介绍02

未来与展望04

标准体系框架全景图

研发运营一体化(DevOps)能力成熟度系列标准:第1部分:总体架构第2部分:敏捷开发管理第3部分:持续交付第4部分:技术运营第5部分:应用设计第6部分:安全及风险管理第7部分:评估方法第8部分:系统和工具

1

2017.12

32 4

2018.07

5

2019.072018.04

6 7

2018.06

DevOps能力成熟度模型系列标准完成第2-5部分征求意见稿,第8部分系统和工具正式立项成功。

由中国信通院牵头的首个DevOps国际标准在联合国ITU-T正式立项成功。

2018.09

DevOps能力成熟度模型系列标准行标号正式下达。

DevOps能力成熟度模型系列标准第4部分技术运营权威发布。

未来评估、白皮书、行业深度研究、国际标准化、持续改进标准。

DevOps能力成熟度模型系列标准权威发布第1-7部分(征求意见稿),并完成第3部分持续交付首批试评估。

DevOps系列标准正式在CCSA立项成功。

DevOps标准简史

研发运营一体化(DevOps)能力成熟度模型

牵头单位:中国信息通信研究院(国家智库,可信云等出品单位)起草单位:云计算开源产业联盟、DevOps时代社区、高效运维社区、BAT、京东、中国移动、中国电信、中国银行、平安科技和中国银联等目前进展:2018年6月29发布全量征求意见稿,2018年7月在联合国 ITU-T正式立项

技术运营新版标准发布,正式评测将于Q3开始。

《研发运营一体化(DevOps)能力成熟度模型 第2部分敏捷开发管理》架构

《研发运营一体化(DevOps)能力成熟度模型 第3部分持续交付》架构

很容易混淆的几个概念?

Garter认为(IT Service Management,ITSM )是一套通过

服务级别协议(SLA)来保证IT服务质量的协同流程,它融合

了系统开发管理、网络管理、变更管理、资产管理、问题管理

等许多流程的理论和实践。ITSM以客户和服务为导向,典型的

系统有“CRM系统、ERP系统、决策支持系统和知识管理系统

等”。是指单位IT部门采用相关的方法、

手段、技术、制度、流程和文档等,

对IT运行环境(如软硬件环境、网

络环境等)、IT业务系统和IT运维人

员进行的综合管理。 是企业推进信息化建设需符合未来整体

发展战略的业务实现模式和业务逻辑的

信息技术架构和平台,并且企业能够支

撑业务信息系统的规划,实施运营维护

和管理,二者的有机融合,是企业信息

组织建设的重要保障。

技术运营管理过程是技术运营能力建设的一个过程,

包括监控管理、事件与变更管理、配置管理、容量

与成本管理、高可用管理、业务连续性管理、用户

体验管理等,它以业务为中心,交付稳定、安全、

高效的技术运营服务,构建业界领先的技术运营能

力,支撑企业的持续发展和战略成功。

03IT运营管理

01IT服务管理

04技术运营

02IT运维管理

先有ITSM,后有ITIL。 ITIL是ITSM的最佳实践,ITIL使

ITSM得到关注和发扬,ITIL为ITSM提供创建了一组核心流程。

ITIL的运维化是ITSM,DevOps的运维化是ITOM。

从IT运维到技术运营

稳定 可靠

效益

效率

基础设施

软硬件维护、故障排除

保证IT系统正常运行

体验

安全业务和用户

IT管理要更加精细化、自动化、

智能化,IT运营管理的架构也

需适应用户体验、效率和效益

方面的更多要求。

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》架构

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》标准部分内容

7个能力子域

15个能力项

35个能力指标

能力域 能力子域 能力项 能力指标

数据采集

数据传输

数据接收

数据处理

数据存储

告警与管控

数据服务

可视化管理

事前管理

事件处理

事后管理

变更流程管理

部署管理

配置对象

配置数据

基础设施容量

业务容量

成本合理性

预算与核算

弹性能力

柔性能力

运行与维护管理

缓存高可用

数据库高可用

RTO 和 RPO

业务影响分析

业务风险分析

灾备管理

组织机制

应急预案

应急演练

组织机制

业务认知管理 业务学习与考核

体验数据管理

体验优化管理

风险管理

危机管理

应急管理

体验管理

运营配置管理

容量管理

成本管理

应用高可用管

数据高可用管

监控采集

数据管理

数据应用

事件管理

变更管理

技术运营

监控管理

事件与变更管理

配置管理

容量与成本管理

高可用管理

业务连续性管理

用户体验管理

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》评估能力指标项

级别 说明 监控管理事件与

变更管理配置管理

容量与成本管理

高可用管理 业务连续性 用户体验管理

一级

初始级:

部分

自动化

· 基础的监控管理,

能满足企业对 IaaS 监

控的基本需求。

· 基本的事件规范和

变更操作要求,及

时处理事件和管控

部分变更风险。

· 靠人工保障配置

记录的管理。

· 基础的硬件与业

务的指标汇聚

· 流量切换。

· 基础的健壮性,硬件故障

能及时恢复。

· 数据库备份可靠。

· 基础的业务影响分析

能力和业务风险分析

能力,基本应急演练。

· 具有快速处理用户体验的

投诉问题,具备丰富的业

务端的数据收集能力。

二级

基础级:

自动化

/脚本化

· 覆盖更多监控对象。

·告警收敛,监控数据

关联分析。

· 对常见的场景可以

实现告警度量、管控

和可视化的能力。

· 完善的事件及变更

管理能力,覆盖全

生命周期的管理。

· 流程与场景部分的

自动化和可视化。

· 统一的配置管理

系统,全生命周

期的管理技术运

营相关的对象。

· 有规则和流程支

持配置变更。

· 技术运营全生命

周期的容量和成本

的管理。有规则和

流程支持,以满足

不同场景的需求。

· 应用服务间调用关系治理

平台,支持应用服务级别的

监控报警。

· IT系统有效打通,故障快

速定位。

· 数据库读写分离,主备实

时同步,同城多机房备份。

· 整体 RTO 达到

99.90%。

· 至少半年进行一次灾

备测试演练。

· 详尽的应急响应预案,

充分考虑外部舆情和

客服的信息反馈。

· 端到端全链路事件埋点;

· 全链路的体验告警,用户

体验优化效果可衡量、可

视化体验管理能力

· 联合内部,主要场景的用

户体验优化

三级

全面级:

系统化

/平台化

· 精细化和平台化,

通过标准化的管理和

自动化工具,强化技

术运营过程中的功能

细节管控。

· 面向应用场景实现

告警管控和可视化管

理。

· 各个维度有精细化

扩展,能够与其他

技术运营流程打通,

平台化。

· 完善的可视化管理,

对过程和团队做到

度量。

· 自动化配置管理

平台,支持灵活

扩展和关联分析,

符合技术运营场

景的需求。

· 灵活的容量与成

本管理规则与流程,

所得数据指导技术

运营活动,为企业

提供数据支撑和优

化建议。

· 自动化动态扩容。

· 分布式缓存,分表分库,

跨库事务。

· 同城多机房实时数据备份,

异地数据备份。

· 整体 RTO 为 99.95%。

· 主动模拟注入故障,

并被快速定位和解决。

· 2分钟响应,5分钟找

到原因启动预案,10分

钟完成问题解决。

· 自动跟踪及用户改善工具。

用户体验类的指标基线,

并能联合外部建立优化工

具,驱动整体的用户体验

指标的改善。

· 5分钟发现质量数据异常

技术运营标准整体级别说明(2级为国内领先水平)

级别 说明 监控管理事件与

变更管理配置管理

容量与成本管理

高可用管理 业务连续性 用户体验管理

优秀级:

精细化、

部分智

能化

· 监控管理初步实

现智能化,能够在

有限的业务场景实

现自动决策的监控

应用与管控效果。

· 深度规范化阶段,

在部分成熟场景

能够通过借助智

能化技术实现管

理与质量的降本

增效。

· 精细化与自动化

的能力,配置信

息能为技术运营

活动提供决策支

撑,可指导开展

相应的业务场景

运维操作和优化。

· 支持全链路的容

量管理能力,为

技术和架构优化

提供支撑。成本

管理与业务场景

结合,更精细化

的指导技术运营

活动的开展。

· 结合监控自动

扩容缩容。

· 系统拓扑结构

自动梳理。

· 应急和危机处理组织结

构完备,流程合理,人

员熟练掌握,对故障基

本能做到通过告警主动

发现。

· 1分钟快速响应,3分钟

找到原因和启动预案,5

分钟完成问题解决。

· 界定区分用户群体及单

用户行为轨迹的完整链

条的体验表现

· 触达到运营指标如回流

用户转化率、网络加速

类深度优化的体验解决

方案能力。

卓越级:

充分智

能化

· 智能决策、推荐

等高度智能化。

· 大部分场景的智

能化支撑,实现

无人化、自愈和

自改进能力。

· 智能化配置管理,

支持场景智能生

成配置对象的关

联规则,和提供

准确的决策依据。

· 智能化的容量与

成本管理技术。同上 同上

· 跨云私有化部署

· 辅助提供业务主功能服

务,并可以以云API调用

或SDK形式结合到业务

程序,作为主策略模块。

技术运营标准整体级别说明(2级为国内领先水平)

过程域二级

过程域三级

评估维度1级

(初始级:部分自动化)2级

(基础级:自动化/脚本化、小范围)3级

(全面级:系统化/平台化、大范围)

监控管理

监控采集

数据采集

· 具备操作系统级监控指标的采集能力,如CPU、内存等

· 系统日志、应用日志和接口日志等· 数据采集上报到多个服务端

· 统一的数据采集及跨平台兼容· 支持提供开放式、自定义的采集上报· 发送延迟、数据校验、采集限频等

数据传输

· 通过标准协议传输数据 · 单份数据多份订阅及分发传输· 支持多种传输及容灾方案 ,如同时具备推与拉· 具备平行扩展、数据汇聚和高效传输等架构能力

数据管理

数据接收

· 仅实现数据接收· 支持数据清洗、转发、丢弃、复制等· 异构数据源集中接收

· 统一的数据上报,支持文本、字符串和加密协议等· 空值检测、乱码校验、属性校验、过载保护

数据处理

· 原始数据源预处理· 异常数据识别

· 自定义数据四则运算、分类和聚类等· 对外提供数据接口,可扩展的 ETL 能力· 异构数据源的处理及关联分析的能力

· 实时计算数据处理延时小于 1 分钟· 自定义日志字段解析,数据校正、持久化、异常告警

数据存储

· 具备基本的数据存储能力· 统一的数据存储,确保完整性和可用性· 文本、数值型、位图和时序数据存储

· 高并发查询,冷热数据分离· 半结构化数据、时序数据的快速检索与统计

数据应用

数据服务

· 提供基础的数据存储服务· 可计算最大值和平均值等,数据接口支持按条件导出、自定义查询

· 支持复制、同步或传输数据到其他存储介质

· 在线自定义数据统计分析,如在线 SQL · 数据权限、加密或脱敏,接口调用限频、限制访问源

告警与管控

· 多通道发送告警信息· 告警收敛,告警触达率和准确率统计· 告警关联运维操作提示,自动告警升级

· 告警关联收敛,自定义告警关联自助分析工具· 告警关联自动化工具,常见场景下的故障自愈

可视化管理

· 在线数据图表展示· 自定义图表,场景化的在线数据查询· 业务监控指标重点展示

· 基于业务拓扑架构或调用关系的可视化及异常展示· 多维度的数据下钻与展现,全业务级的可视化

技术运营标准核心能力要求

过程域二级

过程域三级

评估维度1级

(初始级:部分自动化)2级

(基础级:自动化/脚本化、小范围)3级

(优秀级:系统化/平台化、大范围)

事件与变更管理

事件管理

事前管理

· 基本分类,被动受理和处理故障· 值班接口人实时响应

· 问题和事故进一步分级,主动的事前流程· 重大故障应对预案,完整的事件处理组织,具备基本容错能力的架构

· 场景和组织可扩展· 平台化,平台间信息共享和协同;具备高可用和持续性设计的架构

事件处理

· 故障后快速处理和恢复· 应急响应和故障处理时效合理止损意识· 预案一站式脚本执行能力

· 重大事故快速决策、合理止损标准化管理流程· 平台化,可授权一线操作强容错,准确的预定级

事后管理

· 基本的记录、分析和通报· 学习改善机制,定位客观,正确找到原因和责任归属

· 事后流程和质量文化

· 度量分析、改善追踪、知识库沉淀;· 度量关联绩效考核,重视问题和改进优化

变更管理

变更流程管理

· 部分风险可控· 突发场景下可正常变更

· 变更操作规范化和流程化· 评审组织

· 变更管理和发布规范完善,兼顾质量和效率度量· 变更顾问委员会,变更管理的平台化能力

部署管理

· 基本的部署能力· 部署过程标准化,一定的工具化,部分过程脚本化实现

· 可回滚、影响可控

· 灵活和可控的策略保障高成功率和可度量· 平台统一,全部自动化,标准化

配置管理

运营配置管理

配置对象

· 记录基础设施级配置对象· 全生命周期管理,状态更新及时通知· 支持业务、应用级配置对象

· 自动发现、可关联,支持自定义扩展字段· 变更关联技术运营事件,如运维告警关联返回码

配置数据

· 依靠文档记录配置信息· 统一配置管理,实时反馈运行状态· 支持变更回溯、日志审计、API 接口等

· 关键配置数据自动纠正,单一可信数据源· 权限与组织相关联,多用户视角的统计与展现

技术运营标准核心能力要求

过程域二级

过程域三级

评估维度1级

(初始级:部分自动化)2级

(基础级:自动化/脚本化、小范围)3级

(全面级:系统化/平台化、大范围)

高可用管理

应用高可用

弹性能力

· 梳理应用服务间调用关系,负载均衡支持多种算法;能流量切换,应用发布对业务影响小

· 应用服务间调用关系治理平台,支持应用服务级别的监控报警;应用节点可快速横向扩展,应用支持分批发布,发布过程不影响生产环境。

· 根据监控性能指标或按计划进行应用的自动化动态扩容· 多应用相关联的自动化同步横向扩展

柔性能力

· 基础的健壮性,硬件故障能及时恢复,较短时间内完成应用扩容上线

· 良好的健壮性,无单点,硬件故障不易出现业务上的中断或异常。失效转移、限流

· 软硬件故障不易产生业务中断

运行与维护

· 具备常用信息系统· 主机、进程端口监控

· 业务层面运行监控,易于查看业务调度情况和性能,支持故障快速定位

· 结合配置管理系统实时更新状态信息· 集中展现能力,并保证信息的全面准确

数据高可用

缓存高可用

· 针对热点数据使用缓存进行加速· 持久化。有缓存的备份节点,主备节点保持实时数据同步,能主从切换

· 主节点宕机可以自动切换至备份节点, 并保证数据一致。具备分布式,可快速平滑横向扩展

数据库高可用

· 备份可靠,保证数据一致性· 主从同步及主从切换

· 主备实时同步,读写分离· 使用本地事务保证数据一致性· 有同城多机房的数据备份

· 分表分库横向扩展,跨库事务· 有同城多机房的实时数据备份,有异地数据备份可按照RPO要求恢复至2分钟内的数据点数据库变更操作不影响业务正常运行

业务连续性管理

风险管理

RTO 和RPO

· 基础的RTO/RPO标准· RTO 为 小于99.90%(1300分钟)· 同城跨机房 RPO 大于5分钟

· RTO 为小于99.95%(260分钟)· 同城跨机房 RPO 小于2分钟,异地 RPO 小于10分钟

业务影响分析

· 基础的业务影响分析 · 与事前评估相符,事前做到预防 · 按周评估业务变化及相关风险,落实改进项

业务风险分析

· 基础的业务风险分析· 无严重影响安全运行的隐患· 按月对运行风险进行分析和评估

· 容量足以满足业务的增长需要· 按周上报风险评估,评估和预防法律及监管风险

危机管理

灾备管理 · 灾备演练间隔超过半年· 间隔小于半年,预期时间内完成且结果符合预期

· 基于多机房架构,短时间快速切换且对业务影响最小化

组织机制 · 基础的危机管理组织体系 · 组织完备,角色划分清晰,职责明确 · 管理层重视且参与

应急管理

应急预案 · 基础的应急响应预案 · 详尽,准确说明启用条件,操作人和操作步骤 · 集中管理且及时更新,方便检索及协同

应急演练 · 基础的应急演练· 定期应急演练· 监控准确,报警升级运作良好

· 模拟硬件或操作系统异常,主动注入故障,快速排查定位问题并解决

· 及时更新的应急组织,应急上报机制完善 · 2分钟快速响应,5分钟找到问题原因并启动预案,

过程域二级

过程域三级

评估维度1级

(初始级:部分自动化)2级

(基础级级:自动化/脚本化、小范围)3级

(全面级:系统化/平台化、大范围)

容量与成本管

容量管理

基础设施容量

· 按相关维度聚合· 基础设施的监控与告警

· 实时容量查询,支持 API 查询接口· 特征管理、基线管理、单机承载的量化管理

· 动态容量平衡的架构· 容量预警、容量预测

业务容量

· 按相关维度聚合· 业务容量监控与告警

· 特征管理、反馈指标管理· 自定义业务容量计算方法

· 与基础设施容量关联分析· 决策业务调度、柔性服务、容量预测

成本管理

成本合理性

· 基础的成本意识与管理· 基础设施及软件的全生命周期成本管理· 准确记录成本相关数据的

· 多维度、精细化成本管理· 成本数据与容量数据关联分析· 成本换算、主动成本优化

预算与核算

· 基础预算、基础核算· 体系化的预算管理、核算管理· 主动成本分析,全局技术运营对象的核算

· 成本分析与预测· 成本数据自动化校对

用户体验管理

业务认知管理

业务学习与考

· 重视业务运营指标,未涉及对核心用户群的体验分级管理

· 基本的业务认知,定期体验业务及产品

· 使用常用诊断体验问题的测试工具· 拥有衡量用户体验质量的体验类指标· 定期业务培训,具备上岗资质

· 主动挖掘用户痛点需求的产品能力,以用户单场景化系统性解决问题

· 联动内部产品、客服等团队,丰富统一的用户体验类的知识管理系统

· 定期产品岗培训,主动优化考核及创新性团队管理

体验管理

体验数据管理

· 采用基础采集工具,全面收集及丰富业务程序、网络等数据

· 端到端全链路用户事件的数据埋点规划· 大数据实时计算分析的技术解决方案· 定期 review 及更新用户体验指标的数据维度

· 收集竞品及外部相关业务口碑数据,5分钟内发现数据质量异常

· 按业务核心体验指标的动态基线进行数据管理· 基于多维度数据的实时可视化,支持用户链路的关联数据查询及追踪

体验优化管理

· 依靠用户体验的场景监控及业务突发预案,快速解决用户体验问题

· 精细化监控及下探用户全链路的体验问题并形成可视化体验报告

· 依靠与外部团队的合作,丰富用户端的体验触达工具

· 基于用户体验管理系统,整合工具、周边系统及解决方案,自动跟踪、联动处理基于事件闭环的线上用户体验管理

· 依靠外部资源合作,引入行业优秀的解决方案或新技术,完善体验的解决方案库或触达用户的决策库

技术运营标准核心能力要求

《研发运营一体化(DevOps)能力成熟度》评估流程

企业基本信息

评估企业名称 请填写企业名称(和工商登记信息一致)

三证合一的营业执照 营业执照、组织机构代码证和税务登记证三证合一的执照(请以PDF的方式提供),用于制作评估证书

参评项目基础信息

评估项目名称 请填写参评项目名称(项目一般为业务系统)

参评项目简介 请填写参评项目简介,比如主要功能,应用场景,发布周期

参评项目生产环境信息

请填写参评项目生产环境下服务器或容器数量、用户规模(如:十万级,百万级,不用具体数量)、并发用户数等

参评项目所在组织信息

请填写参评项目所在组织(部门或团队)的信息,包括:人数规模(包括外包团队)、开发部门人数及比例(自有开发人员?外包?混用?)、运维部门人数及比例(自有运维人员?外包?混用?)

参评项目架构 请填写参评项目的系统架构图

参评项目的自动化运维情况

请采用文字和流程图等简述参评项目的自动化运维能力及实践。

参评项目的背景说明请填写参评项目所采用工具链,如果是自研工具请注明。包括:虚拟化方式:物理机?KVM/XEN?Docker?OS类别:Windows?Linux?AIX?数据库情况:Oracle?DB2?MySQL?其他?混用?服务器规模:多少台?服务器类别:IBM 小型机?PC 服务器?混用?发版情况:当前多久做一次发版?期望多久一次发布?SLA情况:当前SLA是多少?期望SLA是多少?认证现状:是否已通过 ISO20000等认证

参评项目的环境分类请填写参评项目的环境分类情况,包括开发、测试、预发布、生产环境等分类请说明各环境的基础设施技术(如:实体机、OpenStack虚拟机、Kubernetes容器、Cloud Foundry等)

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》评估项目信息

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》自评表

京东商城徐奇琛

京东金融王超

腾讯杨军

腾讯刘栖铜

腾讯梁定安

高效运维社区萧田国

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》核心编写人员(部分)

中国信息通信研究院云大所 云计算部 主任

栗蔚

中国信息通信研究院云大所 运维业务主管

牛晓玲

腾讯蓝鲸总监党受辉 腾讯蓝鲸产品中心

杨文兵

中国电信集团陈靖翔

平安科技陈亚殊

腾讯范晶晶

中国银联任明

腾讯吴树生

中兴通信中兴学院闫林

太平洋保险集团胡罡

中国信息通信研究院云大所云计算工程师

车昕

《研发运营一体化(DevOps)能力成熟度模型 第4部分技术运营》专家研讨会

《研发运营一体化(DevOps)能力成熟度模型 第5部分应用设计》架构

《研发运营一体化(DevOps)能力成熟度模型 第6部分安全与风险管理》架构

《研发运营一体化(DevOps)能力成熟度模型 第8部分系统和工具》架构

《研发运营一体化(DevOps)能力成熟度模型 第8部分系统和工具》工具图谱

联系我们

标准下载二维码 DevOps评估咨询

请联系@车昕邮箱:[email protected]电话:18611139904

开源产业联盟会员

请联系@郭凯邮箱:[email protected]电话:13718840483

THANKS