清华大学数据中心 无单点故障运行环境建设

30
清清清清清清清清 清清清清清清清清清清清 清清清清清清清清清清清清清清 清清 [email protected] 二○○二二二二

Upload: mort

Post on 08-Jan-2016

155 views

Category:

Documents


0 download

DESCRIPTION

清华大学数据中心 无单点故障运行环境建设. 清华大学计算机与信息管理中心 戚丽 qili @cic.tsinghua.edu.cn 二○○六年五月. 提 纲. 建设需求的提出 无单点故障运行环境的建设成果 经验与体会. 清华大学数据中心的建设过程. 2001 年 5 月,成立了数据中心 职能: 整合资源,减少学校在运行环境、维护人员等方面的重复投资 集中负责系统的运行与维护,提高系统的可用性、可靠性及安全性 数据集中存放与管理 , 是数据共享与交换的集散地,利于系统的整合和信息的整合. 清华大学数据中心的建设过程. 2001 年,运行环境的基本建设 - PowerPoint PPT Presentation

TRANSCRIPT

清华大学数据中心无单点故障运行环境建设

清华大学计算机与信息管理中心戚丽

[email protected]

二○○六年五月

提 纲

建设需求的提出无单点故障运行环境的建设成果经验与体会

清华大学数据中心的建设过程

2001 年 5 月,成立了数据中心职能:1. 整合资源,减少学校在运行环境、维护人

员等方面的重复投资2. 集中负责系统的运行与维护,提高系统的

可用性、可靠性及安全性3. 数据集中存放与管理 , 是数据共享与交换

的集散地,利于系统的整合和信息的整合

清华大学数据中心的建设过程

2001 年,运行环境的基本建设2001 年重点进行运行环境的基本建设,进行了机房改造、电源、空调的改造等工作,到年底,基本建成了一个比较专业的机房。

清华大学数据中心的建设过程

2002 年,网络安全建设及服务器结构调整 2002 年开始了以数据中心为核心辐射学校关键职

能部门的的安全防范体系的设计和建设, 2005 年完成。

服务器结构开始三层架构的调整, 2003 年初步完成。 2004 年根据应用的情况及资金情况,在划分为三层结构的基础上,将服务器划分组,每组设置一台冷备的服务器,提高服务器的可用性。

清华大学数据中心的建设过程

2003 年,“数据库年”重点对数据库的结构、数据库的布局、数据备份的策略等进行研究,并根据实际情况对数据库进行调整。

清华大学数据中心的建设过程

2004 年,存储、备份、容灾的研究和实施存储局域网的建设,为服务器建立群组打下了基础。

2005 年,运行服务体系的建立 进入了运行与建设并重的阶段

需求的提出

运行的应用系统数量不断增加 各部门对应用的依赖程度越来越大 对运行服务的要求也不断提升

- 应用系统的可用性: 7×24 小时的不间断服务 - 数据的安全性 - 运行的效率

从 2004 年年底开始了无单点故障的运行环境建设

目标

消除运行环节的单点故障 提高应用系统的可用性

提 纲

建设需求的提出无单点故障运行环境的建设成果经验与体会

建设内容

基础建设:电源、空调、机房 网络建设 服务器结构调整 数据库 存储 人员的配置

基础建设 供电系统

1 )双路供电到机柜,保证采用双电源的设备有两路可用电源;

2 ) UPS 系统有冗余设计,提高供电系统的可靠性 空调 要有冗余设计,保证机房温度不会受某个空调的故

障而升高 布线

使每个机柜的电源线和预留的网线能够满足电源、网络的冗余设计。

基础建设 电源:

1 )新增加了 100KVA 的 UPS ,和原有的 80KVA 的 UPS形成双路供电到机柜。

2 )预留出柴油发电机的接口。 空调: 增加了两台 45kw 制冷量的专业机房空调,替换

了部分小空调,能够满足机房今后 3 年的发展。 机房布线 :

为配合网络、电源的改造,将机房的网线重新布置,服务器位置进行了调整,使之满足网络、电源的冗余要求。

UPS 机房的线架

空调

高可靠的网络

建立全冗余、无单点故障的数据中心网络,以保证数据中心网络的高可靠性,使得任何单个交换机或单条接入校园网链路的故障都不会影响网络的连通性,更不会导致整个网络的瘫痪。

高可靠的网络

TUNet

VRRPGW(GW’ )

SW2

OSPF

AFTAFT AFT

TUNet

GW

SW2

高可靠的网络

2006 年 2 月,新旧网络切换,实现了:– 将入口防火墙(带路由功能)、服务器出口网

关路由器组成一个 OSPF 域,实现了三层路由冗余;

– 实现了服务器子网的出口网关冗余;– 实现了接入交换机的冗余;– 实现了部分重要服务器的双路网卡上连;

服务器结构调整

根据应用的重要程度将服务器分级。 根据服务器的级别,采用不同的技术手 段,设置不同的服务器冗余度,使之能 够在容许的停运时间内进行硬件切换。

服务器结构调整

服务器分级根据服务器运行的应用的级别,划分服务器的级别,分别划分为 A1 、 A2 、 B、 C四个级别;

服务器分组根据运行的操作系统、软件环境分为不同的组

每个组根据服务器的级别确定建设模式 研究负载均衡技术,对部分服务器进行了调整。

数据库

数据库硬件结构要能够保证不会由于某 个环节的单点故障导致数据库的停止服务;

数据库的布局要易于管理

数据库

采用 ORACLE10G RAC软件硬件部分采用多台服务器作为服务器群组 数据库将使用一个物理的数据库目前已经完成部分数据的迁移工作

数据库结构示意图

Sun V490 Sun V490

NetApp940c Node1

NetApp940c Node2

Sun V490 Sun V490

FC Switch FC Switch

Interconnect Switch Interconnect SwitchCIC Switch CIC Switch

图: Oracle 10g RAC全冗余设计

存储

数据集中存储是建立无单点故障运行环 境的基础

建立存储局域网 提高存储设备的可用性和安全性

存储

IP SAN 、 FC SAN相结合 将存储、备份及数据容灾统一考虑,形成比

较完整的数据存储、备份、容灾解决方案

灾备存储网以太网iSCSI

FC SAN

NAS 应用集中存储

(CIFS/NFS)

iSCSI 应用集中存储

SnapDrive

FC SAN 应用集中存储 SnapDrive

开放应用系统本地存储 OSSV

FC 交换机 千兆以太网交换机

SnapShot &SnapRestore

FAS940C( 计算中心 ) NearStore R200( 图书馆 )

SnapVault

SnapMirror

OSSV

备份服务器校园网

人员配置

运行工作不能够因为某个人员的缺失而影响日常的运行

要有合理的分工,明确的职责

人员的配置 角色划分

机房管理员、网络管理员、存储管理员、系统管理员、数据库管理员、应用管理员、用户服务、技术支持等多种角色

每个角色都有 A 、 B角设置 建立合理的梯队,降低运行中的人工成本

提 纲

建设需求的提出无单点故障运行环境的建设成果经验与体会

经验和体会 无单点故障的运行环境是信息化发展到一定

阶段的结果; 在建设过程中可以分阶段进行,解决运行工

作中急需解决的问题; 量力而行,要综合考虑自己学校的经费、人

员等各方面的因素,寻求最适合自己学校的模式;

在进行运行环境的改造过程中,要全面规划、分步进行,做好准备工作,保证切换的成功。

谢谢大家! [email protected]