17、清华大学数据中心无单点故障运行环境建设

Download Report

Transcript 17、清华大学数据中心无单点故障运行环境建设

清华大学数据中心
无单点故障运行环境建
设
清华大学计算机与信息管理中心
戚丽
[email protected]
二○○六年五月
提 纲
建设需求的提出
无单点故障运行环境的建设成果
经验与体会
清华大学数据中心的建设过程
2001年5月,成立了数据中心
职能:
1. 整合资源,减少学校在运行环境、维护人
员等方面的重复投资
2. 集中负责系统的运行与维护,提高系统的
可用性、可靠性及安全性
3. 数据集中存放与管理,是数据共享与交换
的集散地,利于系统的整合和信息的整合
清华大学数据中心的建设过程
 2001年,运行环境的基本建设
2001年重点进行运行环境的基本建设,进行了
机房改造、电源、空调的改造等工作,到年底,
基本建成了一个比较专业的机房。
清华大学数据中心的建设过程
 2002年,网络安全建设及服务器结构调整
2002年开始了以数据中心为核心辐射学校关键职
能部门的的安全防范体系的设计和建设,2005年
完成。
 服务器结构开始三层架构的调整,2003年初步完
成。2004年根据应用的情况及资金情况,在划分
为三层结构的基础上,将服务器划分组,每组设
置一台冷备的服务器,提高服务器的可用性。

清华大学数据中心的建设过程
 2003年,“数据库年”
重点对数据库的结构、数据库的布局、数据
备份的策略等进行研究,并根据实际情况对
数据库进行调整。
清华大学数据中心的建设过程
 2004年,存储、备份、容灾的研究和实施
存储局域网的建设,为服务器建立群组打下了
基础。
 2005年,运行服务体系的建立
进入了运行与建设并重的阶段
需求的提出
运行的应用系统数量不断增加
 各部门对应用的依赖程度越来越大
 对运行服务的要求也不断提升
-应用系统的可用性: 7×24小时的不间断服务
-数据的安全性
-运行的效率

从2004年年底开始了无单点故障的运行环境建设
目标
消除运行环节的单点故障
提高应用系统的可用性
提 纲
建设需求的提出
无单点故障运行环境的建设成果
经验与体会
建设内容
 基础建设:电源、空调、机房
 网络建设
 服务器结构调整
 数据库
 存储
 人员的配置
基础建设
供电系统
1)双路供电到机柜,保证采用双电源的设备有
两路可用电源;
2)UPS系统有冗余设计,提高供电系统的可靠性
空调
要有冗余设计,保证机房温度不会受某个空调的
故障而升高
布线
使每个机柜的电源线和预留的网线能够满足电源、
网络的冗余设计。
基础建设
 电源:
1)新增加了100KVA的UPS,和原有的80KVA的UPS形成双路
供电到机柜。
2)预留出柴油发电机的接口。
 空调:
增加了两台45kw制冷量的专业机房空调,替换了
部分小空调,能够满足机房今后3年的发展。
 机房布线:
为配合网络、电源的改造,将机房的网线重新布
置,服务器位置进行了调整,使之满足网络、电
源的冗余要求。
机房的线架
UPS
空调
高可靠的网络
建立全冗余、无单点故障的数据中心网络,
以保证数据中心网络的高可靠性,使得任何
单个交换机或单条接入校园网链路的故障都
不会影响网络的连通性,更不会导致整个网
络的瘫痪。
高可靠的网络
TUNet
TUNet
OSPF
GW
SW2
VRRP
(GW’)
GW
SW2
AFT
AFT
AFT
高可靠的网络
2006年2月,新旧网络切换,实现了:
– 将入口防火墙(带路由功能)、服务器出口网
关路由器组成一个OSPF域,实现了三层路由
冗余;
– 实现了服务器子网的出口网关冗余;
– 实现了接入交换机的冗余;
– 实现了部分重要服务器的双路网卡上连;
服务器结构调整


根据应用的重要程度将服务器分级。
根据服务器的级别,采用不同的技术手
段,设置不同的服务器冗余度,使
之能
够在容许的停运时间内进行硬件切
换。
服务器结构调整
 服务器分级
根据服务器运行的应用的级别,划分服务器
的级别,分别划分为A1、A2、B、C四个级别;
 服务器分组
根据运行的操作系统、软件环境分为不同的组
每个组根据服务器的级别确定建设模式
 研究负载均衡技术,对部分服务器进行了调整。
数据库
数据库硬件结构要能够保证不会由于某 个
环节的单点故障导致数据库的停止服务;
数据库的布局要易于管理
数据库
 采用ORACLE10G
RAC软件
 硬件部分采用多台服务器作为服务器群组
 数据库将使用一个物理的数据库
 目前已经完成部分数据的迁移工作
数据库结构示意图
CIC Switch
CIC Switch
Interconnect Switch
Sun V490
Sun V490
Sun V490
Sun V490
FC Switch
FC Switch
NetApp
940c Node2
NetApp
940c Node1
图: Oracle 10g RAC全冗余设计
Interconnect Switch
存储



数据集中存储是建立无单点故障运行环
境的基础
建立存储局域网
提高存储设备的可用性和安全性
存储
 IP
SAN、FC SAN相结合
 将存储、备份及数据容灾统一考虑,形成比
较完整的数据存储、备份、容灾解决方案
FC SAN应用集中存储
SnapDrive
iSCSI应用集中存储
FC 交换机
SnapDrive
NAS应用集中存储
(CIFS/NFS)
开放应用系统本地存储
OSSV
千兆以太网交换机
校园网
备份服务器
SnapVault
灾备存储网
SnapShot
&
SnapRestore
以太网
iSCSI
FC SAN
SnapMirror
FAS940C(计算中心)
NearStore R200(图书馆)
人员配置
 运行工作不能够因为某个人员的缺失而影响
日常的运行
 要有合理的分工,明确的职责
人员的配置

角色划分
机房管理员、网络管理员、存储管理员、系统管
理员、数据库管理员、应用管理员、用户服务、
技术支持等多种角色


每个角色都有A、B角设置
建立合理的梯队,降低运行中的人工成本
提 纲
建设需求的提出
无单点故障运行环境的建设成果
经验与体会
经验和体会
 无单点故障的运行环境是信息化发展到一定
阶段的结果;
 在建设过程中可以分阶段进行,解决运行工
作中急需解决的问题;
 量力而行,要综合考虑自己学校的经费、人
员等各方面的因素,寻求最适合自己学校的
模式;
 在进行运行环境的改造过程中,要全面规划、
分步进行,做好准备工作,保证切换的成功。
谢谢大家!
[email protected]