校园数据中心高可靠性网络的研究与实现.
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
校园数据中心高可靠性网络的研究与实现
沈立强吴海燕戚丽
(清华大学计算机与信息管理中心,北京100084)
mail:slq@
摘要:校园数据中心是数字校园的核心,无单点故障的、高可用性网络的建设至关重要。本文以清华大学校园数据中心的网络建设为实例,探讨如何设计数据中心的网络设计方案以保证网络的高可靠性,做到任何单个交换机或单条链路的故障都不会影响网络的连通性,更不会导致整个网络的瘫痪,从根本上解决数据中心面临的风险。
关键词:校园数据中心高可靠性网络单点故障AFT VRRP
the research and implementation of a high available network
of university data center
Shen Liqiang Wu Haiyan Qi Li
(Tsinghua University, Beijing 100084)
mail:slq@
Abstract:University data center (UDC) is the heart of digital university, so the building of single failure free, high available network is of the top importance. Based on Tsinghua University UDC network building practice, this paper discusses how to design UDC’s network building plan to achieve network’s high availability, to ensure that any failure of single switch or link will not impact network connectivity, not saying result in the paralysis of the whole network. By this way, totally reduce UDC’s network risk.
keyword:university data center high available network single failure AFT VRRP 1.前言
清华大学在教育信息化建设方面经过十余年艰苦努力,尤其在启动“211工程”之后,逐步建成了综合信息服务系统、办公自动化系统、综合教务系统、网络教学系统、财务工资管理系统和开放实验室综合管理系统等多个应用系统,数据中心为上述应用系统提供了完善的网络和运行环境,并承担了所有应用系统的运行和维护任务。目前数据中心内有各类服务器80余台,几乎所有应用系统的关键数据都存放在数据中心,数据中心与各个业务部门之间的保持着频繁的重要通讯。
为了保证数据中心的高可用性,达到7*24小时不间断服务的目标,一个全冗余、无单点故障的网络就成了数据中心的基础。为实现路由冗余,可以采用VRRP协议;为实现交换机的冗余,可以采用SPT协议;为实现链路冗余,可采用link-aggregation技术等。本文以清华大学数据中心的网络建设为实例,探讨如何设计数据中心的网络设计方案以保证网络的高可靠性,做到任何单个交换机或单条链路的故障都不会影响网络的连通性,更不会导致整个网络的瘫痪,从根本上解决数据中心面临的风险。
2.清华大学校园数据中心结构
目前,清华大学校园数据中心的交换机有华为Quidway S8016、神州数码DCRS7504、Extreme Alpine 3808、Extreme Summit 48,Quidway S3050,S3026等。通过采用硬件上的冗余,包括交换机的冗余、交换机之间链路的冗余和服务器网卡的冗余等,基本实现了网络的高可靠性,消除或部分消除了网络的单点故障。
数据中心的网络拓朴结构如图1所示。
图 1 数据中心网络拓扑结构
3.清华大学校园数据中心网络可靠性分析
一个高可靠的网络应该是全冗余、无任何单点故障的。下面我们根据图1的网络拓扑,从网络设备、通信链路两方面来分析清华大学校园数据中心网络的单点故障情况。
3.1网络设备的可靠性分析
(1) 中心路由交换机
中心路由交换机采用的是华为公司高端千兆路由交换机Quidway S8016。S8016的主控板、交换网板、路由处理系统、电源系统等所有关键部件都采用了冗余热备份设计,其路由转发处理引擎采用分布式结构,因此,S8016本身不存在单点故障。
数据中心采用了两台三层交换机作为中心路由交换机,同时,通过在两台中心路由交换机上运行VRRP(虚拟冗余路由协议)协议来为服务器提供一个唯一的默认网关。
当任何一台中心路由交换机发生故障时,通过VRRP协议,另一台中心路由交换机立即接管所有的工作,同时更新路由表,并通过动态路由协议通知校园网端的路由器更新相应的路由表。
我们先介绍VRRP相关的部分术语:
VRRP路由器—任何运行VRRP协议的路由器或设备;
虚拟路由器—一个运行VRRP协议的逻辑路由器,用来给一个网络的主机提供路由服务。一个虚拟路由器包括一个虚拟路由标识符VRID和一组IP地址,在物理上至少
由两台或两台以上的VRRP路由器构成;
主虚拟路由器—给虚拟路由器提供IP包转发和进行相应ARP应答的VRRP路由器;
备份虚拟路由器—当主虚拟路由器失败时,能自动代替主虚拟路由器工作的VRRP路由器;
虚拟路由器的MAC地址—虚拟路由器的MAC地址格式为:00-00-5E-00-01-{VRID},其中:
—00-00-5E 是生产厂家的唯一标识号;
—00-01 是一个常量,该地址块保留给VRRP协议;
—{VRID} 是VRRP虚拟路由器标识。在一个网络中最多可以有255个虚拟路由器。
在清华大学校园数据中心有多个子网接入校园网,图1中仅画出了两个子网Net1和Net2。图1中SW1到RTA的实线表示RTA作为Net1的主虚拟路由器,SW4到RTB 的实线表示RTB作为Net2的主虚拟路由器;SW3到RTA的虚线表示RTA作为Net2的备份虚拟路由器,SW2到RTB的虚线表示RTB作为Net1的备份虚拟路由器。这样,一方面既实现了冗余的路由备份,另一方面又实现了负载的分担,避免了所有的负载集中于一个VRRP路由器。
下面我们以Net1为例来分析一下VRRP的工作过程。简化后的网络拓扑见图2,图2中的IP地址配置仅为示例,不代表目前清华大学校园数据中心实际使用的IP地址。
图 2 Net1的VRRP协议配置
通过在RTA和RTB上启用VRRP协议,使RTA和RTB都成为VRRP路由器,正常情况下RTA和RTB通过Net1定期交换Hello报文以确定主虚拟路由器和备份虚拟路由器。一旦备份虚拟路由器在规定的时间内没有从Net1收到主虚拟路由器发送的Hello 报文,将自动变为主虚拟路由器,接管原主虚拟路由器的所有工作。这个时间很短,一般小于3秒,因此,用户基本上感觉不到该切换。当然,在切换过程中可能会发生短时间内网络路由不正确和少量IP报文丢失,通过TCP的重传机制将保证端到端数据的正确性。
当Net1中的主机要向Net1以外的网络发送IP报文时,先进行ARP广播,请求网关(10.0.1.1)的MAC地址。RTA和RTB都收到了该请求,但只有主虚拟路由器响应该ARP请求,并以虚拟路由器MAC地址00-00-5E-00-01-11进行应答。主机将IP报文以00-00-5E-00-01-11为目的MAC地址封装在以太网的帧中进行发送,主虚拟路由器接收该帧并基于IP进行报文转发。