数据备份和容灾需求分析
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
数据备份和容灾需求分析
数据备份和容灾需求分析
现在无论企业网络规模大小,我们都建议有一个完善、适用的数据备份和容灾方案,因为现在的网络安全形式太严峻了,网络安全威胁无时无刻都存在着。
但是,对于国内许多企业老总和网管员来说,对数据备份和容灾的认识还相当不够,这可以从我们专用群中的几百位网管员经常向我报告说他们的数据损坏或丢失了无法修复的现象中得到证明。
1.数据备份的意义
目前,从国际上来看,以美国为首的发达国家都非常重视数据存储备份技术,而且将其充分利用,服务器与磁带机的连接已经达到60%以上。
而在国内,据专业调查机构调查显示,只有不到15%的服务器连有备份设备,这就意味着85%以上的服务器中的数据面临着随时有可能遭到全部破坏的危险。
而且这15%中绝大部分是属于金融、电信、证券等大型企业领域或事业单位。
由此可见,国内用户对备份的认识与国外相比存在着相当大的差距。
这种巨大的差距,也就体现了国内与国内经济实力和观念上的巨大差距。
一方面,因为国内的企业通常比较小,信息化程度比较低,因此对网络的依赖程度也就小许多。
另一方面,国内的企业大多数是属于刚起步的中小型企业,它们还没有像国内一些著名企业那样丰富的经历,更少有国外公司那样因数据丢失或毁坏而遭受重大损失的亲身体验。
其实这都是错误的,因为现在的经济环境与几年前都有着天壤之别,更别说与之前的十几年,甚至几十年相比了。
在现在的社会网络大环境中,即使是小型企业也可能有许多的工作通过网络来完成,也必将有许多企业信息以数据的形式而保存在服务器或计算机上。
它们对计算机和网络的依赖程度必将一天天加重。
由此可见,无论是国内的大型企业,还是占有绝大多数的中小型企业,都必须从现在起重视数据备份这一项我们以前总认为“无用”的工作。
一旦等到重大损失出现,再来补救就为时已晚了。
前车之鉴,希望我们能够吸取。
根据3M公司的调查显示,对于市场营销部门来说,恢复数据至少需要19天,耗资17000美圆;对于财务部门来说,这一过程至少需要21天,耗资19000美圆;而对于工程部门来说,这一过程将延至42天,耗资达98000美圆。
而且在恢复过程中,整个部门实际上是处在瘫痪状态。
在今天,长达 42天的瘫痪足
以导致任何一家公司破产,而唯一可以将损失降至最小的行之有效的办法莫过于数据的存储备份。
其实数据备份并不是“无用”,而是有相当大的作用,它可以在一定程度上决定了一个企业的生死。
2.数据破坏的主要原因
了解了数据备份的意义后,我们再来了解一下可能性造成数据被破坏的一些主要因素。
虽然我们不可能全面避免这些不利因素的发生,但至少我们可以做到有针对性的预防。
而且有些主观上的因素还是可以尽量减少的。
目前造成网络数据破坏的原因主要有以下几个方面:(1)自然灾害,如水灾、火灾、雷击、地震等造成计算机系统的破坏,导致存储数据被破坏或丢失,这属于客观因素我们无能为力。
(2)计算机设备故障,其中包括存储介质的老化、失效,这也属于客观原因,但可以提前预防,只需经常做到维护,就可以及时发现问题,避免灾难的发生。
(3)系统管理员及维护人员的误操作,这属于主观因素,虽然不可能完全避免,但至少可以尽量减少。
(4)病毒感染造成的数据破坏和网络上的“黑客”攻击,这虽然也可归属于客观因素,但其实我们还是可以做好预防的,而且还有可能完全避免这类灾难的发生。
3.有关数据备份的几种错误认识
在一般人脑海里,往往把备份和拷贝等同起来,把备份单纯看做是更换磁带、为磁带编号等一个完全程式化的、单调的操作过程。
其实不然,因为除了拷贝外,还包括更重要的内容,如备份管理和数据恢复。
备份管理包括备份计划的制订,自动备份活动程序的编写、备份日志记录的管理等。
事实上,备份管理是一个全面的概念,它不仅包含制度的制定和磁带的管理,而且还能决定引进备份技术,如备份技术的选择、备份设备的选择、介质的选择乃至软件技术的挑选等。
也有不少人往往也把双机热备份、磁盘阵列备份以及磁盘镜像备份等硬件备份的内容和数据存储备份相提并论。
事实上,所有的硬件备份都不能代替数据存储备份,硬件备份只是拿一个系统、一个设备等作牺牲来换取另一台系统或设备在短暂时间内的安全。
若发生人为的错误、自然灾害、电源故障、病毒侵袭等,引起的后果就不堪设想,如造成所有系统瘫痪,所有设备无法运行,由此引起的数据丢失也就无法恢复了。
事实证明,只有数据存储备份才能为人们提供万无一失的数据安全保护。
还有一种就是把数据备份与服务器的容错技术混淆起来,这也是错误的。
数据备份指的是指数据从在线状态,分离存储在离线的存储媒体的过程,这与服务器高可用集群等容错技术有着本质区别。
虽然从目的上讲,这些技术都是为了消除或减弱意外事件给系统带来的影响,但是,由于其侧重的方向不同,实现的手段和产生的效果也不尽相同。
容错的目的,是为了保证系统的高可用性。
也就是说,当意外发生时,系统所提供的服务和功能不会因此而中断。
对数据而言,容错技术是保护服务器系统的在线状态,不会因单点故障而引起停机,保证数据可以随时被访问。
备份的目的是将整个系统的数据或状态保存下来,这种方式不仅可以挽回硬件设备损坏带来的损失,也可以挽回系统错误和人为恶意破坏的损失。
然而,一般来说,数据备份技术并不保证系统的实时可用性。
也就是说,一旦意外发生,备份技术只保证数据可以恢复,但是恢复过程需要一定的时间,在此期间,系统是不可用的。
而且系统恢复的程度也不能保证是系统破坏前的即时状态,通常会有一定数据丢失的损坏,除非是进行了不间断的在线备份。
通常在具有一定规模的系统中,备份技术、服务器容错技术互相不可替代,但又都是不可缺少的,共同保证着系统的正常运转和数据的完整。
虽然在Microsoft公司的网络操作系统中都集成了数据备份功能,而且功能还比较强大,完全可以满足中小型企业需求,但是对于在数据备份和容灾方面需求较高的企业用户来说,Windows网络操作系统的“备份”工具是远不能满足企业需求的,至少它不能进行网络备份,也不支持像磁盘塔、光盘共塔等大型数据备份系统,也不提供远程镜像、快速复制、在线备份等功能。
所以这些企业用户至需求选择一些专门的第三方数据备份和容灾系统。
当然这个选择也是要有依据的,并不是所有第三方备份系统都适合自己用户的需求。
选择的考虑方面主要是价格、功能模块和售后服务等几个方面。
问:我想知道容灾具有哪些分类?
答:容灾,指的是保护用户的应用和数据不受故障、灾难影响,确保持续使用。
容灾的分类:
容灾从应用上来说,分为:在线实时容灾;离线容灾;
从距离上分为:本地容灾;异地容灾。
因此,也可以这样分为:本地离线容灾;本地在线容灾;异地离线容灾;异地在线容灾。
从容灾效果上来说,这四种方式的容灾效果是由低到高。
在实际的应用中,用户可以根据自己的硬件环境、需要选择不同的方案。
备份容灾一体化方案的五大核心技术
一直以来,企业在建立备份与容灾系统时,通常既要考虑建立代价不菲的备份系统以应付不测,同
时又要考虑建立容灾系统以抗衡大型灾难的发生。
然而,在经历过无数次‘恢复失败’后,人们发现,在传统的备份与容灾技术手段下,即使投入了昂贵的成本,在各类灾难发生时,备份系统消耗了冗长的恢复时间,却还是不能保证最少的数据丢失;容灾系统也带来很多烦恼:数据丢失后不可恢复、难以进行容灾演练、灾备中心的应急效率低等等。
飞康CDP是基于磁盘的、新一代备份与容灾一体化解决方案,卓越的将文件/数据库/操作系统的实时备份与瞬间恢复;可随时验证、演练的本地/异地容灾两大功能全面整合。
飞康CDP备份/容灾一体化解决方案,真正以快速恢复服务为第一目标,无论用户的应用服务器发生任何意外,例如,恶意的程序破坏、文件损毁、人为误删误改、操作系统宕机、硬件故障,甚至整个机房毁于意外,在飞康CDP的全面保护下,都能最大程度的保证企业数据丢失最少(RPO),业务中断时间最短(RTO)。
飞康CDP备份容灾一体化方案,通过5项核心的先进技术,为用户关键业务系统与数据提供了最全面的保护机制和最快速的恢复能力。
存储虚拟化技术
飞康CDP以完全开放的飞康IPStor虚拟化平台为核心,利用虚拟化存储技术将所管理的所有存储设备逻辑化后,并通过统一介面进行管理,面向应用主机层屏蔽所有存储设备的硬件特性,仅仅只提供统一的逻辑化特性,从而实现了卓越的存储整合和集中管理等功能。
多时间点自动连续快照技术
TimeMark 多时间点的自动连续快照技术,是飞康CDP非常重要的功能之一,它使用户的业务系统能够在较短时间间隔下保存各个时间点的历史数据版本。
飞康CDP能够针对每个应用卷提供多达255个历史版本,高密度的快照视图可保证将系统的RPO(动态及静态)降到最低范围。
一旦发生任何类型的数据丢失,维护人员都可以找到最近的数据版本立即进行恢复。
而且,快照恢复与数据量无关,无论多大的数据量提取也仅仅在一分钟内的事情。
TimeMark 快照机制是利用已优化的高效快照技术,对每个时间点已被改变的数据块都完整保存,一旦需要系统回退到某一时间点时,TimeMark可以立即通过 TimeView的接口工具快速将这一历史点的数据指针提取出来,从而实现历史数据的瞬间映射和恢复机制。
TimeMark快照机制在容灾备份体系中,可以轻松、快速地实现数据库数据、文件数据、系统数据等各种数据类型的时间点即时恢复,同时也能辅助生产数据的提取、分析及查询等功能应用。
飞康CDP还提供了一种基于连续IO记录日志技术,以精细化数据历史版本,称为CDP Journal。
用户可以通过简单的界面,任意拖运时间拉杆,或根据数据访问流量图等找到任何可能的故障起因时间点,
然后将数据恢复到任何一个秒级时间点。
数据库一致性确认技术
数据库系统在远程容灾应用中,具有一定的特殊性要求。
传统存储设备的远程复制技术,实现的是磁盘所存储的数据的远程同步,但是,对于一个实时运行的健康数据库系统,它并不能实时的将已提交的数据刷新到磁盘上(数据库采用了缓存机制确保交易性能,向数据文件的写入往往会比缓存的写入略有滞后),这样远程的数据库系统在启动时,往往需要通过日志的重构方法,才能进行数据库的有效恢复;消除了由于一致性的问题有可能导致数据库缺失立即恢复的能力,使灾难发生时的快速恢复目标完全无法实现。
飞康CDP的远程复制技术,集成了能够感知数据库系统的DB Agent技术,能够在指定的快照点和复制点产生的数据库副本创建一个完整的时间点,从而确保数据库日志与数据文件的一致性,以实现快速启动数据库的恢复目标。
这种针对数据库系统的解决方案,能真正的将使灾备体系与应用的数据库体系结合起来。
磁盘读/写优化技术
飞康CDP的SafeCache技术可以全面提升所管理的磁盘的写入性能。
当磁盘性能无法满足主机的I/O 需求时,使用SafeCache配合高速磁盘设备可以明显改善整体性能。
SafeCache的原理是:将高速磁盘设备置于“前端”,生产数据可以先顺序的写入到高速磁盘设备中,然后按照SafeCache设置的策略(基于Cache容量或基于时间),将Cache中的数据再随机写入到后端存储中。
飞康CDP的HotZone技术则可以全面提升所管理的磁盘的读性能。
使用HotZone时,飞康CDP会将磁盘划分为容量相等的多个区域,然后监控哪些区域经常会被读到,随之将该区域的数据块映射到高速磁盘中,这样就会提高应用主机读取磁盘的速度。
如果飞康CDP监控到某些区域不再经常被读到,则会将该区域移出高速磁盘。
WAN优化的复制技术
飞康CDP的复制策略非常灵活,包括连续复制与定时复制,无论哪种复制策略,都是基于增量的,只将发生变化的数据块传输到远端。
用户可以设定一种或多种策略,飞康CDP可以根据带宽情况自动或手动的在多种复制策略间进行切换。
通常在宽带的远程传输系统中,可以采用连续方式传输,而在常规的广域网络中,则建议采用定时方式。
飞康CDP的远程复制是直接经由TCP/IP WAN传输数据,相比于传统容灾技术中的磁盘阵列复制经WAN
专线传输(必须搭配一对非常昂贵的网关转WAN),使建设、管理与维护成本大幅降低。
飞康CDP的复制技术还利用了专利的精简式传输技术MicroScan技术按512字节为最小单位扫描磁盘变化并只传输变化的数据,从而大大节省了广域网络的传输带宽。
在多个实际应用项目中,飞康CDP
的远程容灾传输占用的带宽极小,一般只需传统容灾技术带宽的1/50到1/5。
选择合适的三种远程容灾方式
在信息系统普遍成为企业运营命脉的今天,通过构建远程容灾机制来保证业务持续性,已得到企业管理者们普遍的认可。
然而,远程容灾技术的类型众多,且架构大多十分复杂,不但投入的软硬件设备与时间成本庞大,后续的维护成本也高得吓人,因此,尽管有意构建者众多,但大都踌躇不前。
以备份磁带为基础的远程容灾,是目前企业广泛采用的方式,管理者只需定时将数据备份到离线的磁带,再通过人力运送到远程保存即可,一旦有灾难发生,要先将IT设施修复,再从磁带中恢复系统和数据。
这种远程容灾的方式虽然成本最低,但冗长的恢复时间(通常需要数天甚至数周)所造成的运营损失,以及备份/恢复时间的非实时性所造成的数据丟失,显然已经超出了现今企业所能忍受的范围。
理想的远程容灾架构,应该是以无限的广域网络为基础,通过远程的数据复制(Remote Replication)技术进行的在线(on-line)异地容灾,这样才能符合企业RTO与RPO的要求。
通过网络的连接,将本地端的数据复制一份到远程保存,听起来似乎不难,但在复杂的IT架构下,要想成功实现确也并不容易。
经过数年的技术发展,在线远程容灾产生出了以下两种类型:主机型(Host based)和存储系统型(Storage based)。
主机型远程容灾:局限性很大
主机型远程容灾,简单的说,就是通过安装在服务器的数据复制软件(如Veritas Volume Replicator),或是应用程序提供的数据复制/灾难恢复工具(如Oracle Flash Recovery Area),利用TCP/IP网络连接远端的容备服务器,以异步方式进行数据复制。
主机型远程容灾的优点是在服务器较少的环境下,所需的成本较低,用户不需更换太多现有的系统架构,也不用担心后端存储系统的兼容性问题,只需支付软件的授权费和灾备端的硬件设备费用即可。
但如果是服务器数量较多的环境,管理上的复杂程度就会增加,整体的投入成本也会增加。
它的另一个
缺点是软件安装在应用程序主机上,运行时会消耗主机的运行资源,如果硬件的等级不高,就可能给应用程序带来影响。
大型综合布线系统的灾难备份(一)
综合布线系统自出世以来,一直是以高可靠性为核心焦点,它不惜为每一台电脑敷设一根双绞线这样的星型结构取代廉价的同轴电缆构成的总线型结构,使一根线发生故障所造成的信息中断仅限于一台电脑,使其他电脑依然能够正常工作。
从这一角度来看,综合布线系统的最大亮点之一就是解决了总线型网络结构中始终无法回避的故障环境下的信息传输问题。
随着智能建筑的规模越来越大,数据主干的星型结构就成为抵御故障的最大难点,为了解决这一问题,在近几年颁布的各种综合布线标准中,冗余型布线系统的拓扑结构已经成为基本的拓扑结构之一。
在软件部分,在系统结构部分,国家已经出台了大量的灾备方面的标准,但在综合布线方面,至今能看到的仅仅是欧洲综合布线标准中有关线路冗余的相关内容,而对于线路的外部保护则没有配套的介绍。
本文将使用冗余型布线技术,对灾难来临时面对着强烈冲击破坏、伴随着火灾的环境,依然要保证部分乃至大部分信息传输依然保持正常工作,提出自己的思考和观点。
假设:某一建筑物高8层(含地下层),总建筑面积为48万平方米,其中有1个核心层交换机机房(假设为CD,是该建筑的信息机房,摆放有大量的服务器)、3 个汇聚层交换机房(假设为BD),而接入层机房(楼层弱电间,FD)则呈菱形结构分布,共有36个弱电间(理想值:弱电间分布在1层、4层和7层,每层 12个),每个弱电间管辖800个六类信息点,其中500个为数据点,使用1U48口网络交换机。
该建筑对外有2个进线间,同时在同城的另一个地方,有一个异地备份机房,必要时可以承担核心层交换机房的功能。
进一步假定是:各汇聚层机房可以通过桥架贯通、每层楼的各FD之间因同处一个楼层,也可以使用桥架贯通。
按正常的综合布线设计方法,它的拓扑结构应该是:
图1 传统综合布线系统拓扑图
作为传统的布线设计,到这一步拓扑结构的设计已经完成,后续所需的仅仅只是计算具体的参数。
但作为面向灾难备份的布线系统,规划才刚刚开始。
随着2001年的911事件和2008年的512地震,人为灾难和自然灾难都已经开始成为人们注意的焦点。
在中国,自从512地震以后,建筑物设计中的冗余和灾难备份成为各设计单位的重要设计工作。
自然,综合布线系统在灾难备份中能够发挥什么样的作用,也就成为综合布线规划设计人员应该考虑的问题。
在本文中,对于灾难备份的考虑分为两个部分:信息传输的冗余备份、局部撞击和局部起火所引发的线路保护。
常规的综合布线系统结构对由人为灾难引起的整栋建筑物或建筑群危害是无能为力的。
综合布线系统的灾备设计所需要考虑的主要问题是:因灾难原因引起的电源断电、爆炸引起的冲击波和局部火灾、桥架断裂等等对信息传输的局部危害。
为了解决这个问题,就需要从信息传输的拓扑结构和外部保护两方面共同进行。
其中,拓扑结构应采用冗余备份结构,而外部保护在从关键缆线的路径上予以保护。
线路冗余
作为一栋大型建筑的正常信息传输而言,综合布线系统的多级星型结构和冗余结构已足以满足其安全性要求。
当然,对于谁都不希望出现的天灾人祸降临在CD主机房或BD机房,则现有布线结构还是难以抵挡。
在2007年颁布的欧洲综合布线标准:《信息技术:综合布线系统第2部分:办公建筑》(EN 50173.2-2007)第4.7节中,提供了冗余布线的拓扑示意图(因比较简单,没有译成中文):
图2 冗余结构的布线拓扑示意图(引自EN 50173.2-2007图8)
对于线路安全而言,冗余是一种非常理想的方案,同时也是在许多中、高等级的综合布线系统中经常采用(或部分采用)的方案。
外部保护
借助于桥架种类、多路径、安装位置、缆线的护套材料、场地等方式对信息传输缆线进行保护。
回到图1的综合布线结构,摆在规划设计者面前可能出现的灾难及解决办法有:
1. 每个楼层配线架FD通往汇聚机房BD的光缆桥架损坏
每个楼层配线架FD通往汇聚机房BD的光缆桥架可能会损坏,导致其中的光缆损坏,造成相应的楼层配线架对外传输中断。
从冗余角度看,如果采用两根桥架,经过两个不同的路径通往两个汇聚机房BD是最佳的选择(参见图3)。
如果都做不到,那采用两根光缆取代一根光缆也是一个可以选择的构思(参见图4)。
图3 综合布线拓扑结构示意图(FD至BD之间为双路径冗余)
图4 综合布线拓扑结构示意图(FD至BD之间为单路径冗余)
图 3和图4的差异有两个,一是图3的两根光缆分别进入了两个汇聚层机房BD,图4的两根光缆则全部进入了同一根汇聚层机房BD,所以一旦其中一个汇聚层机房发生故障,在图3依然能够保持工作,图4将陷于瘫痪;二是图3的两个路径是分开的,其中任何一路发生故障,都不会影响信息传输,而图4是在同一个桥架中敷设两根首尾相同的光缆,所以它属于最简单、最低等级的冗余设计。
如果条件允许,可以在图3和图4的两个极端冗余设计中选择一个性能价格比、符合现场实际情况的冗余方案。
这些方案中包括:
1) 两根光缆沿两个桥架敷设至两个不同位置的上级机房(参见图3);
2) 两根光缆沿两个桥架敷设至两个不同位置的上级机房,并在这两个不同位置的上级机房之间敷设光缆,最终将两根光缆的末端延伸至同一个上级机房(参见图5);
图5 综合布线拓扑结构示意图(FD至BD之间为单路径冗余)
3) 两根光缆先合并沿一个桥架,然后分开两个桥架敷设至两个不同位置的上级机房;
4) ……;
5) 两根光缆分别经两个桥架敷设至同一个上级机房;
6) 两根光缆沿一个桥架敷设至同一个上级机房(参见图4)。
2. 汇聚机房BD、进线间至核心机房CD之间的光缆桥架损坏
当汇聚机房BD和进线间至核心机房CD之间的光缆一旦损坏,所造成的该汇聚机房所属的所有FD都将失去信息传输,或者是使本身已经形成的双冗余系统被破坏。
所以这些光缆的重要性远高于FD至汇聚机房BD之间的光缆。
典型的汇聚机房、进线间至核心机房之间冗余光缆的拓扑结构可以参见图2,对于图5反映的系统逻辑图,要构成冗余结构,则只能选择两根光缆分别走两个桥架到达核心机房CD的方式(参见图6)。
图6 汇聚机房、进线间至核心机房的综合布线拓扑结构示意图
3. 汇聚机房BD损坏
汇聚层机房在大型建筑物中是最基本的信息机房之一,它一旦发生故障,可能会导致FD至汇聚机房、汇聚机房至核心机房之间的信息传输全部中断或部分中断。
在图6中,如果在常规拓扑结构下BD2损毁,将导致BD2所属的12个弱电间(FD13~FD24)信息传输中断。
比较理想的解决方法是采用冗余方案:12个弱电间分设2根光缆,途径两个桥架,敷设到两个汇聚机房中(参见图3、图5和图6)。
作为一间机房,还需要从光缆的外部保护角度分析光缆在受到外力是可能损伤的程度,我们所希望的是尽量保持光缆不被破坏。
为此,可以例举几种保护光缆的方法:
使用全封闭金属桥架(带耐火内胆,即耐火桥架)。
全封闭金属桥架可以全方位的保护光缆不受外力的打击,耐火内胆可以有效的防止因外力造成的损坏所引发的火焰和高温破坏光缆;
使用耐火光缆。
在灾难来临时,往往会伴随着火灾,这是需要考虑的问题就引伸到火场附近、没有被火焰吞噬的网络设备和服务器是否还能够进行工作的问题。
对于不重要的机房而言,火灾发生的同时,外部供电系统将立即切断,而UPS供电则根据业主方的要求分别有切断和不切断两种方案。
对于重要的服务器而言,它将工作到“生命”的最后一刻。
另外,机房内的灾备机柜内也用于保护服务器和网络设备,但它对外的信息传输和供电(也可以使用机柜内的内藏UPS供电)则依然暴露在火场中。
如果要求保证这些没有被烧着的服务器和网络设备接续工作,。