如何选择本地容灾技术和方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
如何选择本地容灾技术和方案
一、为什么需要容灾
为什么要建容灾呢?这是经济和社会发展来决定的。社会、经济、个人生活的发展需要各行各业提供高质量、高效率的业务或服务能力,在这个需求背景下企业陆续建设各信息化系统来提高自身的运作;信息化取代了原来的手工劳动,或者改变了原来的生产流程,或者创造了新的业务模式或商业模式,从而又推动了经济、社会的发展。当生产、工作、生活开始依赖这些IT系统时,一个新的行业和社会需求便产生了,这就是容灾行业。其目的是保障这些IT系统能够持续稳定的运行,从而保障这个企业持续正常的开展业务。国家为容灾这个行业制定了《信息系统灾难恢复规范》这个标准,同时也明确规定银行、电力、铁路、民航、证券、保险、海关、税务八大重点行业必需建设灾难恢复体系。
二、容灾行业的状况
1)容灾行业蓬勃发展
在国家和容灾厂商的推动下,容灾这个行业蓬勃发展。现状就是厂商很多,产品也很多。
但是,如同其他IT细分行业一样,容灾产品也是过剩的。存储厂商提供存储层的容灾技术和产品,如IBM、HP、EMC、HDS等等。这些一线的存储厂商提供的容灾产品主要用于高端行业。国外的、专业的备份软件大厂商提供基于软件的备份或容灾,如赛门铁克、飞康、CommVault等等,在传统备份软件领域,赛门铁克是老大,甚至老版本的Windows中集成了她的简化程序ntbackup。这些国外的软件厂商提供的产品主要用于中高端行业。国内也有很多,如浪擎等厂商,各有各的技术和产品。另外,数据库厂商都会自带定时备份技术,可设置定时调度策略来定时备份数据。
2)选择本地的、实惠的容灾
完全按照国标规定的七个要素来建设,资金、人力投入太大。因此,在实际的建设过程中,企业更多的选择还是不同机房的、不同楼层或楼宇的本地容灾。目的是防备软硬件故障、机房停电、中毒、人为误操作等等更加常见的破坏因素,或者准备一套备用系统用于例行维护使用,或者实现生产、查询相分离的业务建设。这样的建设目的非常实惠。本文所说的的灾难是主要指各种故障因素,因此本文所论述的容灾就是指本地容灾。
3)容灾技术指标RTO、RPO
容灾有两个非常重要的技术指标,RTO和RPO。理解起来很简单就是需要多少时间恢复业务系统和丢失多少的数据。从理论上讲,这两个指标越小越好,最好都是零。这两个指标不同的量级对应不同的投入成本和技术路线。就目前而言做容灾,要求RPO趋于零,RTO达到秒级或分钟级。
三、选择合适的容灾方案
容灾建设一般按照“统筹规划、资源共享、分批实施、平战结合”原则。考虑建设容灾的因素:
1)在选择合适的容灾要考虑投入成本和回报
对于银行、电信运营商、医疗、证券、电力、交通等行业而言,核心业务系统的数据对于企业的正常运行
至关重要,一旦数据大量丢失或业务长时间中断,造成的影响是无可估量的。而对于一般行业(例如中小企业),一方面受到资金投入、技术门槛、人员素质、管理及维护复杂度等因素的制约,另一方面发生灾难所带来的损失也不那么大,因此完全没有必要一味追求高的容灾建设等级,而是可以结合自身条件在等级一到等级五中进行选择。
除上述RTO和RPO两个技术指标外,用户还必需关注容灾方案的投入产出ROI(投入产出比),衡量用户的投入与从中所获得的收益的比率。表明上看,容灾系统不像其它业务系统那样会给用户带来直接的产出收益。但事实上,容灾系统确实是有收益的。容灾系统的收益主要来源于发生故障时为用户所挽回的损失,这种损失不只包括收入方面的,信誉、客户忠诚度、法律风险等方面的损失也包含在内。如果容灾系统能够把由于故障而导致的业务停止时间显著缩短,也就间接为客户创造了收益。
因此,从这些角度讲,选择合适的容灾技术路线,例如基于主机的应用层复制容灾方案显得更有优势,因为这类方案不仅能大幅降低容灾系统的初始部署成本,而且管理成本也相对要低很多。
2)不同业务系统采用不同的容灾技术、打组合拳
故障给不同类型的业务所带来的损失是不同的,因此不能采用一刀切的方式进行灾备系统建设,而是需要细致分析业务单位信息系统的重要程度,有效区分核心业务和非核心业务,并平衡业务系统的实际需求和总体成本的关系。
核心业务采用等级很高的容灾技术,例如医院的HIS、银行的“核心、授信、网银等交易系统、证券的核心交易系统等等,可采用实时复制、零恢复的技术等级;而另外一些非核心业务,如OA、报表统计等等,可暂缓考虑,或选择较低一个等级的技术。因此,用户在容灾建设时,需要根据业务系统重要性的不同,采用不同的容灾等级。
总而言之,在进行容灾建设规划时,单靠一种方案或一种技术是行不通的,为了实现多种等级容灾,需要有一个完整的容灾方案和技术体系作支撑。
3)按照“先本地、再异地”的由近及远原则建设
从投入成本和故障发生概率来考虑,可以先建设本地的容灾,在同一个机房不同的主机和存储上建设,或在不同的楼层建设一个备份中心,或在不同的楼宇建设一个备份中心。经济条件具备的,考虑同城建设一个备份机房。在实际的操作中,很多企业基本都会在本地建设一个高等级的、投入也不大的容灾,然后在分部或者同城其他地方再做一个异地备份。这样的建设方案投入不大、比较实惠。
4)“平战结合”、充分发挥容灾系统的作用
投入上百万的资金建设一套容灾,仅在自然灾难或其他软硬故障时发挥作用,或者软硬件放置在机房折旧贬值,没有几家公司的老板愿意这样做。
“平战”并不是狭窄的指在和平或战争条件,更广义的指在发生各种常见故障或者正常运行。那么,“平战结合”就是要充分发挥一套投入较大的容灾系统的额外价值。在容灾系统上部署一些供用户内部使用的业务系统,例如报表系统可以利用容灾数据库实现查询统计功能。
四、选择合适的技术路线——备端在线的更合适
选择技术路线在整个容灾建设尤其重要。技术路线基本决定了投入成本、所需技术支持力量、后期运营和维护工作量等等。
1)传统的数据备份技术不适合重要业务的容灾
传统的数据备份难于满足容灾的技术要求。虽说定时备份在一定程度上可以保证数据安全,但应用于容灾时却面临备份窗口大、备份间隔大、数据可恢复性差和恢复时间长、性能影响剧烈等众多问题,也不能满
同时,实时数据复制自身可能存在故障,备份系统提供一种补偿性的手段是值得的。那么完整的容灾方案中,这两种技术是并存的。
2)实时数据复制是构建容灾的基石
根据操作系统的I/O(读写操作)路径以及复制对象划分为四大种类:基于应用系统事务级的复制,技术复杂,完全能保障数据库的一致性,但是支持应用有限;基于文件层的复制,复制技术简单,但不能保障数据库一致性,一般用于文件复制;基于逻辑卷层的复制,实施可能需要改造生产环境,实施复杂;基于磁盘阵列层的复制,磁盘阵列厂商的复制技术,与硬件绑定,成本高昂,实施复杂。
按照数据复制软件或硬件安装的位置又可划分为主机型复制和非主机型复制。应用层、文件层、逻辑卷层的都属于主机型复制,主机型复制软件需安装在主机上,需要消耗一定的主机资源。存储层属于非主机型复制,复制直接由磁盘阵列的内部组件完成,理论上无需消耗应用所在主机的资源。
四种复制技术各有优缺点。一般而言,文件层复制技术主要采用异步复制原理,不能保障数据库的一致性,不能确保数据库是好的,很少用于大型数据库的容灾。国内很多厂商都采用文件层复制,主要用于中小企业,适用于数据量不大、投入很小的场合。
3)如何保障容灾系统的数据一致性是非常重要的考量
容灾系统与生产系统的数据一致性考虑在容灾建设中极其重要。什么叫数据一致性,这是个非常专业的问题。简单的讲,就是要保证生产系统、容灾系统的数据相一致。四种复制技术的数据一致性含义是不同的。应用层的数据一致性是指容灾业务数据和生产端业务数据相同,例如股票交易业务,生产端交易了10000笔,如果容灾端只复制了9999笔,那么就产生了数据不一致的问题。但是,应用层的数据不一致性相对应用程序而言是不致命的,甚至应用程序都无法感知,只有上层业务才能感知,就如同这个例子丢了一笔交易数据,那么此时需要人工干预补齐一下数据。从这个角度讲只有应用层的复制才能确保应用程序的完整性和一致性。
其他三层的数据不一致性对应用程序而言是致命的,很可能导致应用程序无法启动。其他三层的数据一致性比应用层的数据一致性含义复杂,这是由于复制所属层次和复制对象不一样导致的。其他三层的数据一致性包含两方面的含义:一是在磁盘上或文件上的应用程序的数据一致性,这是因为每个应用程序对存在磁盘上的数据都有一个内在的组织结构和秩序,如果这种结构和秩序不完整或被破坏,那应用程序很可能就无法启动了;二是两端的数据一致性。在I/O的路径上各层都有自己的缓存,很有可能会滞留一些I/O 在自己的缓存中。
如果在系统发生故障时,仍有部分I/O“滞留”在I/O操作中,真正写到磁盘中的数据就会少于应用程序实际写出的数据,造成数据的不一致,从而导致结构和秩序不完整或被破坏。异步复制顺序地将这些I/O复制到容灾端,故障发生时可能导致I/O复制不完整,从而也会导致这种情况发生,这就是文件层的复制不可靠的原因。
逻辑卷层和磁盘层采用同步复制,关闭各层缓存,这样的情况一般不会发生,但是由于应用程序和操作系统的复杂性,这种复杂性本身可能导致I/O的坏块。同时,这两层还可能存在卷组一致性的问题,应用程序的数据存在多个逻辑卷或物理卷中,在这两层中很可能会出现应用程序串行写而这两层并行写的状况,从而导致磁盘上的数据的写秩序不一致,这是很可怕的。存在这样的问题,需要在调研阶段搞清楚应用程序的存储状况的,从而有针对性的实施方案。