2+2 核心服务器与存储群集技术实现全冗余

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

一、核心服务器与存储群集技术实现全冗余“2+2”安全模式

1.1为什么要运用2+2安全模式

所谓“2+2”,就是“两个运算节点+两个存储节点”。“2+2”群集模式是在原来的“2+1”群集模式的基础上,增加了一台磁盘阵列,是将每一台服务器定义为一个“运算节点”,而将每一台磁盘阵列定义为一个“存储节点”。

在目前很多应用系统已经都采用了群集技术(也就是通常所说的“双机热备份”)来保证服务的持续运行或者在用户可以容忍的时间之内自动进行服务恢复,群集技术在应对服务器故障方面有着显而易见的效果,这一技术已经得到大多数用户的认可并已经得到很大程度上的普及。但是,随着群集技术运用的普及,很多用户发现群集本身也有一些非常明显的不足:

1. 由于传统的群集解决方案多采用“2+1”的模式,这个为了在两台服务器之间共享数据存储而存在的独立磁盘阵列往往就成为了核心系统的一个单点故障点,一旦磁盘阵列发生故障,则整个系统将发生停机;

2. 很多用户往往有这样的误解——既然我的系统已经是“双机热备份”了,那么,我的数据也不需要备份了。正因为有这样的误解存在,很多用户往往忽视了数据备份的重要性,整个系统只有磁盘阵列中的一份数据,等到由于磁盘阵列发生故障导致数据丢失的时候,才发现悔之晚矣!

3. 目前国内的用户大多数还没有认识到“容灾”的必要性,系统建设的时候,对数据和应用的容灾考虑得非常少,一旦发生火灾、地震等灾难性事故,整个系统将毁于一旦,数据将一去不复返,将遭受无法估量的巨大损失。

1.22+2安全模式建设的目标与技术特点

通过部署两台服务器和两台磁盘阵列在群集模式下同时运行,保证数据的绝对安全可靠;一旦其中任意一台磁盘阵列出现异常,另一台磁盘阵列正常运行,无需切换,业务不会中止。因此该方案可以实现RPO(用户可以允许丢失数据的时间),RTO(用户可以允许恢复业务的时间)均为零。

◆持续数据保护(CDP):实时备份,RPO=0,数据零丢失;

◆持续回退:数据完整可用;

◆业务连续性管理(BCM):保证业务持续不间断,或准不中断,RTO~0;

◆抗灾难性:应急预案、灾难演练;

◆可信任及安全性:不允许后门,国内自主创新产品;

◆TCO合理:投入合理,使用方便,管理容易等;

如图1所示,在应用程序对数据库进行改变数据的操作时,在应用层与本机文件层之间加入一个过滤文件系统,该系统会监视与备份源(备份源可以是数据库也可以是文件或者硬盘)相关的数据是否发生变化,如果是,则该系统会按顺序复制一分该数据变化记录用备特佳主从站之间socket规则协议将其传递到备机。数据变化传到备份机以后一份与以前的数据实时recover,形成一份最新的即时可用数据,另外一份存储在自有格式.mydata文件内,用于数据回退。

如图2所示,软件第一次运行时会把现有的数据作为“基线数据”进行一次全量备份,全量完成以后会在从站端的备份目录内首先存放一份同样的“基线数据”

其后服务器会将其关注的数据变化按顺序复制到从站的备份目录,但是不和基线数据合并,仅存储在自有格式的日志文件中。当需要回退操作的时候,通过读取日志中变化数据的时间戳得到一个回退列表,里面含有全量以后的所有增量变化。选中其中的任何一个点执行恢复操作,最终执行为备机磁盘上的实际数据改变。

1.32+2安全模式实现方式

通过上图可以看出,我们采用了软件的形式,实现两台磁盘阵列之间数据实时同步,当其中一台服务器或磁盘阵列出现故障或数据丢失时,另一台服务器和盘阵可以实现全自动无人看守的接管模式和手动选择时间点的数据的恢复模式,实现了业务及数据的7*24小时的不间断,保证了数据的可靠性。

该方案的提出充分考虑到医院的信息化特点,在采用最新、最先进、最稳定的技术基础之上,采用了最节省的部署模式,实现了较高的容灾热备的级别。即保证了数据的零丢失还维持了业务的连续性,当发生逻辑性错误时还可以通过任意时间点回退100%修复。

该方案的优点:

1、各服务器及盘阵上重要的服务器及数据的实时同步保护和无人看守接管模式的实现

对数据库及应用服务进行自动监控,连续捕获和备份数据变化,只要应用服务和数据库内的数据发生变化,便实时、准确的备份下来。保证了数据的安全,一旦出现数据丢失或破坏,可以迅速的从备份机上把数据恢复回来。

当系统检测到运行应用服务或者数据库服务的某一台机器出现故障或服务停止的时候,系统会自动将服务切换到另一台机器上,保证了服务的7*24小时不间断。

2、灾难后系统恢复实现

灾难发生后,原有系统必须尽快恢复。恢复时执行与数据容灾复制相反的过程,即从灾备中心逆向同步到主数据中心,同步完成即可做应用切换,整个系统恢复到原有状态。3、数据逻辑错误的任意时间数据恢复的实现

可按任意操作步数或时间点进行数据快速恢复,回到数据库的任何状态,从而能够找回误删或者损坏前的数据。在恢复的过程中不但保证了数据的完整型,而且能保证事件的完整性。解决了数据逻辑错误。

相关文档
最新文档