高可用多机集群数据备份双机热备方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
PLUSWELL多机集群、数据备份解决方案
北京蓝科泰达科技有限公司
2008年7月
一:概述
企业和事业单位的运转越来越依赖于计算机系统,如果一旦这个数据处理中心无法正常运转,就会造成业务停顿,导致不可挽回的损失。
而现有的双机热备份设备存在价格高昂,成本较高的情况,往往使用户望而却步。而用户寻求底成本的纯软件方案又往往因产品不容易维护,纯软件双机方案不稳定等因素,往往给用户造成不必要的使用麻烦。有时因护理不当造成数据损坏,发生更大的事故。
蓝科泰达凭借其丰富的研发经验,为您提供高可用性系列产品和优质的服务,推出了蓝科泰达双机容错打包解决方案,目的在于保证数据永不丢失和系统永不停顿,同时为用户节省大量的开支。蓝科泰达容错系统结合了蓝科泰达磁盘阵列产品的安全可靠性与双机容错技术高可用性的优点,相互配合二者的优势。蓝科泰达磁盘阵列针对双机容错技术做了许多优化和改进,满足了双机硬件的连接要求,根据应用环境的实际情况,适用于Windows2000平台以上,开放源代码Linux
平台,SCO UNIX平台上的多种双机热备软件。
二、需求分析
企业关键业务一旦中断,企业的日常运作将受到致命的影响,那么就要求我们的系统在最短的时间内将系统恢复到正常状态。
所以我们要求双机软件能够实现以下几点:
1、异常终端检测
2、网络故障,系统故障,应用程序故障等全系统检测
3、当高可用系统中的某个节点故障,无须人工干预自动切换,保障系统运行
4、速度快(快速恢复)
贵单位业务平台,是以Windwos 2003 Server系统平台为基础,以SQL Server核心的数据
库应用系统,该系统对稳定性要求很高、系统实时性和可用性提出要有连续运行的能力,系统一旦出现故障,其损失是惨重的。
因此,建议用户采用高可用技术,高可用系统在各个节点间保持的间歇的通讯,使系统中的独立节点组合成整体的一套系统,并使用PlusWell 软件可以保障该系统中的某一节点故障都可
被PlusWell 软件所监控,如主服务器应用程序、网卡、操作系统,均纳入公共的安全体系,确
保7*24的不停机。
比较典型的危及系统安全应用和系统错误主要有:
(1)进程错误,比如用户应用与文件数据库的连接异常中断或用户进程发生错误。
(2)文件系统故障,由于异常操作或其它原因造成文件系统内部部分信息丢失或不一致。
(3)操作系统故障,操作系统本身的系统调用问题及底层的应用驱动在安装或更新出现冲突;
(4)网络线缆故障。
(5)介质问题,网络连接或物理硬盘也可能会出现问题。
方案拓扑:
三、解决方案
根据用户的具体需求,结合贵单位用户实际应用中高可用性的重要性,方案描述如下:
1、基于内存镜像的方式做主备机的数据实时同步,当主机处理数据信息时,数据信息通过TCP/IP同步到备机,当主机发出写入指令后,备机执行同等操作;用户端提示保存成功,这时候主备机数据都已写入,时刻保障主备机的数据一致性
2、主备机意外关机,管理人员操作启动顺序失误等意外发生后,软件会智能检测,数据新的一方启动数据服务,保障用户数据不丢失(详细测试见附件一)
3、plus well双机热备份软件能深层检测软硬件信息,在主机软硬件故障后,能迅速的切换到备机,保证应用的不间断性。(plus well为奥运集群选用产品)
4、由于考虑到阵列的单点故障,建议采用pluswell mirror企业版做数据的实时备份(支持恢复之前到任何时期),做到本地数据冗余。
5、数据归档文件由PLUSWELL专业加密保存,可以指定网络服务器为保存路径,也可以保存在本机磁盘内,基于底层的数据复制归档技术,保障随时更新您的历史数据,而不影响系统性能;当遭遇病毒攻击、意外删除、磁盘格式化、硬盘损坏等,均可以实时的恢复数据。
双机软件Plus Well 四、.
(1)本双机热备方案适用系统如下:
Windows2000/2003, RedHat Linux
(2)适用的数据库系统:
MSSQL2000,Oracle8i/9i/10G,Sybase,MySQL,PostSQL,DB2等数据库(3)适用第三方应用程序:
为第三方应用程序提供监控程序,同时可为用户特有程序提供编程结口。
(4)双机热备形式:
Active/Standby,Active/Active
Active/Standby方式是传统的双机热备份解决方案,主机运行时,备机处于备用状态,当主机故障时,备机马上启动将服务接替。因备机平台没有其它的访问量,所以故障切换后用户访问速度不会有大的影响,此种容错方式主要适用于用户只有一种应用,主备机设备配置不太一样,并且用户访问量大的情况。
Active/Active这种方式的主备机平时各自有一种应用运行,当系统中的任何一台主机出现故障,应用都会集中到一台服务器上运行,此时这台备用服务器不仅要承担以前的程序运行而且还要运行宕机服务器上的应用程序,所以此时备机的负担会加重。这种方式的故障切换往往会造成备机访问量增大,系统运行变慢。此方式主要适合用户有不只一种应用,用户主备机配置一样且数据访问量不大的情况。
(5)适用服务器:
此双机方案适用的服务器:IBM,HP,DELL,以及所有Intel架构的服务器。
(6)双机热备拓扑图:
Server1是主“激活”节点,Server2是次“备用”节点。如果Server1发生故障了,它的被保护资源由Server2 节点来恢复。当节点Server1恢复后,资源可以被Server1重新获得
APPA 处于Volume w中,并且在Server1上激活。APPB存储在Volume M上,并且在Server2上激活。在这一配置中,Server1应该是Volume W:资源的主节点,Server2应该是Volume M:资源的主节点。
当Server2失败时, PlusWell Cluster容错软件应该将Volume M:转换到Server1上去。如果系统资源是足够的,这一转换不会影响到已经在Server1上运行的APPA,转换只是简单地将Server2上的被保护应用程序(APPB)加到Server1的运行负载上
五、PlusWell技术原理
(1)心跳工作过程
通过IP做心跳检测时,主备机会通过此心跳路径,周期性的发出相互检测的测试包,如果此时主机出现故障,备机在连续丢失设定数目的检测包后,会认为主机出现故障,这时备会自动检测设置中是否有第二种心跳,如果没有第二种心跳的话,备机则根据已设定的规则,启动备机的相关服务,完成双机热备的切换。
(2)IP工作过程
IP地址使用虚拟IP地址的方法来实现,主要原理如图