高可用性集群解决方案HA
VMware vCenter 高可用性 HA 详解
![VMware vCenter 高可用性 HA 详解](https://img.taocdn.com/s3/m/238bdcee172ded630b1cb657.png)
VMware vCenter 高可用性 HA 详解时间: 2011-07-01 分类: VMware标签: DRS, HA, vCenter, VM, vMotion / 1,455 次浏览0 评论VM ware HA简介HA的全称是High Availability(高可用性)。
VM ware HA群集一般具有一个包括两个或者两个以上ESX 主机的逻辑队列。
在一个HA群集中,每一台VM ware ESX服务器配有一个HA代理,持续不断地检测群集中其他主的心跳信号。
假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号,那么该主机就被默认为发生了故障或者与网络的连接出现了问题。
在这种情况下,原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。
反之,如果一台主机无法接收到来自群集的其他主机的心跳信号,那么该主机便会启动一个内部进程来检测自己跟群集中其他主机的连接是否出现了问题。
如果真的出现了问题,那么就会中断在这台主机上所有正在运行的虚拟机,并启动预先设定好的备用主机。
此外,VMware HA的另一个显著的特点是能够对一个群集中的多台ESX服务器(多达四台)上进行故障转移。
对于一次VMware HA故障转移,客户端操作系统认为只是一次因硬件的崩溃而进行的重启,并不会觉察到是一次有序的关机。
因此,这样的修复并不会改变操作系统的状态。
此外,虚拟机中任何正在进行的业务也不会丢失。
即使备用ESX服务器主机的硬件设备跟原ESX服务器主机的硬件设备有所不同,客户端操作系统也不会检测到这种不同。
所以,VMware HA的故障转移对于客户来说可以算是完全透明的,几乎不会出现任何停机的危险。
1. VMware HA 提供快速中断恢复VMware HA 利用配置为群集的多台 ESX/ESXi 主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。
VMware HA 通过以下两种方式保护应用程序可用性:∙通过在群集内的其他主机上自动重新启动虚拟机,防止服务器故障。
HA高可用集群中脑裂问题解决-运维总结
![HA高可用集群中脑裂问题解决-运维总结](https://img.taocdn.com/s3/m/ea0c5be06394dd88d0d233d4b14e852458fb39ba.png)
HA⾼可⽤集群中脑裂问题解决-运维总结------ 什么是脑裂(split-brain)在"双机热备"⾼可⽤(HA)系统中,当联系两个节点的"⼼跳线"断开时(即两个节点断开联系时),本来为⼀个整体、动作协调的HA系统,就分裂成为两个独⽴的节点(即两个独⽴的个体)。
由于相互失去了联系,都以为是对⽅出了故障,两个节点上的HA软件像"裂脑⼈"⼀样,"本能"地争抢"共享资源"、争起"应⽤服务"。
就会发⽣严重后果:1)或者共享资源被⽠分、两边"服务"都起不来了;2)或者两边"服务"都起来了,但同时读写"共享存储",导致数据损坏(常见如数据库轮询着的联机⽇志出错)。
两个节点相互争抢共享资源,结果会导致系统混乱,数据损坏。
对于⽆状态服务的HA,⽆所谓脑裂不脑裂,但对有状态服务(⽐如MySQL)的HA,必须要严格防⽌脑裂[但有些⽣产环境下的系统按照⽆状态服务HA的那⼀套去配置有状态服务,结果就可想⽽知]。
------ 集群脑裂产⽣的原因⼀般来说,裂脑的发⽣,有以下⼏种原因:1. ⾼可⽤服务器各节点之间⼼跳线链路发⽣故障,导致⽆法正常通信。
2. 因⼼跳线坏了(包括断了,⽼化)。
3. 因⽹卡及相关驱动坏了,ip配置及冲突问题(⽹卡直连)。
4. 因⼼跳线间连接的设备故障(⽹卡及交换机)。
5. 因仲裁的机器出问题(采⽤仲裁的⽅案)。
6. ⾼可⽤服务器上开启了iptables防⽕墙阻挡了⼼跳消息传输。
7. ⾼可⽤服务器上⼼跳⽹卡地址等信息配置不正确,导致发送⼼跳失败。
8. 其他服务配置不当等原因,如⼼跳⽅式不同,⼼跳⼴插冲突、软件Bug等。
提⽰:Keepalived配置⾥同⼀VRRP实例如果virtual_router_id两端参数配置不⼀致也会导致裂脑问题发⽣。
VMware vCenter 高可用性 HA 详解
![VMware vCenter 高可用性 HA 详解](https://img.taocdn.com/s3/m/238bdcee172ded630b1cb657.png)
VMware vCenter 高可用性 HA 详解时间: 2011-07-01 分类: VMware标签: DRS, HA, vCenter, VM, vMotion / 1,455 次浏览0 评论VM ware HA简介HA的全称是High Availability(高可用性)。
VM ware HA群集一般具有一个包括两个或者两个以上ESX 主机的逻辑队列。
在一个HA群集中,每一台VM ware ESX服务器配有一个HA代理,持续不断地检测群集中其他主的心跳信号。
假如某台ESX主机在连续三个时间间隔后都还没有发出心跳信号,那么该主机就被默认为发生了故障或者与网络的连接出现了问题。
在这种情况下,原本在该主机上运行的虚拟机就会自动被转移到群集中的其他主机上。
反之,如果一台主机无法接收到来自群集的其他主机的心跳信号,那么该主机便会启动一个内部进程来检测自己跟群集中其他主机的连接是否出现了问题。
如果真的出现了问题,那么就会中断在这台主机上所有正在运行的虚拟机,并启动预先设定好的备用主机。
此外,VMware HA的另一个显著的特点是能够对一个群集中的多台ESX服务器(多达四台)上进行故障转移。
对于一次VMware HA故障转移,客户端操作系统认为只是一次因硬件的崩溃而进行的重启,并不会觉察到是一次有序的关机。
因此,这样的修复并不会改变操作系统的状态。
此外,虚拟机中任何正在进行的业务也不会丢失。
即使备用ESX服务器主机的硬件设备跟原ESX服务器主机的硬件设备有所不同,客户端操作系统也不会检测到这种不同。
所以,VMware HA的故障转移对于客户来说可以算是完全透明的,几乎不会出现任何停机的危险。
1. VMware HA 提供快速中断恢复VMware HA 利用配置为群集的多台 ESX/ESXi 主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。
VMware HA 通过以下两种方式保护应用程序可用性:∙通过在群集内的其他主机上自动重新启动虚拟机,防止服务器故障。
开源HA解决方案
![开源HA解决方案](https://img.taocdn.com/s3/m/0339494edf80d4d8d15abe23482fb4daa58d1de7.png)
开源HA解决方案《开源HA解决方案:构建稳定可靠的高可用系统》当今互联网时代,高可用性(HA)已经成为企业建设系统的重要指标之一。
在构建高可用系统时,开源软件解决方案的优势日益凸显。
开源软件具有灵活、定制性强的特点,可以满足不同企业的需求,同时,也能够降低成本,提高系统的可靠性。
开源HA解决方案是指基于开源软件构建的高可用系统解决方案。
常见的开源HA解决方案包括Pacemaker、Keepalived、Corosync等。
这些解决方案不仅能够保证系统的稳定性和可靠性,还可以提供灵活的配置和定制,满足不同企业的需求。
Pacemaker是一个常用的开源HA解决方案,它提供了很多高可用性功能,比如故障监测、自动故障切换、资源组管理等。
通过Pacemaker可以轻松构建起一个高可用的集群系统,保证系统的稳定性和可靠性。
Keepalived则是一个轻量级的负载均衡和故障转移解决方案,它可以将多台服务器组成一个高可用的集群,同时可以实现故障自动转移,确保系统的稳定性。
Corosync是一个消息传递层软件,它可以提供高可用系统必需的集群通信功能。
通过Corosync可以实现集群节点之间的通信和协调,确保集群系统的正常运行。
同时,Corosync支持灵活的配置和定制,可以满足不同企业的需求。
总之,开源HA解决方案能够帮助企业构建稳定可靠的高可用系统。
通过灵活的配置和定制,这些解决方案可以满足不同企业的需求,同时也能够降低成本,提高系统的可靠性。
相信在未来,开源HA解决方案会越来越受到企业的青睐,成为构建高可用系统的首选方案。
ha模式的工作原理
![ha模式的工作原理](https://img.taocdn.com/s3/m/eb42e00dce84b9d528ea81c758f5f61fb73628f1.png)
ha模式的工作原理在计算机系统中,高可用性(HA)模式是一种非常重要的容错机制,它能够确保系统的连续运行和数据的安全。
本篇文章将详细介绍ha模式的工作原理,包括其基本概念、硬件要求、软件要求、工作流程以及常见问题和解决方案。
一、基本概念高可用性模式(HA,High Availability)是指通过各种技术和管理手段,使得一个或多个服务能够在不间断的情况下运行,从而保障系统的稳定性和可靠性。
该模式主要包括硬件故障自动切换、软件容错、负载均衡等技术,以提高系统的可用性和性能。
二、硬件要求要实现ha模式,硬件要求主要包括以下方面:1. 服务器:至少两台服务器,用于运行相同的操作系统和应用服务。
2. 网络设备:交换机、路由器等网络设备,用于连接服务器和客户端。
3. 备份设备:备用硬盘、磁带等存储设备,用于数据备份和恢复。
三、软件要求实现ha模式需要选择合适的软件,以满足以下要求:1. 高可用性软件:如Heartbeat、Zookeeper等,用于监控和管理服务器集群。
2. 集群软件:如Pacemaker、Mongrel等,用于实现服务器之间的互斥、同步和故障自动切换。
3. 备份软件:如rsync、shadowcopy等,用于定期备份数据,确保数据安全。
四、工作流程ha模式的工作流程如下:1. 双机环境:两台服务器同时运行相同的操作系统和应用服务,相互备份。
2. 故障检测:高可用性软件会实时监测服务器的状态,一旦发现故障,会立即报警。
3. 自动切换:当一台服务器出现故障时,集群软件会自动将请求切换到另一台正常运行的服务器上,确保服务不间断。
同时,备份设备上的数据会进行同步更新,以便在需要时进行恢复。
4. 数据备份:使用备份软件定期备份数据,确保数据安全,防止数据丢失或损坏。
5. 配置管理:对所有服务器进行统一的配置管理,确保所有服务器运行在相同的标准配置下,提高系统的稳定性和可靠性。
五、常见问题及解决方案在实现ha模式的过程中,可能会遇到一些常见问题,以下是一些解决方案:1. 网络延迟:当两台服务器之间的网络延迟较大时,会导致自动切换失败。
PostgreSQL中的高可用性解决方案
![PostgreSQL中的高可用性解决方案](https://img.taocdn.com/s3/m/0cd8e6c370fe910ef12d2af90242a8956becaaa3.png)
PostgreSQL中的高可用性解决方案在现代的数据应用中,高可用性(High Availability,HA)是一个至关重要的因素。
在数据库领域,PostgreSQL提供了一些高可用性的解决方案,可以帮助用户实现数据的持续可用性和系统的可靠性。
本文将介绍一些常用的PostgreSQL高可用性解决方案。
1. 数据复制(Replication)数据复制是一种常见的高可用性解决方案,它通过将数据从主服务器复制到一个或多个备用服务器,实现数据的冗余存储和故障恢复能力。
PostgreSQL提供了多种数据复制方法,包括基于日志的物理复制(Physical Replication)和基于逻辑复制(Logical Replication)。
1.1 基于日志的物理复制基于日志的物理复制是PostgreSQL内置的一种数据复制方法,它通过复制主服务器上的事务日志(WAL),将变更的数据块物理复制到备用服务器。
这种方法可以实现快速的数据复制和故障切换,但对备用服务器的版本和配置要求较高。
1.2 基于逻辑复制基于逻辑复制是PostgreSQL 9.4及以上版本中引入的一种数据复制方法。
它通过解析和应用主服务器上的逻辑变更(例如INSERT、UPDATE、DELETE语句),将变更的数据逻辑复制到备用服务器。
这种方法相对灵活,可以实现不同版本和配置的备用服务器。
2. 流复制(Streaming Replication)流复制是PostgreSQL中一种基于日志的物理复制方法,它通过流式传输事务日志(WAL)来实现数据的持续复制和故障切换。
流复制要求主服务器和备用服务器之间有稳定的网络连接,并且备用服务器必须实时接收并应用主服务器上的更改。
2.1 同步流复制同步流复制是一种高可用性的方法,它确保主服务器上的事务在提交后,备用服务器立即应用并确认。
这种方法可以提供零数据丢失和最小的故障恢复时间,但对网络延迟和性能要求较高。
HACMP工作原理介绍
![HACMP工作原理介绍](https://img.taocdn.com/s3/m/60e0d795185f312b3169a45177232f60dccce76e.png)
HACMP工作原理介绍HACMP(High Availability Cluster Multiprocessing)是一种高可用性的集群解决方案,旨在提供在系统或硬件失败发生时,保证应用程序持续可用的能力。
它通过在多个计算节点上部署应用程序和数据,并实时监控系统健康状况,来实现高可用性。
1.集群:HACMP通过将多个计算节点连接在一起形成一个集群。
每个节点都是一台具备计算和存储能力的服务器,运行着相同的操作系统和应用程序。
集群中的节点通过专用网络互相通信,实现对整个集群的协调和控制。
2.资源:在HACMP中,应用程序和其相关的数据被称为资源。
资源可以是单个的进程、服务、文件系统等。
HACMP对资源的管理包括资源的分配、启动、停止和迁移等操作。
3.心跳检测:为了实时监控系统的健康状况,HACMP引入了心跳检测机制。
每个节点通过定期发送心跳信号来表示自己的正常运行,其他节点接收到心跳信号后确认,如果长时间未收到心跳信号则判断该节点可能出现故障。
4.预定义和自动化的故障切换:当一些节点出现故障时,HACMP会自动将该节点上的资源切换到其他节点上,以保证应用程序的持续可用性。
切换的过程中,HACMP会确保数据的一致性,并在尽可能短的时间内完成切换操作。
如果故障节点恢复正常,HACMP会自动将资源切换回原节点。
5.监控和故障恢复:HACMP提供了一套完善的监控和故障恢复机制。
它实时监控系统中的节点状态、资源状态和网络连接等信息,并根据预定义的策略执行相应的故障恢复动作。
当故障发生时,HACMP会立即做出响应,启动资源切换和恢复节点操作。
通过上述工作原理,HACMP能够实现高可用性的应用程序部署和运行。
它具有以下优点:1.高可用性:HACMP提供实时监控和故障恢复机制,能够及时检测和处理系统和软件故障,保证应用程序持续可用。
2.负载均衡:HACMP能够根据系统负载情况,将资源合理地分配到不同的节点上,实现负载均衡和性能优化。
vmware 高可用性(集群HA)
![vmware 高可用性(集群HA)](https://img.taocdn.com/s3/m/06265530af45b307e871975a.png)
VMware高可用性(集群HA)1 应用层高可用性:如实现mysql、oracle数据库应用程序的储群集,主要是判断mysql、oracle 应用程序是否停止运行。
2 操作系统高可用性:如windows的故障转移群集(windows failover clustering WFC)。
3 虚拟化层的高可用性:如vsphere high availability(HA)和vsphere fault tolerance(FT)。
4 物理层的高可用性:如:多网络适配器、SAN等。
vSphere HA 和 Fault Tolerance(FT)功能分别通过提供中断快速恢复和连续可用性来最小化或消除非计划停机时间。
使用 vSphere,企业可以轻松提高为所有应用程序提供的基准级别,并且以更低成本和更简单的操作来实现更高级别的可用性。
使用vSphere,你可以:a 独立于硬件、操作系统和应用程序提供更高可用性。
b 减少常见维护操作的计划停机时间。
c 在出现故障时提供自动恢复。
一、vSphere HA 提供快速中断恢复vSphere HA 利用配置为群集的多台 ESXi 主机,为虚拟机中运行的应用程序提供快速中断恢复和具有成本效益的高可用性。
vSphere HA 通过以下方式保护应用程序可用性:1 通过在群集内的其他主机上重新启动虚拟机,防止服务器故障。
2 通过持续监控虚拟机(通过vmware tools实现主机向虚拟机发送检测信号)并在检测到故障时对其进行重新设置, 防止应用程序故障。
与其他群集解决方案不同,vSphere HA 提供基础架构并使用该基础架构保护所有工作负载:a 无需在应用程序或虚拟机内安装特殊软件。
所有工作负载均受 vSphere HA 保护。
配置 vSphere HA 之后,不需要执行操作即可保护新虚拟机。
它们会自动受到保护。
(需在开机状态下才受保护)b 可以将 vSphere HA 与 vSphere Distributed Resource Scheduler (DRS即负载均衡) 结合使用以防止出现故障,以及在群集内的主机之间提供负载平衡。
ha集群解决方案
![ha集群解决方案](https://img.taocdn.com/s3/m/951b934d03020740be1e650e52ea551810a6c9d7.png)
ha集群解决方案
《ha集群解决方案》
随着互联网的不断发展,对于网站和应用程序的高可用性和可靠性要求越来越高。
因此,高可用(HA)集群解决方案成为
了企业和组织在搭建服务器和数据库系统时关注的重点之一。
HA集群解决方案是一种通过集群技术来实现高可用性和负载
均衡的系统架构。
它通过将多个服务器或节点连接在一起,实现资源共享和任务分配,从而提高系统的稳定性和性能,防止因单点故障而导致的服务中断。
在实际应用中,HA集群解决方案通常包括硬件和软件两个方面。
在硬件层面,可以通过使用具有冗余功能的服务器和网络设备来防止硬件故障对系统的影响。
而在软件层面,可以利用负载均衡器、故障转移和数据同步技术来实现高可用性。
对于企业来说,选择合适的HA集群解决方案需要考虑诸多因素,如成本、性能、可扩展性和易用性等。
常见的HA集群解决方案包括Linux-HA、Pacemaker、Keepalived等。
这些解决
方案不仅能够提供故障转移和负载均衡功能,还能够实现互备、冗余存储和数据同步,从而进一步提高系统的可用性和稳定性。
总的来说,HA集群解决方案在今天的互联网时代发挥着重要
作用,它不仅能够帮助企业提高网站和应用程序的可用性和可靠性,还能够降低因故障而造成的损失。
因此,企业和组织在
搭建服务器和数据库系统时,不妨考虑采用适合自身需求的HA集群解决方案,以提升系统的稳定性和性能。
多节点高可用集群解决方案
![多节点高可用集群解决方案](https://img.taocdn.com/s3/m/b3c2ba47be1e650e52ea99cd.png)
7/7
4/7
Skyge Multi-Node HA 高可用集群解决方案
2.2、基于数据镜像技术的高可用解决方案
通常在高可用软件中,为了保持数据一致性,不同的节点需要共享磁盘阵列。但是对于 很多系统来说, 一个磁盘阵列的造价太过昂贵。 因此出现了通过软件来实现共享数据的镜像 技术。在 Skyge Multi-Node HA 的高可用产品中,使用基于数据镜像技术的软件方式来实现 共享数据的同步。 DRBD(全称为:Distributed Replicated Block Device)是在 Linux 系统中一种基于 磁盘的网络镜像软件。DRBD 的基本原理相当简单,那就是把两台机器的两块磁盘通过网络 连接在一起,形成一个 RAID1 系统。两块磁盘的数据在任何时刻都保证是一致的。DRBD 负 责接收数据,把数据写到本地磁盘,然后发送给另一个主机。另一个主机再将数据存到自己 的磁盘中。DRBD 是由内核模块和相关用户态程序构成,用以构建高可用性的集群。其实现 方式是通过网络来镜像整个设备。 它允许用户在远程机器上建立一个本地块设备的实时镜像。 与心跳连接结合使用,也可以把它看作是一种网络 RAID。DRBD 的实现原理图,如下图 3:
图 3-DRBD 的实现原理
这种不需要共享存储的纯软高可用性解决方案,要节约很多成本,因为在价格上 IP 网 络要比专用的存储网络经济的多。
5/7
Skyge Multi-Node HA 高可用集群解决方案
图 4-基于数据镜像技术(DRBD)的高可用工作模式
解决方案优点:
系统切换时间短,最大程度减少业务中断的影响。 切换过程对应用程序无影响,无需重新启动或登录,做到无人值守。 不需要磁盘阵列,具有较高的性能价格比。 高效成熟的多种镜像方式,支持完全镜像、差分镜像。 最佳化的按需复制,支持自定义复制数据集。HA 的数据镜像是基于文件系统之上的以 字节为单位的按需复制,充分保证了系统性能和效率的最佳化。 消除备份窗口。 备份时可以使备机写入暂停或主机传输暂停, 在主机应用在线持续运行 的情况下,通过备机对数据进行备份操作。 支持丰富的应用配置,如:数据库应用 Oracle、DB2、Sybase、MySQL 等,文件服务应 用 NFS、SMB/CIFS 等,WEB 应用 Apache 等,商业应用 Websphere、Weblogic 等。 对服务器硬件配置要求较低, 且互备方式有效分摊系统负载, 可充分提高服务器硬件资 源的利用率。 简洁直观的管理工具,体贴的应用配置向导支持,便于维护管理。
redis ha方案
![redis ha方案](https://img.taocdn.com/s3/m/cf337336f68a6529647d27284b73f242326c3154.png)
redis ha方案Redis是一种高性能的键值存储系统,广泛应用于缓存、队列和实时数据分析等领域。
由于Redis的单机模式存在单点故障的问题,当出现异常情况时,整个系统的可用性将受到影响。
为了保障Redis系统的高可用性,可以采用一种名为“Redis高可用性(HA)方案”的解决方案。
Redis HA方案是通过搭建Redis集群来实现的。
Redis集群是一种在不同节点上分布数据并进行数据复制和故障转移的集群结构。
下面将介绍一种常见的Redis HA方案——Redis Sentinel。
首先,我们需要了解Redis Sentinel。
Redis Sentinel是Redis官方提供的一种用于监控和管理Redis集群的工具。
它能够实时监测Redis节点的状态,并在节点发生故障时进行自动故障转移,保证整个集群的高可用性。
Redis Sentinel方案的架构通常由多个Master节点和多个Slave节点组成。
Master节点负责写入数据,而Slave节点则用于数据的冗余备份。
为了保证高可用性,每个Master节点都会有多个Slave节点作为其备份。
当Master节点发生故障时,Sentinel会自动将一个Slave节点提升为Master节点,并重新配置其他节点与新的Master节点进行数据同步。
除了故障转移,Redis Sentinel还具备监控、通知和自动故障恢复的功能。
它会周期性地向Redis节点发送心跳检测,并在节点状态发生变化时发送通知,以及在恢复节点时自动进行数据同步和恢复。
为了搭建Redis Sentinel集群,首先需要安装Redis Sentinel并配置其各个节点之间的通信。
通常会有一个或多个Sentinel节点,同时也需要配置Master节点和Slave节点的连接信息。
在配置文件中,需要指定每个节点的IP地址、端口号、持久化数据的存储路径等信息。
配置完成后,启动各个节点即可。
在Redis Sentinel集群运行时,如果某个Master节点宕机,Sentinel会自动将其从集群中剔除,并从Slave节点中选择一个作为新的Master节点。
VMware vSphere 5.1 高可用性 ---- 群集、HA、DRS、FT
![VMware vSphere 5.1 高可用性 ---- 群集、HA、DRS、FT](https://img.taocdn.com/s3/m/3bb17afaa45177232e60a228.png)
VMware vSphere 5.1 高可用性在本节中主要讲的是集群的一些功能和配置,相比5.0的设置,没有太大的变化。
VMware vSphere为虚拟机提供虚拟化的基础架构,将现有的物理资源转化成虚拟资源,将物理资源分成若干资源,为每个虚拟机提供包括CPU、内存等虚拟资源。
要想很好地分配这些资源,就必须要使用资源池。
资源池是灵活管理资源的逻辑抽象。
资源池可以分组为层次结构,用于对可用的CPU 和内存资源按层次结构进行分区。
群集中的资源池比单个ESXi主机上的还要重要,因为在群集中创建资源之后,整个资源池管理的就是所有的ESXi主机资源了。
所管理的资源是所有ESXi主机上的CPU和内存的资源总和。
高可用性和双机热备是VMware vSphere 5.1最重要的一部分,高可用并不是vSphere独有的,企业使用高可用就是为了服务的连续性和数据的安全性,HA是以一群ESXi服务器为主的群集功能,主要是目的是当虚拟机运行的主机发生故障时能及时转移主机,避免长时间的停机。
而FT双机热备则是保证虚拟机最长时间不停机,将虚拟机以双机热备的方式同时在两台主机运行,大大增强了业务的可连续性。
本节中主要讲的是讲的一下内容:一、建立群集二、设置HA高可用性三、测试HA高可用性四、设置DRS五、建立FT双机热备无论是计划停机时间还是非计划停机时间,都会带来相当大的成本。
但是,用于确保更高级别可用性的传统解决方案都需要较大开销,并且难以实施和管理。
VMware 软件可为重要应用程序提供更高级别的可用性,并且操作更简单,成本更低。
使用vSphere,组织可以轻松提高为所有应用程序提供的基准级别,并且以更低成本和更简单的操作来实现更高级别的可用性。
使用vSphere,可以独立于硬件、操作系统和应用程序提供更高可用性,减少常见维护操作的计划停机时间,在出现故障时提供自动恢复。
vSphere 可以减少计划的停机时间,防止出现非计划停机,并迅速从断电中恢复。
ha 介绍
![ha 介绍](https://img.taocdn.com/s3/m/ad3cca739b6648d7c0c74606.png)
1 介绍高可用集群是指一组通过硬件和软件连接起来的独立计算机,它们在用户面前表现为一个单一系统,在这样的一组计算机系统内部的一个或者多个节点停止工作,服务会从故障节点切换到正常工作的节点上运行,不会引起服务中断。
从这个定义可以看出,集群必须检测节点和服务何时失效,何时恢复为可用。
这个任务通常由一组被称为“心跳”的代码完成。
在Linux-HA里这个功能由一个叫做heartbeat的程序完成。
他是为Linux提供的一种高可用性的解决方案high availability (clustering)。
目的:提高服务的可靠性、可用性和可维护性2 原理下图为HA的网络结构图。
注释:公网接入:主从服务器通过公网通信心跳连线:主从服务器通过专用网络通信,专用网络可用以太网的交叉线连接,也可用串口连接监测。
VIP:集群通过VIP与公网通信,主从通过公网网卡上邦定虚拟地址(VIP)实现。
Heartbeat最核心的包括两个部分,心跳监测部分和资源接管部分,心跳监测可以通过网络链路和串口进行,而且支持冗余链路,它们之间相互发送报文来告诉对方自己当前的状态,如果在指定的时间内未受到对方发送的报文,那么就认为对方失效,这时需启动资源接管模块来接管运行在对方主机上的资源或者服务。
(一)用户与主服务器正常通信(二)主从服务器通过心跳专线监测彼此是否正常(三)如果主服务器的公网失效或服务器DOWN机,从服务器通过心跳监测后,启动设定服务并接管主服务器对外的网络资源(VIP)(四)用户与从服务器通信(从机在几秒或几十秒内接管主服务器)(五)主服务器恢复后(重起或修复等)可以重新接管网络资源。
主要模块介绍节点(node)运行Heartbeat进程的一个独立主机,称为节点,节点是HA的核心组成部分,每个节点上运行着操作系统和Heartbeat软件服务。
在Heartbeat集群中,节点有主次之分,分别称为主节点和备用/备份节点,每个节点拥有惟一的主机名,并且拥有属于自己的一组资源,例如磁盘、文件系统、网络地址和应用服务等。
zabbix_ha集群_实现原理_概述及解释说明
![zabbix_ha集群_实现原理_概述及解释说明](https://img.taocdn.com/s3/m/b76bee91cf2f0066f5335a8102d276a2002960e2.png)
zabbix ha集群实现原理概述及解释说明1. 引言1.1 概述本篇文章将深入探讨Zabbix高可用(HA)集群的实现原理并进行详细解释说明。
在现代IT运维领域中,越来越多的组织和企业开始关注监控系统的高可用性和稳定性。
Zabbix作为一种功能强大且广泛被采用的监控解决方案,提供了一套基于分布式架构和HA集群配置的方法,以确保对各种监控数据的及时、准确收集和分析。
1.2 文章结构本文将首先介绍Zabbix概述,包括其主要特点、架构和基本工作原理。
随后,我们将探讨HA集群的基本概念以及配置要点,涵盖了节点数量、位置选择等关键因素。
接着,我们会深入解析实现原理,并详细阐述负载均衡策略、数据同步机制以及高可用性措施等相关内容。
最后,在示例案例分析部分,我们将通过一个具体案例来展示如何实际应用所学原理,并重点介绍配置步骤详解以及故障处理与恢复策略。
1.3 目的通过撰写此篇文章,目的是为了帮助读者全面了解Zabbix HA集群的实现原理和基本要点,并能够在实际场景中进行配置和故障处理。
同时,我们也希望通过对Zabbix HA集群的分析和展望,提出一些可能的优化方向和挑战,以便读者在实践中能够更好地利用这一监控解决方案,提升其高可用性和性能表现。
2. Zabbix HA集群实现原理2.1 Zabbix概述Zabbix是一种流行的开源网络监控工具,它可以监测和记录服务器、网络设备以及应用程序的性能指标。
Zabbix具有高度可定制性和灵活性,使其成为众多组织进行监控和故障排除的首选解决方案。
2.2 HA集群基本概念高可用(HA)集群是一种设计模式,旨在确保系统在可能出现硬件或软件故障时仍能够持续运行。
HA集群通过将多个节点连接在一起,共同提供服务并实现数据的冗余存储以达到提高系统的可靠性和可用性的目标。
对于Zabbix来说,HA集群意味着将多个Zabbix服务器配置为一个逻辑单元,这样即使其中一个节点发生故障,其他节点也能够接管工作并继续提供监控服务。
高可用性集群系统的实现
![高可用性集群系统的实现](https://img.taocdn.com/s3/m/c3b7647511661ed9ad51f01dc281e53a5802518d.png)
高可用性集群系统的实现高可用性(High Availability,HA)是指系统能够在遇到故障或异常情况下仍然正常运行的能力。
在实践中,高可用性集群系统是一种常见的解决方案,用于保障关键业务的连续可用性。
下面是一个高可用性集群系统的实现方式的详细介绍。
1. 负载均衡(Load Balancing)负载均衡是高可用性集群系统的核心组件之一、它通过将请求分发到多个服务器节点上,以达到负载的均衡。
当其中一服务器节点发生故障时,负载均衡器可以自动将请求重新分配到其他可用的节点上,实现对服务的无感知切换和故障恢复。
常见的负载均衡算法包括轮询、加权轮询、最少连接数等。
负载均衡器可以是硬件设备,如F5等,也可以是软件实现,如Nginx、HAProxy等。
2.多节点架构多节点架构可以采用主从模式或活动-备用模式。
在主从模式下,一个节点作为主节点提供服务,其他节点作为从节点,负责备份和故障恢复。
在活动-备用模式下,一个节点处于活动状态,提供服务,其他节点保持备用状态,等待发生故障时切换到活动状态。
3.数据同步和复制为了保证数据的一致性和可用性,高可用性集群系统需要进行数据的同步和复制。
数据同步可以通过主从复制、主主复制或镜像复制等方式来实现。
主从复制是指将主节点上的数据同步到从节点上,从节点可以作为备份用于故障恢复;主主复制是指多个节点之间相互同步数据,实现互为备份和故障切换;镜像复制是指将数据复制到多个节点上,每个节点都可独立提供服务。
数据同步和复制可以通过数据库复制、文件复制、分布式文件系统等方式来实现。
同时,为了保证数据的一致性,可以使用分布式事务、两阶段提交等机制。
4.心跳检测和故障恢复为了实时监测节点的状态和及时发现故障,高可用性集群系统需要进行心跳检测。
心跳检测是指多个节点之间周期性地相互发送心跳消息,一旦发现节点无响应或超时,就将其判定为故障节点。
当出现故障时,高可用性集群系统需要进行故障恢复。
故障恢复可以采用自动切换、人工干预或自动修复等方式。
HA
![HA](https://img.taocdn.com/s3/m/8987dca569dc5022aaea0097.png)
HA双机设计高可用性(HA)集群通过一组计算机系统提供透明的冗余处理能力,从而实现不间断应用的目标。
高可用性(High Availability,简称HA)集群是共同为客户机提供网络资源的一组计算机系统。
其中每一台提供服务的计算机称为节点(Node)。
当一个节点不可用或者不能处理客户的请求时,该请求会及时转到另外的可用节点来处理,而这些对于客户端是透明的,客户不必关心要使用资源的具体位臵,集群系统会自动完成。
基于共享磁盘的HA集群系统通过共享盘柜实现集群中各节点的数据共享,包含主服务器、从服务器、存储阵列三种主要设备,以及设备间的心跳连接线。
在本HA集群方案中,将节点1配臵成“主服务器”,节点2配臵成“从服务器”,主从服务器有各自的IP地址,通过HA集群软件控制,主从服务器有一个共同的虚拟IP地址,客户端仅需使用这个虚拟IP,而不需要分别使用主从IP地址。
这种措施是HA集群的首要技术保证,该技术确保集群服务的切换不会影响客户IP层的访问。
心跳线是HA集群系统中主从节点通信的物理通道,通过HA集群软件控制确保服务数据和状态同步。
不同HA集群软件对于心跳线的处理有各自的技巧,有的采用专用板卡和专用的连接线,有的采用串并口或USB口处理,有的采用TCP/IP网络处理,其可靠性和成本都有所不同。
近几年,基于TCP/IP技术的心跳线因其成本低、性能优异而被广泛采用。
具体实现中主从服务器上至少各需配臵两块网卡。
HA集群软件的本质是当主服务器出现故障时,从服务器及时接管主服务器的资源,这些资源包括处理器、内存进程和磁盘数据。
接管进程意味着接管该服务进程的内存数据列表,采用共享磁盘技术方式的集群无需做存储数据接管,采用磁盘镜像技术方式的集群则使用本机的存储数据。
主从服务器的资源(处理器、内存、磁盘)配臵具有科学性和技巧性。
系统物理内存过低,会使系统频繁使用效率低下的“虚拟内存”,导致系统反应迟钝,也使得客户端响应缓慢,甚至出现“系统服务超时(Timeout)”形态的系统报错,没有达到高可靠的目的。
ha解决方案
![ha解决方案](https://img.taocdn.com/s3/m/e948a0fc6037ee06eff9aef8941ea76e58fa4ad0.png)
ha解决方案记得刚刚开始工作的时候,公司内部的各种业务系统和软件非常复杂,无法快速高效地处理公司日常运营中产生的大量数据。
为了解决这个问题,我们开始寻找合适的解决方案,其中一个备受关注的方案是使用HA(高可用性)技术。
HA是一种能够确保系统始终可用的技术,即使在硬件或网络故障等不可预测的情况下也能够继续正常运行。
HA技术广泛应用于各种行业,包括金融、电信、互联网等领域。
我们相信,通过应用HA技术,可以提供更稳定、高效的解决方案,从而解决我们在公司日常运营中遇到的问题。
为了实现HA,我们首先需要构建一个高可用的架构。
一种常见的做法是使用集群来实现自动故障转移(failover)。
通过将多台服务器组成一个集群,当其中一台服务器出现故障时,其他服务器会自动接管它的工作,确保系统的稳定性和可用性。
此外,我们还可以使用负载均衡技术,将请求分发到不同的服务器上,以提高系统的响应速度和处理能力。
在选择HA解决方案时,我们需要考虑系统的需求和预算,以及厂商的信誉和技术支持。
有些公司会选择开源软件提供的HA方案,如Pacemaker、Keepalived等,这些软件具有灵活性和可定制性,但需要花费一定的时间和资源来配置和维护。
另一方面,也有一些商业解决方案,如AWS(亚马逊云)提供的弹性负载均衡器、阿里云的SLB(负载均衡)、F5 Networks的BIG-IP等,这些解决方案提供了更简单、易用的方式来实现HA。
随着云计算和大数据的快速发展,越来越多的企业开始转向云端部署,寻求更安全、高效的解决方案。
云计算提供了资源弹性调整、自动备份和容错机制等功能,与HA技术相辅相成。
例如,使用云服务器来构建一个高可用的系统,可以通过配置自动扩展策略,根据实际需求灵活调整服务器资源,并在服务器出现故障时自动创建新的实例,确保系统始终保持可用性。
然而,HA解决方案并不是完美无缺的。
它也存在一些挑战和限制。
首先,HA方案需要投入相应的资金、人力和时间来实施和维护。
关于vmware HA,DRS
![关于vmware HA,DRS](https://img.taocdn.com/s3/m/672d4efeba0d4a7302763ace.png)
1、 HA(高可用性)群集高可用性(HA)集群是群集的一种,平日较常见的为MSCS(微软群集服务),如SQL的故障转移群集。
高可用性群集,一般有两个或两个以上的节点,且分为活动节点及备用节点。
通常把正在执行业务的称为活动节点,而作为活动节点的一个备份的则称为备用节点。
当活动节点出现问题,导致正在运行的业务(任务)不能正常运行时,备用节点此时就会侦测到,并立即接续活动节点来执行业务。
从而实现业务的不中断或短暂中断(对客户端来说,基本上感觉不到故障的存在)。
高可用性群集的实现是基于资源切换来进行的。
这些资源包括节点的IP地址、主机名(NetBios名称)、磁盘卷、应用程序等。
而资源的监控和接续,是依靠HA软件来实现的如MSCS等,这些软件用来通过"心跳信号"监控群集中对方节点的运行状态,一旦发现对方存在了故障,就会强制将所有的资源据为已有并继续对外提供服务。
而VMwareHA也是高可用性的一种应用。
VMwareHA与传统的群集和高可用性解决方案都支持主机发生故障时的自动恢复。
它们是互为补充的,但是在软硬件要求、恢复时间及应用程序和操作系统的识别程度等方面有所不同。
2、 VMwareHA与VMware Infrastructure 3谈起VMwareHA,就不得不说说VMware Infrastructure 3,VMware Infrastructure3是一个功能丰富的套件,它提供创建响应性数据中心所需的经过生产验证的效率、可用性和动态管理:VMware ESX Server。
用于虚拟化服务器、存储和网络的平台。
VMware VMFS。
用于存储虚拟化的高性能群集文件系统。
VMware Virtual SMP。
为虚拟机提供多处理器支持。
VMware VirtualCenter。
为 IT 基础架构提供集中化管理、操作自动化和优化。
VMware High Availability (HA)。
集群ha方案
![集群ha方案](https://img.taocdn.com/s3/m/bd0b743a178884868762caaedd3383c4bb4cb407.png)
集群ha方案集群HA方案随着互联网的快速发展,大部分企业和组织都面临着如何保证系统的高可用性(High Availability,简称HA)的问题。
在这个背景下,集群HA方案应运而生。
本文将介绍集群HA方案的概念、原理及其在实际应用中的优势和挑战。
一、集群HA方案的概念集群HA方案是通过将多个服务器(节点)组成一个集群,实现系统的高可用性。
在集群中,如果某个节点发生故障或维护,其他节点可自动接管其工作,保证系统的连续运行。
二、集群HA方案的原理1. 心跳检测机制:集群中的每个节点通过周期性发送心跳消息来检测其他节点的健康状态。
如果某个节点停止发送心跳消息,其他节点会认为该节点故障,并将其排除在集群之外。
2. 资源共享:集群中的节点通过共享存储或分布式文件系统来实现数据的一致性和共享。
当某个节点故障时,其他节点可以访问和操作该节点上的数据。
3. 故障切换:当集群中的某个节点发生故障时,其他节点会自动接管该节点的工作,并继续提供服务。
这种故障切换可以在几秒钟内完成,对用户来说几乎是无感知的。
三、集群HA方案的优势1. 高可用性:集群HA方案能够实现系统的持续运行,有效降低系统故障造成的影响。
即使某个节点失效,其他节点仍能提供服务,保证系统的高可用性。
2. 扩展性:集群HA方案可以根据需求灵活扩展节点数量,提高系统的性能和吞吐量。
新增节点可以自动加入集群,无需停机或重启。
3. 负载均衡:集群HA方案通过负载均衡算法将请求均匀分配给各个节点,避免某个节点负载过重。
这样可以提高系统的稳定性和性能。
4. 可靠性:集群HA方案通过冗余节点和数据备份机制来提高系统的可靠性。
即使某个节点或数据出现故障,仍能保证数据的完整性和可恢复性。
四、集群HA方案的挑战1. 配置复杂:集群HA方案需要对每个节点进行配置和管理,包括网络、存储、软件等方面。
这需要专业的技术人员具备丰富的经验和知识。
2. 数据一致性:集群中的节点需要保证数据的一致性,避免数据冲突和数据丢失。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
1.业务连续1.1.共享存储集群业务系统运营时,服务器、网络、应用等故障将导致业务系统无法正常对外提供业务,造成业务中断,将会给企业带来无法估量的损失。
针对业务系统面临的运营风险,Rose提供了基于共享存储的高可用解决方案,当服务器、网络、应用发生故障时,Rose可以自动快速将业务系统切换到集群备机运行,保证整个业务系统的对外正常服务,为业务系统提供7x24连续运营的强大保障。
1.1.1.适用场景基于共享磁盘阵列的高可用集群,以保障业务系统连续运营硬件结构:2台主机、1台磁盘阵列主机备机心跳磁盘阵列局域网1.1.2.案例分析深圳某证券公司案例客户需求分析某证券公司在全国100多个城市和地区共设有40多个分公司、100多个营业部。
经营范围涵盖:证券经纪,证券投资咨询,与证券交易、证券投资活动有关的财务顾问,证券承销与保荐,证券自营,证券资产管理,融资融券,证券投资基金代销,金融产品代销,为期货公司提供中间介绍业务,证券投资基金托管,股票期权做市。
该证券公司的邮件系统承担着企业的内部沟通、关键信息的传达等重要角色,随着企业的业务发展,邮件系统的压力越来越重。
由于邮件服务器为单机运行,如果发生意外宕机,将会给企业的日常工作带来不便,甚至给企业带来重大损失。
因此,急需对邮件服务器实现高可用保护,保障邮件服务器的7×24小时连续运营。
解决方案经过实际的需求调研,结合客户实际应用环境,推荐采用共享存储的热备集群方案。
部署热备集群前的单机环境:邮件业务系统,后台数据库为MySQL,操作系统为RedHat6,数据存储于磁盘阵列。
在单机单柜的基础上,增加1台备用主机,即可构建基于共享存储的热备集群。
增加1台物理服务器作为邮件服务器的备机,并在备机部署邮件系统,通过Rose共享存储热备集群产品,实现对邮件应用的高可用保护。
如主机上运行的邮件系统出现异常故障导致宕机,比如应用服务异常、硬件设备故障,Rose将实时监测该故障,并自动将邮件系统切换至备用主机,以保障邮件系统的连续运营。
客户端局域网心跳电子邮件服务器(主机)电子邮件服务器(备机)磁盘阵列系统特点业务连续运营实时监测邮件服务运行状态,如出现软、硬件故障,自动将邮件系统切换至备用主机,以保障邮件系统连续运营。
⏹容错结构基于共享存储的热备集群,由2台服务器、1台磁盘阵列构成,服务器、磁盘阵列等硬件设备容错,解决单点故障。
⏹监控应用和系统资源实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。
⏹充分利用现有资源可利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。
⏹简化运维Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。
提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。
1.2.数据镜像集群随着服务器硬件及软件的发展,服务器的性能、内部存储容量以及网络传输能力等都有了大幅度地提升,服务器在应对主流业务方面提供了更加强大的能力。
传统高可用性系统中必须通过共享存储来实现数据的一致性和连续性,这个特性无形中增加了可用性系统的成本。
Rose基于以太网络TCP/IP协议,通过数据实时镜像技术,在两台主机之间实现不需要共享存储的纯软高可用系统。
如此灵活的双机高可用系统配置方式,用户可以在充分利用已有资源的基础上,根据自己的实际硬件环境来选择。
该解决方案采用HA技术对主机的IP、应用程序、数据存取等进行监控和保护。
当应用程序或主机发生故障后,Rose将自动、快速地切换应用到备机,保障应用服务的连续运营。
1.2.1.适用场景基于主机的数据镜像高可用集群,以保障业务系统连续运营。
硬件结构:2台主机1.2.2.案例分析某百货公司是一家香港联交所主板挂牌上市公司,并控股多家A 股上市公司。
经过十余年长足发展,该公司年销售额近100亿元,居中国百货零售业前列,目前在全国华南、西南、华北、华东区域20个城市共拥有40多家门店。
项目背景及需求该百货公司每个门店销售管理系统均由运行在RedHat 5.4平台上前端管理应用服务和Sybase数据库服务构成,其中Sybase数据库服务作为前端销售管理应用服务的核心后台数据库,无疑是系统中最为重要的一个环节。
项目实施前,客户后台Sybase数据库均运行在单机系统上。
项目实施目标:为该公司旗下所有的门市销售管理系统,提供保障业务连续运营不间断的基础环境,实现各个门市销售管理系统持续不间断运营,为提高各个门市销售效率,同时,减小全公司系统管理人力和财力成本。
解决方案作为整个方案的重点,门市销售管理系统的核心后台Sybase数据库,需要能够连续不间断运营来确保整个系统的可用性。
通过慎重方案筛选及客户现有资源等因素综合考虑,Rose公司推荐其采用基于数据镜像的业务连续性产品,将该公司旗下某市城区的八个客流量较大的商场销售管理系统后台Sybase数据库组成镜像热备方案保护业务连续工作。
总体架构描述因各商场硬件平台不同,有些商场硬件配置增加1台服务器作为Sybase数据库备机,有些商场利用前端应用服务器作为Sybase数据库备机,充分运用硬件资源,在软硬件环境准备就绪后,通过Rose 解决方案搭建基于数据镜像的热备集群。
实现过程以某一个门店为例作详细说明。
正常情况下,2台服务器中的1台服务器作为Sybase主机,通过活动IP对外提供服务,主机产生的数据会直接写入主机的本地磁盘,同时通过Rose解决方案,将实时捕获到的变动数据,通过网络实时传输到备机,从而保证两台服务器数据的一致性。
在此基础上,如果主机出现故障(服务器宕机,应用系统故障,网络故障等情况),导致所保护的应用程序无法继续对外提供服务,主机会在保证数据一致性前提下,通过Rose解决方案将Sybase数据库切换到备机运行,继续对外提供服务,确保生产管理系统持续运营工作。
数据复制心跳局域网数据库主机数据库备机系统特点⏹ 业务连续运营实时监测Sybase 数据库运行状态,如出现软、硬件故障,自动将数据库服务切换至备用主机,以保障数据库系统的连续运营。
⏹ 数据实时复制应用在线的数据实时复制,保障主、备机的数据一致性。
并支持计划快照任务,可定期为数据创建快照记录,进一步保障数据安全。
⏹ 多种监控方式实时监测应用服务运行状态,并支持深度监控CPU/内存资源使用率,可进行智能预警和策略切换。
⏹ 架构灵活无需磁盘阵列设备,即可构建热备集群,方案架构灵活。
可充分利用现有软、硬件资源,轻松构建热备集群方案,避免重复投资。
简化运维Rose提供友好的图形化界面,用户可以远程管理热备集群,并监管集群工作状态。
提供多种事件告警方式,比如在线状态、在线日志、短信、邮件等,方便用户进行日常管理,从而简化运维工作,降低运维难度。
2.灾备恢复2.1.远程容灾随着IT行业的发展,用户核心系统重要性逐渐凸显,为了应对核心系统的可靠性,用户纷纷开始构建自己的容灾系统,实现核心系统的远程容灾保护。
Rose针对用户的需求提供远程容灾方案,一旦生产中心发生灾难事故,可以把核心系统快速转移到容灾系统上继续运营,达到RPO≈0、RTO=分钟级的远程容灾级别。
2.1.1.适用场景用户根据系统环境、网络环境,结合容灾需求等情况,构建远程容灾方案。
在不改变用户现有架构的情况下,适用于本地及远程的应用系统和核心数据的容灾备份场景。
2.1.2.案例分析客户为华东地区某市的一个天然气供应商,是该市工业园区城市燃气基础设施投资、建设、管理和运营的主体,每天为10多万户家庭和超过1000家企事业单位提供洁净天然气。
项目背景及需求客户在总部部署有多套业务系统,包括OA、ERP、数据采集SCADA、燃气客户管理系统等,分别部署在多台服务器上,考虑到各种突发事件可能导致的业务中断及数据丢失,客户计划在距离总部10公里地方部署容灾机房,将相关业务系统通过容灾机房服务器保护,达到数据和应用的冗余保护。
项目实施目标为企业相关核心系统实现异地的数据+应用容灾保护,在本地机房出现故障时,能够在容灾机房快速启用相关服务,保持业务系统对外连续、稳定运行。
解决方案推荐采用基于数据容灾的旗舰产品—RoseReplicator,部署企业核心系统的异地数据+应用保护方案。
⏹总体架构描述通过和客户沟通,计划在容灾机房通过一台高性能服务器,采用VMware ESXi虚拟化方式,虚拟出多个虚拟机,分别对应多台生产服务器,通RoseReplicator部署多个1to1的数据+应用保护模式来保护不同的应用程序。
网络层面,客户在两地通过运营商专网实现100M 带宽通信,确保数据传输稳定性。
⏹实现过程以管理系统为例:容灾机房的虚拟机保持和原生产服务器相同操作系统,应用程序和数据库部署方式保持一致,通过RoseReplicator搭建1-1数据保护模式,将管理系统生产服务器的数据实时复制到容灾服务器上,确保两台机器数据一致性。
当主服务器出现故障时,可通过备用服务器快速恢复业务系统;当本地机房完全瘫痪时,可通过容灾机房公网IP将服务映射出去,对外提供服务;当本地服务器恢复后,可通过恢复向导将数据快速恢复至生产服务器,继续通过生产服务器对外提供服务。
⏹解决方案示意图方案效果核心数据的异地容灾备份核心应用系统的容灾切换多种数据删除模式避免误删除灵活的网络带宽限制策略远程集中统一管理方案总结通过虚拟化平台下搭建容灾方案,为客户节省不少硬件投入,满足客户数据异地保护需求。
2.2.云容灾越来越多的用户计划将其业务系统或数据迁移至云。
业务和数据迁移至云端,业务系统的运营和数据将完全托管于云服务商,而如何对云端的业务系统和数据进行有效控制和容灾保护,也是用户将业务迁移至云需考虑的一个重要环节。
结合云平台,常见的容灾模式有如下几种:本地至云将生产中心的数据和业务实时灾备至云端,如生产中心出现事故,可迅速利用云端的容灾系统及时接管业务。
云至本地用户将业务迁移至云端,可将云端的业务数据实时灾备至用户本地机房,可有效控制业务和数据安全。
不同区域的云之间不同区域的云之间,构建数据和业务灾备,最大化保障业务系统和数据的安全。
2.2.1.适用场景本地至云,云至本地,不同区域的云之间,构建云容灾方案2.2.2.案例分析某公司是全球最大的中央处理器散热风扇(CPU Cooler)供应厂商,为深圳高新技术企业。
公司主要生产制造散热片(Heat Sink)、风扇(DC Fan)、导热管(Heat Pipe)等。
在工厂生产流水线作业平台信息化建设过程中,需对核心MES业务系统构建容灾保护,以保障MES系统能够抵御灾难事故。
容灾方案部署前,MES系统数据库已迁移至微软云,并使用云端高可用技术实现业务系统的连续性保护,、、武汉等分公司均通过VPN网络访问云端数据库。