核心系统高可用性设计

合集下载

haa方案

haa方案

HAA方案简介HAA(Highly Available Architecture)是一种设计理念,旨在为系统提供高可用性和容错性。

HAA方案通过将系统的关键组件复制至多个节点,并且在节点之间进行实时数据同步,以实现故障转移和负载均衡,从而保证系统的稳定性和可靠性。

HAA方案的核心原则HAA方案的设计遵循以下核心原则:1.冗余:至少有两个或以上的节点可以提供服务,即使一个节点出现故障,其他节点可以接管服务。

2.实时数据同步:各节点之间需要实时同步数据,以保证数据的一致性。

3.自动故障检测和转移:一旦某个节点发生故障,其他节点需要自动检测并接管该节点的服务,以避免系统中断。

4.负载均衡:系统需要平衡各节点的负载,确保所有节点的负载相对均衡,提高系统的性能和可扩展性。

HAA方案的实现方法实现HAA方案通常会采用以下方法:1.主-从复制:采用主-从复制方式,将主节点的数据实时同步到从节点,一旦主节点发生故障,从节点可以接管数据服务。

2.负载均衡器:引入负载均衡器,将请求分发至各个节点,实现负载均衡。

常用的负载均衡器有Nginx、HAProxy等。

3.心跳检测:各节点通过心跳检测来实时监测其他节点的存活状态,一旦节点发生故障,其他节点可以即时接管服务。

4.故障转移机制:采用自动故障检测和转移机制,一旦某个节点发生故障,其他节点会自动检测并接管该节点的服务。

5.数据备份:定期对数据进行备份,以防止数据丢失。

可以使用数据库备份工具或者服务商提供的数据备份服务。

HAA方案的优势HAA方案具有以下优势:1.可靠性:HAA方案通过冗余复制和实时数据同步,提供了高可用性和容错性,系统可以在单个节点发生故障的情况下继续提供服务。

2.扩展性:通过负载均衡机制,系统可以平衡各节点的负载,提高系统的性能和可扩展性。

3.性能:HAA方案可以将请求分发至多个节点,实现并行处理,提高系统的整体性能。

4.可维护性:HAA方案可以实现自动故障检测和转移,减少人工干预,降低系统维护的复杂性。

高可用性和高可靠性的系统设计和开发

高可用性和高可靠性的系统设计和开发

高可用性和高可靠性的系统设计和开发在当今的信息时代中,系统的可用性和可靠性越来越受到重视。

无论是企业的核心业务系统还是科研机构的数据处理系统,都需要具有高可用性和高可靠性才能保证系统的稳定运行。

本文将从系统设计和开发两个方面,探讨如何实现高可用性和高可靠性的系统。

一、系统设计1.系统架构在系统设计中,选择适合的系统架构是至关重要的一步。

常用的系统架构有两种:基于主从复制的架构和基于多副本的架构。

基于主从复制的架构在主库上进行数据更新,而从库则通过主库的日志进行数据同步。

这种架构的优点是实现简单,缺点是容错性不够强,如果主库故障,从库无法继续提供服务。

基于多副本的架构则是将数据同时存储在多个副本中,每个副本都可以提供服务。

这种架构的优点是容错性强,缺点是实现复杂,需要解决数据一致性和负载均衡等问题。

在架构选择上,需要根据具体的业务需求和实际情况进行权衡和选择,以实现系统的高可用性和高可靠性。

2.负载均衡负载均衡是指将请求分发到多个服务器上,以实现请求的均衡分配和服务的高可用性。

常用的负载均衡策略有轮询、随机和最少连接等。

在负载均衡的实现中,需要考虑服务器的性能和负载情况,以确保请求被分发到处理能力最好的服务器上。

此外,还需要进行监控和异常处理,及时发现故障并进行容错处理。

3.容错机制容错机制是指系统在发生故障时,能够保持正常的运行和服务。

常用的容错机制有备份和恢复、数据复制和冗余等。

备份和恢复是指将系统的数据和配置进行备份,并在故障发生时快速进行恢复。

数据复制和冗余是将数据存储在多个位置,保证数据的可靠性和容错性。

此外,还有定期检查和维护等容错措施。

二、系统开发1.代码质量系统的高可用性和高可靠性离不开代码质量的保证。

在系统开发的过程中,需要重视代码规范和测试,确保代码的可读性和可维护性,并通过单元测试和集成测试等方式,对代码进行全面的测试和验证,发现并解决潜在的问题。

2.异常处理在系统开发中,需要对各种异常情况进行充分的考虑和处理,确保系统在发生异常时能够进行正常的处理和容错。

设计模式之高可用性设计

设计模式之高可用性设计

设计模式之高可用性设计随着互联网技术的快速发展,高可用性成为了各大企业的核心竞争力之一。

高可用性设计不仅可以防止系统出现故障而引起的服务中断,而且可以提高系统的性能和稳定性,通过故障自动转移和自动容错实现系统最大的可用时间和可靠性,从而更好地满足用户的需求和期望。

高可用性设计需要从多个方面展开,包括硬件、软件、网络、数据中心等各个环节。

而在软件开发中,设计模式是提高系统高可用性的重要手段之一。

下面将介绍一些常用的高可用性设计模式。

1. 负载均衡模式负载均衡是指将大量的客户端请求均衡地分配到多个服务器集群中,从而提高系统性能和可用性。

负载均衡模式主要包括软件负载均衡和硬件负载均衡。

软件负载均衡使用一些特定的算法来分配请求,常见的算法包括轮询、加权轮询、哈希、IP散列等。

而硬件负载均衡则使用专门的负载均衡设备来实现。

例如,互联网上的一些大型电商、社交等网站,通常采用负载均衡来分散访问压力,以提高系统可用性和性能。

2. 冗余容错模式冗余容错是指在系统中引入冗余的硬件或软件,以保证即使部分组件出现故障,系统依然能够继续正常运行。

冗余容错模式主要包括备份、镜像、副本等。

例如,在一个企业级应用系统中,数据库是关键的组成部分之一。

为了提高数据库的可用性,可以通过数据镜像、主备复制等方式来实现冗余容错,从而保证系统数据的完整性和可靠性。

3. 容错恢复模式容错恢复是指当系统出现故障或异常时,能够迅速恢复到正常运行状态。

容错恢复模式主要包括预检测、热备份、快速恢复等。

例如,在一个在线支付系统中,为了防止支付过程中出现故障而导致用户资金损失,需要采用容错恢复模式来保证支付系统的可用性和安全性。

4. 信息重构模式信息重构是指将系统中的信息分成多个组件,从而使得每个组件的数据量尽可能的小,并能够快速更新。

信息重构模式主要包括分离、分治、重构等。

例如,在一个大型的数据分析系统中,需要将数据分成多个维度来分析,通过信息重构模式可以使得数据分析更加高效和准确,从而提高系统的可用性和性能。

高可用解决方案

高可用解决方案

高可用解决方案在当前数字化时代,数据的持续可用性对于企业和组织来说至关重要。

无论是在线交易、数据存储还是在线服务,高可用性都是确保业务连续运行和客户满意度的关键因素。

高可用性解决方案提供了一套完善的系统和策略,可以在硬件或软件出现故障时继续保持服务的可用性。

本文将介绍高可用性解决方案的原理和常见的应用。

1. 高可用性解决方案的原理高可用性解决方案的核心目标是在单点故障的情况下保持系统的持续可用性。

为了实现这一目标,高可用性解决方案通常采用以下原理:冗余:通过使用多个相同或相似的组件来创建冗余,确保一个组件的故障不会影响到整个系统的可用性。

例如,可以使用多台服务器来运行相同的应用程序,一台服务器的故障不会导致整个应用程序不可用。

负载均衡:将流量均匀分布到多个服务器上,避免某一台服务器过载而导致系统的不可用性。

负载均衡技术可以根据服务器的性能和负载情况智能地分配请求。

监控和自动恢复:定期监控系统状态,及时发现故障并采取相应的措施。

自动恢复机制可以自动重新启动失败的组件,并将流量转移到可用的组件上。

2. 高可用性解决方案的应用高可用性解决方案可以应用于各种不同的场景和系统。

以下是一些常见的应用案例:Web应用程序:对于基于Web的应用程序,高可用性解决方案可以确保用户能够随时访问应用程序,不受服务器故障或网络问题的影响。

通过配置多台服务器和负载均衡技术,可以实现用户请求的快速响应和高吞吐量。

数据库系统:数据库是许多企业关键业务的核心组件。

高可用性解决方案可以确保数据库在发生故障时能够快速恢复,并提供数据的持续可用性。

通过数据库复制和故障转移技术,可以在主数据库故障时自动切换到备用数据库,实现最小的服务中断时间。

云计算平台:对于云计算平台来说,高可用性是一个关键要素。

云计算平台需要处理大量的计算任务和数据存储,并提供稳定和可靠的服务。

通过使用负载均衡、动态伸缩和自动备份等技术,可以确保云计算平台的高可用性和弹性。

系统架构设计方案

系统架构设计方案
4.系统部署:分阶段实施系统部署,确保系统顺利上线。
5.系统验收:对系统进行严格测试,确保满足设计要求。
6.运维管理:建立健全运维管理制度,提高系统稳定性和运维效率。
六、预期效果
1.系统性能显著提升,满足企业业务发展需求。
2.系统具备良好的扩展性,适应未来业务变化。
3.系统安全性得到有效保障,降低安全风险。
4.安全架构
(1)采用防火墙、入侵检测和防病毒系统,保障网络安全。
(2)对重要业务系统进问。
(4)定期进行安全漏洞扫描和风险评估,及时修复安全隐患。
五、实施方案
1.项目筹备:成立项目组,明确项目目标、范围、时间表和预算。
2.技术选型:根据业务需求,选择合适的硬件、软件及网络设备。
3.系统设计:完成系统架构设计,制定详细的设计方案。
4.系统实施:按照设计方案,分阶段进行系统部署和调试。
5.系统验收:对系统进行测试,确保满足设计要求。
6.运维管理:建立健全运维管理制度,确保系统稳定运行。
六、预期效果
1.系统性能得到显著提升,满足业务发展需求。
2.系统扩展性增强,适应未来业务变化。
(2)服务器硬件配置采用冗余设计,提高系统可靠性。
(3)服务器操作系统和数据库采用成熟稳定的商业产品。
(4)服务器集群部署,实现负载均衡和故障转移。
3.数据存储架构
(1)采用分布式存储技术,提高数据读写性能。
(2)数据存储设备采用冗余设计,确保数据安全。
(3)定期进行数据备份,防止数据丢失。
(4)建立数据容灾中心,实现数据的远程备份和恢复。
5.易维护:采用标准化、模块化的设计,降低系统维护难度。
四、系统架构设计
1.网络架构

高可用性 HA 系统架构设计与应用研究

高可用性 HA 系统架构设计与应用研究

高可用性 HA 系统架构设计与应用研究高可用性(High Availability,HA)系统架构设计与应用是现今企业信息化建设的重点,也是IT行业中的热门话题。

随着数字经济的不断发展,计算机系统已经成为企业生产力和效益提升的重要手段,而一个稳定、高效、可用的计算机系统架构,对企业运营效率的提升有着不可低估的作用。

一、HA系统构成HA系统是一种特殊的计算机系统,在设计 HA 系统架构时,需要考虑以下几个方面:1. 网络拓扑结构企业信息网络是构建 HA 系统的基础,需要稳定、安全、冗余的网络拓扑结构来实现系统高可用性。

网络拓扑结构包括核心交换机、分布式交换机、服务器等。

2. 存储存储系统是企业信息化建设的核心组成部分,本身需要具备高可靠性、高可用性、高稳定性等特点。

在 HA 系统中,存储设备也需要具备冗余、备份、数据恢复等特性。

3. 服务器集群服务器集群是 HA 系统的核心,通常将应用系统、数据库、网关、消息队列等业务服务进行集中管理,以便在其中任一节点在发生故障或异常时,系统能自动切换到另一节点上保证业务的连续性。

4. 负载均衡负载均衡系统实现了 HA 系统的自动切换,同时能充分利用系统资源进行负载均衡,优化系统性能,提高企业运营效率。

二、HA系统架构设计在 HA 系统的架构设计中,需要考虑到系统的可扩展性、灵活性、低成本等,具体需求如下:1. 冗余设计在 HA 系统的设计中,需要采用冗余设计,例如冗余服务器、冗余磁盘、冗余电源、冗余网络设备等,保证系统稳定、可靠、可用。

2. 应用服务规划在HA 系统架构设计中,需要根据企业业务规模,确定应用服务的规划、部署、运维模式。

例如,需要根据应用服务的特点,将系统中的各个业务服务进行分类、集中管理,实现业务模块的切分,从而实现系统的可扩展性。

3. 异地容灾在企业信息化建设中,异地容灾是保障系统可用性的核心手段之一。

因此,在HA 系统的架构设计中,需要考虑到异地容灾备份设施的规划、设计、建设、测试等环节。

高可用性网络架构的设计思路

高可用性网络架构的设计思路

高可用性网络架构的设计思路一、高可用性网络架构的概述高可用性网络架构是指在设计网络系统时,通过各种技术和策略确保网络服务的持续性和可靠性,即使在部分硬件或软件发生故障的情况下,也能保持服务的可用性。

这种架构对于需要24/7不间断服务的企业至关重要,例如金融、医疗和在线服务行业。

1.1 高可用性网络架构的核心目标高可用性网络架构的核心目标是实现服务的零中断或最小化中断时间。

这包括但不限于以下几点:- 故障转移:在主服务发生故障时,能够快速切换到备用服务。

- 冗余设计:通过硬件和软件的冗余设计,确保单一故障点不会导致整个系统的瘫痪。

- 负载均衡:合理分配网络流量,避免单点过载。

- 监控和预警:实时监控网络状态,及时发现并预警潜在问题。

1.2 高可用性网络架构的设计原则设计高可用性网络架构时,应遵循以下原则:- 模块化:将网络划分为多个模块,便于管理和故障隔离。

- 可扩展性:设计时应考虑未来可能的扩展需求。

- 容错性:系统应能够容忍一定程度的错误或故障。

- 安全性:在保证高可用性的同时,也要考虑网络安全。

二、高可用性网络架构的关键技术实现高可用性网络架构需要依赖一系列关键技术,这些技术共同作用,提升网络的稳定性和可靠性。

2.1 网络冗余网络冗余是高可用性设计的基础,包括:- 双活数据中心:两个数据中心同时在线,互为备份。

- 多路径路由:设计多条路由路径,确保一条路径故障时,流量可以自动切换到其他路径。

- 冗余硬件:关键设备如路由器、交换机等应有备份,实现热备份或冷备份。

2.2 负载均衡技术负载均衡技术可以有效地分配网络流量,防止单点过载,提高系统的整体性能和响应速度。

包括:- 硬件负载均衡器:部署在网络的关键节点,进行流量的分配。

- 软件负载均衡:通过软件定义的方式,实现流量的智能分配。

2.3 故障检测与自动恢复故障检测与自动恢复机制能够快速识别问题并采取措施,减少服务中断时间。

包括:- 心跳检测:定期检测服务状态,一旦检测到异常立即触发恢复流程。

路由器的高可用性设计

路由器的高可用性设计

路由器的高可用性设计路由器作为网络中的核心设备,承担着网络数据传输和路由转发的重要任务。

在计算机网络中,高可用性是指系统能够在没有计划停机期间持续运行,并且能够在部分故障或系统维护时保持足够的可用性。

为了确保网络的稳定运行,路由器的高可用性设计显得十分重要。

本文将介绍路由器的高可用性设计,并探讨一些提高可用性的方法和策略。

一、冗余设计冗余设计是提高路由器高可用性的重要手段。

冗余设计就是在一个系统中增加一个或多个可靠备份的组件,以防止主要组件的故障导致系统无法继续正常工作。

在路由器的高可用性设计中,常见的冗余设计包括硬件冗余和软件冗余。

硬件冗余是通过使用冗余的硬件组件来保证系统的可用性。

例如,使用双电源模块和双路由器模块,当一台路由器发生故障时,另一台路由器能够自动接管工作,从而确保网络的连续性。

另外,还可以通过使用冗余的传输线路和冗余的接口卡来提高网络的稳定性。

软件冗余主要指的是在路由器内部使用冗余的软件模块来增加系统的可用性。

例如,使用热备份技术,将主备份路由器配置成两台完全相同的路由器,当主路由器发生故障时,备份路由器可以快速接管主路由器的工作,实现无缝切换。

此外,还可以通过使用冗余的路由协议和冗余的路由表来提高路由器的容错能力。

二、负载均衡负载均衡是指将网络流量在多个路由器之间进行均衡分配,以提高网络的吞吐量和响应速度。

通过实现负载均衡,可以避免某个路由器过载而导致性能下降。

在路由器的高可用性设计中,负载均衡可以通过多路径路由和链路聚合来实现。

例如,可以使用ECMP(Equal-Cost Multi-Path)技术,在网络中的多个路由器之间均匀地分配数据流量,从而提高网络的负载均衡性能。

此外,还可以使用链路聚合技术,将多个物理链路组合成一个逻辑链路,有效地提高网络的带宽和可靠性。

三、故障检测和恢复故障检测和恢复是保证路由器高可用性的关键环节。

通过及时检测故障并快速恢复,可以减少网络中断的时间和影响范围,保证网络的连续性。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

关于系统稳定性策略的探讨1.前言系统作为业务系统的核心,其运行稳定性和高可用性至关重要。

因此,需要通过高可用性设计来尽量减少系统的计划内和计划外停机,并在系统出现故障时及时响应、快速恢复,以保障关键数据和业务系统的运行稳定性和可持续访问性。

其中:1.计划内停机是指管理员有组织、有计划安排的停机,比如升级硬件微码、升级软件版本、调整数据库库表、更换硬件设备、测试系统新功能等时,可能需要的停止系统运行。

2.计划外停机是指非人为安排的、意外的停机,比如当硬件出现重大故障、应用程序停止运行、机房环境遭到灾难性的破坏时所引起的业务系统停止运行。

目前,对于计划内和计划外停机,可通过消除系统中的单点失效来尽量减少停机时间。

同时,通过采用可在线维护(固件升级、在线扩充、故障部件更换)的设备,并通过负载均衡机制实现应用系统的在线升级、维护,将有效消除计划内停机对业务系统的影响。

此外,由于系统中采用了全面的负载均衡设计,并针对系统失效提供了可靠的数据备份恢复和多点容灾保护,因而能够有效减少系统计划外停机的恢复时间。

在造成系统宕机的原因方面,有统计中表明并非都是硬件问题。

其中,硬件问题只占40%,软件问题占30%,人为因素占20%,环境因素占10%。

因此,高可用性设计应尽可能地考虑到上述所有因素。

对于系统而言,其整体的可用性将取决于内部的应用系统、主机、数据库等多种因素;同时,训练有素的系统维护人员和良好的服务保障也是确保系统稳定运行和故障快速恢复的关键。

2.应用系统系统在应用软件架构设计中应从渠道层、渠道管理层、业务处理层等不同层面通过多种措施和策略的综合设计来提高应用系统的高可用性和稳定性。

在渠道管理层和业务处理层的设计中,要考虑设置应用负载均衡、应用软件失效备援、vip服务通道、流量控制、故障隔离等机制。

1.应用负载均衡应用软件负载均衡通过多个层次上不同的负载均衡策略一起实现整体的负载均衡,应用负载均衡的设计思路是将大量的并发访问或数据流量分担到多台节点设备上分别处理和将单个重负载的运算分担到多台节点设备上做并行处理来达到负载均衡的效果,从而提高服务响应速度,提高服务器及其他资源的利用效率,避免服务请求集中于单一节点导致拥塞。

2.应用软件失效备援应用软件构建在面向服务的架构、设计思想上,应用服务具有较高的可灵活部署性。

通过这种灵活性,结合系统基础设施的规划、部署可以实现应用软件的失效备援。

系统可以考虑实现基于应用服务和基于应用服务管理框架的多种应用软件失效备援机制。

基于应用服务的失效备援是在应用服务管理框架中可以实现应用服务的冗余部署,利用硬件负载均衡设备或应用软件负载均衡可以在需要时将服务请求切换到相应的冗余服务。

基于应用服务管理框架的失效备是将应用服务框架在系统中冗余部署,利用硬件负载均衡设备或应用软件负载均衡可以在需要时将服务请求切换到相应的冗余的应用服务管理框架。

3.vip服务通道在系统中,从系统运行稳定性、持续性及处理性能的角度,配合物理设备、系统支撑软件(数据库系统、操作系统)的相关措施,应用软件可通过构建VIP服务通道的方式降低应用服务运行期间的相互影响。

服务通道可以基于不同业务产品或不同应用服务管理框架的不同粒度来设置,从而满足部分应用处理资源只响应特定的服务请求或不同的服务监听响应不同的通道传递过来的服务申请的功能。

4.流量控制在系统中,从系统运行稳定性、持续性角度,配合物理设备、系统支撑软件(数据库系统、操作系统)的相关措施,应用软件可以通过对服务请求的流量控制机制,在系统性能波动较大时间段,对少部分影响程度高的交易进行流量控制,保障系统运行平稳运行。

流量控制是大集中系统体系结构中提供的通过应用软件对系统实施控制的功能。

流量控制基于大集中系统逻辑架构,依据系统、子系统、渠道等不同层面的交易流量、交易状态和确定的控制策略、控制规则,对系统实施控制。

应用系统具有如下功能:a)流量数据采集:支持流量数据的采集功能。

b)流量值计算:完成对采集的流量数据进行计算,检索出有流量超过额定量的服务或交易,为后续的流量控制提供依据。

c)交易流量控制:支持针对特定交易进行流量控制。

如:针对网络流量大的交易做控制,如报表文件传输;交易高峰期对批量业务进行流量控制。

d)渠道流量控制:支持按照渠道进行流量控制;e)控制策略及规则管理:支持控制策略及规则的配置,修改等功能。

5.故障隔离在系统中将考虑实现故障隔离机制,在应用软件系统发生故障的时候,通过故障隔离把故障造成的危害限制在最小范围内,提高系统提供对外服务的整体能力水平。

故障隔离是大集中系统体系结构中提供的通过应用软件对系统实施控制的功能,应用软件设计可考虑应用服务、应用服务框架的灵活部署,支持多角度,多层次的故障隔离。

应用系统具有如下功能:a)支持按渠道的故障隔离,例如:当POS渠道交易响应慢,可停止POS渠道的对外服务功能。

b)支持按子系统的故障隔离,例如:当查询子系统出现异常时,可停止查询子系统的对外服务功能。

c)支持异常服务的故障隔离,例如:若某服务出现异常(如服务COREDOWN),可停止此服务的对外服务功能。

d)支持按交易的故障隔离,例如:若某查询交易出现服务堵塞,可停止此交易的对外服务功能。

在渠道层的设计中,可考虑采用网络负载均衡、vip服务通道等机制。

6.网络负载均衡在柜面网点前置系统侧,可以考虑采用硬件负载均衡器对网点终端连接到网点前置的负载均衡,利用负载均衡器的连接状态检查和负载均衡策略可以灵活地调整终端的连接指向,屏蔽因网点前置机故障导致的终端操作异常,提高网点前置系统的可用性。

7.VIP服务通道渠道层的VIP服务通道与业务处理层的VIP服务通道均针对提高系统的可用性,但是在建设方式上有所区别。

渠道层的VIP服务通道不仅可以通过渠道层相关应用软件的服务通道设立来实现,还可以考虑通过设置物理上相互隔离的不同渠道通路来实现。

3.主机系统主机系统作为各应用系统的运行平台,其可用性和稳定性是业务系统能够持续、稳定运行的前提。

根据应用软件架构设计,每个子系统的功能通过硬件负载均衡机制部署于多套主机设备上,从而消除单台主机所引入的单点故障。

对于单台主机系统而言,其高可用性和运行稳定性可从以下几方面加以保障:1.主机自身的高可靠性主机采用高度冗余设计,可充分保障自身的运行可靠性,如:多处理器架构、冗余电源、冗余风扇、冗余时钟、冗余IO等;同时,主机采用多种容错技术,可有效提升自身的可靠性,如:内存与高速缓存上的检错与纠错(ECC)、内存双芯片备用、内存和处理器自动解除配置、用于监控系统状态的独立的服务处理器等。

2.主机关键部件全冗余配置为确保主机运行的可靠性和稳定性,系统主机的所有关键部件均采用了冗余配置,以消除主机自身的单点故障,其中包括:a)配置热插拔N+1或N+N冗余电源、风扇,避免电源或风扇失效造成的硬件故障或宕机。

b)配置冗余系统盘,并通过操作系统进行系统盘的RAID 1镜像保护;或采用SAN BOOT系统盘,在实现存储网络连接全冗余的同时,通过在SAN BOOT磁盘组中采用高可靠级别的RAID技术(如RAID10+热备盘)、不同存储设备中的启动盘映像副本选择启动、磁盘阵列镜像(即“双阵列启动”)等技术,切实保证SAN BOOT的可用性。

c)配置冗余网卡,并根据实际需求采用多网卡绑定技术,实现多网卡间的自动冗余和流量的负载均衡,以提供更高的数据带宽和链路的高可用性。

d)配置冗余光纤通道HBA卡和InfinibandHCA卡,并通过多路径软件(操作系统或第三方软件支持)来实现多HBA/HCA卡的自动冗余与IO负载均衡。

e)配置冗余的主机管理处理器,能够在线配置、管理主机并监控主机状态,同时支持透明接管和在线更换管理处理器。

3.主机自身的高可维护性主机的高可维护性对于消除计划内停机的影响至关重要,主机通过其在线维护功能来确保其计划维护期间的高可用性。

其中:a)主机支持固件的在线升级,避免了因固件升级造成的计划内停机。

b)在主机上采用高可用操作系统,通过支持在线处理单元板增加与删除、动态内核调试、动态可加载内核模块框架(支持在线IO驱动加载与补丁升级)、PCI错误自动修复、动态错误管理与安全隔离、动态根盘(支持软件在线补丁升级)等高可维护特性来实现不停机的IO驱动、操作系统和应用软件的版本、补丁升级,从而避免了因软件版本或补丁升级造成的计划内停机。

c)主机的处理单元板、电源、风扇、磁盘、IO等关键部件均支持在线增加与删除,同时其硬件支持热插拔,可实现故障部件的在线更换,避免了因部件更换造成的计划内停机。

4.主机系统的高可用性设计在主机上设计采用了电气隔离的动态硬件分区技术,同时各分区采用相互独立、冗余的IO 配置以实现自身的高可靠性。

硬件分区技术在优化主机资源利用的同时,可在同一主机硬件内全面隔离分区故障。

如果一个分区中的操作系统、软件或甚至是硬件出现问题,运行在其他分区中的操作系统和软件均不受影响。

在主机硬件分区的基础上,系统设计采用多个主机分区形成集群来为各业务应用提供运行支撑,同时各主机集群通过Oracle RAC或网络负载均衡机制实现主机间的负载均衡和自动冗余。

为保证最大的可用性,应将同一集群内的不同分区分别部署在相互独立的主机硬件上,并通过各分区相互独立的IO接入数据网络、心跳网络和存储网络,从而确保了主机系统整体的高可用性。

5.主机系统的高可恢复性设计可恢复性定义了系统修复故障和恢复正常运行的能力。

主机系统的可恢复性从一定程度决定了系统出现故障时是否能够自动修复和快速恢复,应通过主机系统的备份与容灾设计来确保其高可恢复性。

其中:a)对主机系统盘定期进行自动化克隆备份,以便于版本管理和系统盘的失效恢复,同时其备份的系统盘映像副本可用于主机在线软件、补丁升级维护(通过动态根盘技术实现)。

b)目前,系统中采用了两地三中心+同址备援的容灾体系设计。

在上述容灾体系中,通过以下方式实现主机系统的灾难恢复:➢同城容灾:现阶段基于存储同步复制实现数据级容灾,今后可考虑通过主机的城际集群实现同城灾备中心与主中心间的主机系统自动灾难接管。

➢异地容灾:可基于存储异步复制、Oracle DataGuard等技术实现应用级容灾,今后可考虑通过主机的洲际集群实现异地灾备中心与主中心间的主机系统自动灾难接管。

➢同址备援:可通过存储阵列的异步复制和Oracle DataGuard等技术来减少Oracle数据库逻辑数据块损坏故障对业务系统造成的影响,相关系统主机可按策略实现故障接管。

通过上述高可用性设计,主机系统中将不再存在单点故障隐患,这充分保证了主机系统的可靠性;同时,主机的高可维护性设计保证了主机能够在线进行故障硬件更换、在线扩充、不停机进行软件和补丁升级,从而有效避免了主机的计划内停机,提高了主机系统的可用性和稳定性;此外,通过备份、容灾设计,在一定程度上保证了主机系统在发生故障或遭到灾难时能够快速恢复服务,从而确保了系统的业务连续性。

相关文档
最新文档