云平台数据管理运维服务方案
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
云平台数据管理运维服务方案
目录
1. 运维方案 (3)
1.1概述 (3)
1.2运维服务方案 (3)
1.2.1 平台层运维 (3)
1.2.2 数据层运维 (92)
1.2.3 功能应用运维 (140)
1.3优化完善方案 (276)
1.3.1 平台层优化完善 (276)
1.3.2 数据层优化完善 (308)
1.3.3 功能应用优化完善 (320)
1.3.4 数据服务及优化 (778)
2. 其他功能描述 (779)
2.1其他优化需求 (779)
2.2非功能性需求 (780)
2.2.1 范围 (780)
2.2.2 可用性 (780)
2.2.3 易用性 (780)
2.2.4 可维护性 (781)
2.2.5 低耦合性 (782)
2.2.6 可伸缩性 (782)
2.2.7 架构约束 (782)
1.运维方案
1.1概述
优化完善和运维方案重点描述我公司在本项目实施过程中针对于大数据云平台按照招标文件的要求是如何开展运维服务和优化完善先关工作的,将分别从平台层、数据层、功能应用优化、数据服务优化等多个维度展开相应的叙述。
1.2运维服务方案
1.2.1平台层运维
1.2.1.1硬件设备运行维护
云平台硬件设备可分为服务器设备和网络设备两类,服务器设备包括服务器磁盘、内存条、机器主板等设备,网络设备包括网卡、交换机、网线、分光器、分流器等设备。针对硬件设备的运行维护我们制定完善的巡检维护管理机制,通过云平台Alimonitor监控平台和集群自定义监控脚本每个工作日早中晚定时进行5次以上巡检监控,针对于出现如磁盘故障、内存故障、主板故障等服务器设备故障或网口松动、网卡故障、网线故障等网络设备故障的情况,定期联系硬件厂商人员到机房进行更换或插拔,并配合更换前的停服务、关机、下电等工作。
硬件设备更换申请需提供设备所在的产品集群、机房机柜、标准机型、服务器IP地址、带外ip地址、SN号等信息,具体申请单如下:
巡检中发现有硬件故障后,续将详细硬件故障点填写至以上表格,以邮件形式通知硬件厂商协商具体时间入场进行硬件更换。
1.2.1.2大数据产品运维
1.2.1.2.1云服务器ECS运维
充分掌握云服务器的系统架构、安全防护、运维管理、资源管理等内容。掌握云服务器资源分配和管理、自定义镜像创建和管理、实例备份恢复机制管理等实际操作技能。
云平台弹性计算软件ECS(下文简称云服务器)是云平台服务中非常重要的组成部分,它以云平台分布式云操作系统为基础,基于虚拟化等云计算技术,将普通基础资源整合在一起,以集群的方式给各行各业提供的计算能力服务。
云服务器基于云平台自主研发的云平台分布式云操作系统,具有自助管理、数据安全保障、自动故障恢复和防网络攻击等功能,能够简化开发部署过程,降低运维成本。构建纵向或横向按需扩展的网站架构,从而更适应业务应用快速多变的特性。
一、系统架构
虚拟化平台与分布式存储:虚拟化是云服务器的基础,云平台采用通用虚拟化技术,将物理资源进行虚拟化,通过虚拟化后的虚拟资源,对外提供弹性计算服务。云服务器包括两个重要的模块:计算资源资源模块和存储资源模块。计算资源指 CPU,内存,带宽等资源,通过将物理机上的计算资源虚拟化再分配给云服务器使用。通过资源的 QoS,可保证同一台物理机上不同云服务器间可相互不影响。存储则采用了大规模分布式存储系统,将整个集群中的存储资源虚拟化后,整合在一起对外提供服务。同一台云服务器的数据,保存在整个集群中。在分布式存储系统中,每份数据都提供三份副本,当单份数据损坏后可实现数据的自动拷贝。具体原理图见下图:
ECS多副本存储机制
控制系统:控制系统是弹性计算平台的核心,它决定着云服务器启动在哪一台物理服务器上且云服务器的所有功能及信息都需要通过控制中心统一处理与维护。
数据采集:负责整个虚拟化平台的数据采集,包括计算资源,存储资源,网络资源等使用情况,通过数据采集可以对集群的资源使用情况进行统一的监控管理,并作为资源调度的一个重要的依据。
资源调度系统:决定云服务器启动的位置,在创建云服务器时,会根据物理机的资源负载情况,合理的调度云服务器。且在云服务器发生故障时,决定云服务器再此启动的位置。
云服务器管理模块:管理及控制云服务器的。例如启动、关闭、重启云服务。以及云服务器相关增值服务功能也通过云服务器管理模块提供。
安全控制模块:进行整个集群的网络安全监控与管理。
运维及监控系统:完善的运维与监控是云服务的关键。运维与监控系统主要对 ECS 平台进行监控,主要监控项包括:云服务器性能的监控,资源使用监控,平台健康检查以及网络监控。当集群资源不足或云服务器网络遭受攻击时,将会进行报警提示,以方便运维人员对集群进行管理。
二、云服务器镜像
镜像是启动云服务器的基础。镜像即一块母盘,包含操作系统以及应用软件配置,创建云服务器必须基于一个镜像,创建成功后的系统盘内容即为此镜像的完全克隆VM(系统配置及大小)。
自定义镜像指用户可以将现有云服务器系统盘保存为一个镜像,并可以此镜像作为一个模板,快速创建与已有云服务器系统配置完全相同的机器。
基于镜像创建的云服务器具有相同的系统盘配置(数据+大小),但是计算资源配置及云磁盘配置可定制化。通过自定义镜像,可以保存现有云服务器系统盘数据;并可将其作为一个母盘,方便实现云服务器快速克隆。综上产品体系描述,可用一张图来表示各子系统模块之间的关系:
三、ECS服务安全防护
安全组防火墙:ECS服务以用户为单位,使用安全组防火墙进行网络隔离。安全组是一个逻辑上的分组,这个分组是由同一个地域内具有相同安全保护需求并相互信任的ECS实例组成。安全组防火墙用于设置单台或多台云服务器的网络访问控制,它是重要的安全隔离手段。每个用户的所有云服务器默认在同一个安全组里。用户可以自行划分多个安全组。每个ECS实例至少属于一个安全组,在创建的时候就需要指定。安全组内可以互访,不同安全组的ECS实例之间默认不通。用户可以根据需要自行配置安全组防火墙规则授权两个安全组之间互访。
数据高可靠性:云服务器镜像文件、快照文件均默认存储三份,分布在不同交换机下的不同物理服务器上,数据可靠性高达99.999%。
故障自动恢复:云服务器部署在宿主机(承载云服务器的物理服务器)上,宿主机可能因性能异常或者硬件原因导致故障,当检测到云服务器所在的宿主机发生故障时,系统会启动保护性迁移,把云服务器迁移到正常的宿主机上,自动恢复,保障应用的高可用性。
快照:快照是云服务器上的数据在某一个时间点的拷贝。云服务器可以按照用户事先设定的策略定时自动创建快照,也可以由用户创建自定义快照。用户可使用快照回滚来恢复以往磁盘数据,加强数据安全,提高系统可用性。常见快照使用场景:1)云服务器系统变更前做好快照,在变更出现问题后可以快速回退;2)对已安装应用软件包的云服务器打快照,从快照创建自定义镜像,可以批量创建服务器,简化用户管理部署工作。
多用户安全隔离:内存隔离:在虚拟化层,Hypervisor隔离内存。云服务器运行时,使用硬件辅助的EPT(Extended Page Tables,扩展页表)技术,确保云服务器之间无法互访对方内存。云服务器释放后,它的所有内存会被