云平台所谓的运维功能

合集下载
相关主题
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

云平台所谓的运维功能

(一)统一资源管理

通过对各种物理资源、虚拟化资源数据统一建模,将资源以用户可见的资源池形式提供给系统用户即上层应用。

统一资源管理可以屏蔽不同硬件和虚拟化的差异,资源的更换升级对用户零感知。实现对所有硬件资源进行统一管理,包括设备自动发现、自动配置和故障监控等,实现资源快速发放,缩短业务上线时间。

支持对资源分集群管理,支持集群的创建、删除、扩容、减容,对集群进行性能监控,配置基于集群的资源调度策略(DRS),调度策略可以设置为手动和自动,实现虚拟机根据业务负荷在不同服务器上自动迁移。

支持对虚拟机生命周期管理:业务管理员可以进行虚拟机的创建、销毁操作,对虚拟机的日常维护包括:启动、重启、迁移、关闭、快照、休眠、唤醒、虚拟机资源调整和监控等。

支持虚拟化网络资源的管理:对子网、WLAN、端口组、分布式交换机的相关配置进行管理。

支持虚拟存储资源的管理:支持向存储资源池中增加、删除数据存储,对已经存在的数据存储可以进行扩容。

(二)自动化运维

管理员可以实现物理服务器的自动发现,虚拟机、操作系统和应用软件自动化部署,提高管理平台的管理维护效率。自动化运维功能主要体现在以下几点:(1)物理服务器自动发现、自动发放

通过单个输入或批量导入物理机服务器信息,系统解析输入信息并自动化发

现已上电服务器详细信息,包括服务器电源、风扇、CPU、内存、磁盘网卡等信息,将物理服务器纳入系统管理范围

最终用户从系统申请物理机时,系统会根据用户要求自动选择特定型号、规格、操作系统类型和版本等信息,自动化选择合适的物理机、自动化安装和配置操作系统,实现自动化发放物理机。

(2)应用自动化部署

系统支持按预创建的应用模板,自动化的完成应用所需要的虚拟机、软件包、以及依赖配置关系的自动创建和分发,从而完成模板所描述的应用实例的自动化创建,实现应用自动化部署,将应用实例的创建时间从数天、数小时,缩短到数分钟。

(3)应用弹性伸缩

管理员通过配置不同的调度策略,可以实现智能资源调度,提升设备利用率,满足虚拟机应用对资源弹性伸缩的需求。

(三)用户权限管理

提供基于角色的用户权限控制功能,包括用户管理、角色管理、角色授权、登陆认证、鉴权等功能,实现全系统的安全功能。角色和操作权限管理,不同角色对应不同的操作权限,不同的操作用户对应于不同的角色。系统可以为不同的管理员或用户进行“分权分域”管理,即不同管理员分配不同管理范围和业务访问权限,方便不同部门、不同组织的管理员的业务分工。

(四)监控管理

运维平台监控的对象主要针对集群、物理服务器、虚拟机、网络交换机、存储设备等进行监控。

在物理资源与虚拟资源出现故障时,告警管理模块会及时发出告警信息,提醒管理员处理故障。

对于可自动恢复的告警,如各种阈值告警,在系统负载下降后,告警状况解除,系统会自动发出告警解除信息,此类告警管理员不用特别对待,只需要了解告警产生及解除的过程,在业务部署时尽可能避免即可。

云平台支持对物理设备、虚拟化设备和虚拟机的故障检测,如服务器的RAID、配件检测、交换机、存储设备的检测,虚拟机HA、虚拟机快照、虚拟机迁移、存储迁移的故障检测等。

故障检测后如果发现故障,系统会进行分级上报,分为紧急、重要、次要和提示四种告警级别,标识不同严重程度的系统故障,便于管理员分类处理。

管理员可配置告警处理Email和短信通知告警功能:告警产生和恢复时,系统会自动给运维人员发Email和短信,及时告知。通过订阅重要的告警,管理员可实现在无人值守的环境下,仍能实时掌握云数据中心全网节点的运行状态。

(六)拓扑管理

拓扑管理提供一个可视化界面,自动呈现云平台全系统的所有资源的拓扑信息,无需管理员手动配置。通过拓扑视图可以查看物理硬件资源视图,应用部署以及虚拟机资源视图。获取硬件资源(计算硬件、存储硬件、网络硬件)、应用部署情况(例如,数据库服务器部署在哪台虚拟机上,虚拟机位于哪台主机上)、虚拟机属性等信息。

拓扑节点会和告警中心关联,及时呈现对象当前的监控状态。拓扑管理呈现选中集群的资源占用情况和监控状态。

基于运维集中管理服务,可帮助客户降低日常运维压力,实现如下服务目标:1)全栈监控、集中管理,提升运维监控能力

构建统一的集成监控系统,解决目前被动监控、被动服务的局面,实现主动的运维监控、事件的快速应对,为客户系统的稳定运行提供保障。

2)故障快速发现,快速处理,确保业务稳定运行

建立集中的快速的故障发现与故障预警机制,在故障产生时进行快速定位,快速处理,降低业务服务质量的劣化风险,为客户的业务发展保驾护航。

3)高效资产管理,及时掌控资产信息脉络

远程管理服务借助CMDB中丰富资产信息和强大的数据钻取技术实现客户资产数据的快速梳理和深度分析,快速识别资产风险,帮助客户制定科学的资产配置策略,提高资产利用率,实现资产的高效管理。

借助运维服务,客户将快速获得如下收益:

1)从基础设施的运维中解脱出来,降低运维成本,助力客户聚焦核心业务,成就客户价值

2)7*24小时全时监控,故障快速处理,提升日常运维效率,保障客户业务稳定运行。

同时运维提供了运维基础平台,整合所有运维资源资源,将相关资源平台进行统一管理,如物理机资源、虚拟机资源、IDC资源、网络资源等,用于其他自动化系统消费,是一切自动化运维系统的核心。

主机管理:提供查看主机(虚拟机、物理机)详细信息的功能及报表数据,以便于SRE对线上主机的CPU,内存、磁盘等信息的型号、容量、使用率等查

看,对主机进行运维。

IDC管理:提供对IDC节点进行管理的能力,以便于SRE在线管理数据中心的物理设施。

网络管理:提供对网络设备信息导入,接口、配件和拓扑信息采集能力,以便于SRE能对网络设备集中管理。

(八)日志管理

运维平台的日志管理主要记录管理员的操作日志、系统的运行日志、业务和系统异常故障的黑匣子日志。

操作日志记录了平台上所有管理员的操作过程和结果,主要用于事后审计使用。

运行日志记录系统运行的异常和关键轨迹,用于系统的日常维护和巡检查看使用。

黑匣子日志记录系统出现严重故障如宕机时的故障点、故障原因等信息,便于管理员和研发维护人员尽快定位问题,解除故障。

操作日志不允许管理员删除,以便于后续安全审计,避免管理员做非法的操作。

相关文档
最新文档