运维2.体系架构
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维2.0之体系建设
一、规划体系
(一)服务目录规划
运维2.0是面向服务的运维,在运维规划阶段设计服务体制、服务目录以及服务流程。在应用运维之初,和业务用户明确业务服务的愿景、系统承载的用户数目、系统峰值的承载量、应用系统需要定期检查与维护之处、需配备的服务人员的资质等,有助于运维部门评估所提供运维服务成本与收益。
(二)技术架构规划
运维技术架构规划推动运维部门走出被动的局面,运维人员将长期积累的经验反向指导研发的软件架构设计,有助于运维和研发相互协助,促进IT的融合。运维技术架构规划包括应用架构规划、组件选型原则和应用环境组建。
1.应用架构规划
运维应用架构规划列出系统应用架构设计的原则和标准,如负载均衡、动静分离、读写分离、容灾容错等。以架构评审的形式,协同研发达成共识,形成应用框架的分级标准,确保框架的基本统一,提高研发效率,降低运维成本。
2.组件选型原则
运维提出架构组件的选型要求,如在何种情况下使用私有云,何种情况下利用虚拟化,甚至细化到每个架构层面上的服务器、操作系统和计算资源的选型。使得应用系统从开发阶段就和未来生产环境无缝衔接,有助于提高系统实施和升级的稳定性。
3.应用环境组建
运维2.0提出运维规划中需明确规定未来系统在生产环境中架构层级划分标准,架构层级和服务单元的衔接标准,应用系统中每个模块、每个组件甚至每个配置文件的配置标准,统一的标准化的应用环境和组件配置有助于促进一体化自动运维的实现,同时也有利于组件以及组件维护的迭代与重用。
(三)安全体系规划
生产系统的信息安全由运维部门主责,运维2.0在信息安全规划中提出运维部门除关注安全技术手段外,还要考虑配套的安全管理制度。目前多数应用系统在生产环境上线后,运行维护时才开始设计相应的配套制度,这使得未来生产环境存在“先天不足,后天弥补”的风险。比如由于数据篡改、伪造、中断或者截获造成信息反馈延时或由于病毒侵入
造成系统紊乱的风险。在运维之初,规划符合行业与监管标准的信息安全政策与制度,建立一系列运维框架,并将相应的制度和规通过技术手段落实到应用系统的设计中会起到“有备无患”的作用。
图示:信息安全体系规划
(四)预算规划
运维2.0的预算规划提出了在保证提供“安全业务服务”得前提下,系统容量模型和预算模型之间的关系。通过将业务需求指标与运维规划相结合,计算出每个层级架构中每个服务单元、每个模块能够支撑的业务指标,后续的预算填报根据业务需求中的业务指标就可以计算出每个业务需要多
少模块,每个模块需要单台设备支撑多少业务指标。对于定制化的模块,比如云平台套餐数目、可定制的计算资源等,用业务指标指导计算或存储资源的定制化,根据业务需求,对计算或存储资源规格进行必要的拆建,提供成本最优化的硬件资源。根据服务并发规模、峰值并发规模以及每一模块可提供的动态服务支撑数量,推导模块的增量预算。运维2.0以此关联模型将服务资源的需求量转化为运维预算。
二、监控体系
运维2.0倡导实现IT管理与业务服务的融合,建立面向业务服务、层次化、可量化的智能监控体系。
通过层次分析法将运维监控要素划分为相互联系的各个单元,根据上下层次之间的隶属关系以及同一层次同一服务单元中元素间的依赖关系进行定量描述,构建出一个关系矩阵。通过对服务单元每一层次或模块的对服务完整性的贡献比例设置权重值。该体系从上至下分为应用服务层、系统资源层、网络服务层和基础设施层,全面覆盖应用系统、数据库、中间件、服务器、存储、网络和动力环境各个领域。确保任何一个领域出现风险隐患时,运维人员均可以主动、及时地发现、预警、分析和处置,把风险控制在萌芽状态,保证业务连续性。
图示:面向服务的监控体系
在智能化监控方面,运维2.0提出通过历史运维数据分析,实现系统故障的预警和精确定位以及自动派单,通过预测走势进行主动触发式运维,使热门业务服务的资源占用、服务质量可视、可评。通过服务单元、层次及模块间的关系分析(任务始止、关键组件、一致依赖、超出预期),对业务故障进行智能定界定位,快速处理。对用户的服务体验的实时监控、提前预警。比如通过动态感知技术实现对硬件故障的预测和自动化管理,实现对机器的管理的零投入;通过智能实时分析、全局调度技术,合理分配存储资源,最大化减低预算开销。通过对历史数据的学习和模块间关联模式识别实现服务的预测。
图示:模块间关联关系智能监控预测
在技术层面上,运维2.0智能监控丰富业务系统的非功能性需求,使开发团队在业务需求分析和设计阶段,就把运维阶段需关注的监控指标考虑进去,起到“未雨绸缪”的防作用;同时,业务的导向对于运维全面、有效设计预警指标,直观预警和定位故障,起到“有的放矢”的引导作用。在管理层面上,中高层通过各维度、各层次数据的量化来量化业务的运行状态和趋势,起到“严谨”的科学指导作用。
三、度量体系
运维2.0的度量体系从面向业务的运维服务能力和运维架构能力两方面着眼,建立衡量运维质量的评估体系。(一)运维服务能力评估
运维服务能力评估是面向提供给业务用户的自服务的评估,按照运维架构能力建设和管理的进化历程,运维服务
成熟度可以分为四个级别:
1.基本级:依据《信息技术服务运行维护标准》(GB/T
28827.1)实施满足业务需求的运维服务管理,日常的运维活动实现了有序运行。对标准的实施不要求全面性和系统性,而是根据业务发展情况,采用了标准提供的方法。
2.拓展级:依据《信息技术服务运行维护标准》(GB/T
28827.1)实施运维服务管理,实施标准要求全面性和系统性,并能与业务发展情况相结合,形成了较为完善的人员、过程、技术和资源等方面的管理制度,并得到有效实施。
3.改进级:在全面和系统实施《信息技术服务运行维护标准》
(GB/T 28827.1)的基础上,从保障运维服务交付质量的角度出发,组织的运维服务能力发展战略和目标清晰,形成了完善的运维服务体系,建立人员、过程、资源和技术等能力要素协同改进的制度体系。
4.提升级:在全面和系统实施《信息技术服务运行维护标准》
(GB/T 28827.1)的基础上,从量化提升运维服务能力的角度出发实施有关运维服务质量评价。组织能够基于信息技术服务业务综合发展的需要,实现全面量化的运维服务能力管理,形成推动业务服务变革的机制。