运维服务工具应用情况说明书
华为云应用运维管理(AOM) 1.10.0 用户指南说明书
应用运维管理(AOM) 1.10.0用户指南文档版本02发布日期2023-04-30版权所有 © 华为云计算技术有限公司 2023。
保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。
商标声明和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意您购买的产品、服务或特性等应受华为云计算技术有限公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。
除非合同另有约定,华为云计算技术有限公司对本文档内容不做任何明示或暗示的声明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。
除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
华为云计算技术有限公司地址:贵州省贵安新区黔中大道交兴功路华为云数据中心邮编:550029网址:https:///目录1 快速入门 (1)1.1 AOM使用流程 (1)1.2 安装ICAgent (2)1.3 创建告警规则并查看 (3)2 用户指南 (7)2.1 概述 (7)2.2 监控总览 (9)2.3 仪表盘管理 (17)2.3.1 创建仪表盘 (17)2.3.2 设置全屏模式在线时长 (23)2.3.3 统计图表说明 (24)2.4 告警管理 (30)2.4.1 告警规则 (31)2.4.1.1 概述 (31)2.4.1.2 创建指标告警规则 (31)2.4.1.3 创建告警模板 (40)2.4.1.4 创建事件告警规则 (43)2.4.1.5 管理告警规则 (45)2.4.2 查看告警 (46)2.4.3 查看事件 (47)2.4.4 告警行动规则 (48)2.4.4.1 概述 (48)2.4.4.2 创建告警行动规则 (48)2.4.4.3 创建消息模板 (50)2.5 容器洞察 (53)2.5.1 工作负载监控 (53)2.5.2 集群监控 (54)2.6 指标浏览 (55)2.7 基础设施监控 (57)2.7.1 应用监控 (57)2.7.2 组件监控 (58)2.7.3 主机监控 (60)2.8 Prometheus监控 (62)2.9 日志分析 (62)2.9.1 搜索日志 (62)2.9.2 查看日志文件 (64)2.9.3 配置虚机日志采集路径 (66)2.9.4 添加日志转储 (68)2.9.5 接入LTS (71)2.9.5.1 概述 (71)2.9.5.2 管理接入规则 (74)2.10 配置管理 (76)2.10.1 ICAgent管理 (76)2.10.1.1 安装ICAgent (76)2.10.1.2 升级ICAgent (80)2.10.1.3 卸载ICAgent (80)2.10.2 日志配置中心 (82)2.10.2.1 设置日志配额 (82)2.10.2.2 配置分词 (82)2.10.3 数据订阅 (85)2.10.4 配置应用发现 (89)2.10.5 接入管理 (93)2.10.5.1 概述 (93)2.10.5.2 将Prometheus的数据上报到AOM (94)2.10.5.3 通过grafana查看AOM中的指标数据 (95)2.11 相关说明 (99)2.11.1 标签和标注 (99)2.11.2 普罗语句说明 (100)2.11.3 时间范围和统计周期的关系 (103)3 常见问题 (105)3.1 如何处理界面“ICAgent状态”为“离线”的问题 (105)3.2 如何获取AK/SK (106)3.3 资源运行异常怎么办? (106)3.4 没有消息通知服务的访问权限? (108)3.5 如何区分告警和事件? (108)3.6 AOM展示的日志是否为实时日志? (108)3.7 应用状态正常,应用下的组件状态异常,状态不一致是什么原因? (109)4 最佳实践 (110)4.1 应用发现最佳实践 (110)5 错误码参考 (113)5.1 监控模块错误码 (113)5.1.1 SVCSTG.INV.4030000 inv服务鉴权失败 (113)5.1.2 SVCSTG.INV.4000103 参数资源集ID校验失败 (113)5.1.3 SVCSTG.ALERT.4033000 接口鉴权失败 (114)5.1.4 SVCSTG.ALERT.2001 接口参数校验失败或异常 (114)5.1.5 SVCSTG.ALERT.2002 清除告警接口异常 (115)5.1.6 SVCSTG.ALERT.5002001 查询告警类型接口错误 (115)5.1.7 SVCSTG.ALERT.4000429 清除告警接口请求受限 (115)5.1.8 SVCSTG.ALERT.3001000 参数校验失败 (115)5.1.9 SVCSTG.INV.5000000 服务异常 (116)5.1.10 SVCSTG.INV.5000001 ES服务异常 (116)5.1.11 SVCSTG.INV.4000115 发现规则接口参数校验失败 (116)5.1.12 SVCSTG.INV.4000116 规则id或pid校验失败 (122)5.1.13 SVCSTG.INV.4000117 biztype或ids校验失败 (123)5.1.14 SVCSTG.INV.4000118 添加或者修改资源标签别名接口参数校验失败 (123)5.1.15 SVCSTG.INV.5000002 获取集群资源或查询应用发现规则服务异常 (123)5.1.16 SVCSTG.INV.5000003 同步应用发现规则到ICMGR服务失败 (124)5.1.17 SVCSTG.INV.5000004 新增标签时服务异常 (124)5.1.18 SVCSTG.INV.5000005 同步应用发现规则到ICMGR服务时服务异常 (124)5.1.19 SVCSTG.INV.5000007 自定义规则达到上限 (125)5.1.20 SVCSTG_AMS_4000101 指标查询请求参数不合法 (125)5.1.21 SVCSTG_AMS_4000102 inv请求参数不合法 (126)5.1.22 SVCSTG_AMS_4000103 period等参数校验失败 (126)5.1.23 SVCSTG_AMS_4000104 statistics等参数校验失败 (127)5.1.24 SVCSTG_AMS_4000105 metrics等参数校验失败 (127)5.1.25 SVCSTG_AMS_4000106 timerange等参数校验失败 (128)5.1.26 SVCSTG_AMS_4000107 参数校验失败 (129)5.1.27 SVCSTG_AMS_4000109 metricName等参数校验失败 (129)5.1.28 SVCSTG_AMS_4000110 fillValue等参数校验失败 (130)5.1.29 SVCSTG_AMS_4000111 start参数校验失败 (130)5.1.30 SVCSTG_AMS_4000112 alarm_id等参数校验失败 (131)5.1.31 SVCSTG_AMS_4000115 阈值规则相关接口参数校验失败 (131)5.1.32 SVCSTG_AMS_4000118 新增阈值规则请求evaluationPeriods等参数校验失败 (132)5.1.33 SVCSTG_AMS_4000119 查询阈值规则请求statistic参数校验失败 (133)5.1.34 SVCSTG_AMS_4000120 新增阈值规则请求comparisonOperator参数校验失败 (133)5.1.35 SVCSTG_AMS_4000121 修改阈值规则接口参数校验失败 (133)5.1.36 SVCSTG_AMS_4030000 AMS服务鉴权失败 (134)5.1.37 SVCSTG_AMS_5000000 ams-metric/ams-access服务内部错误 (134)5.1.38 SVCSTG_AMS_5030001 Cassandra服务内部错误 (135)5.1.39 SVCSTG.AMS.2000051 鉴权失败 (135)5.1.40 SVCSTG.AMS.2001000 新增或者修改阈值规则接口actionId等参数校验失败 (136)5.1.41 SVCSTG.AMS.2000001 Cassandra或服务内部异常 (136)5.1.42 SVCSTG.AMS.5011300 内部服务错误 (136)5.1.43 SVCSTG.AMS.2000002 部分成功 (137)5.1.44 SVCSTG.AMS.2001135 操作阈值规则相关接口参数校验失败 (137)5.1.45 SVCSTG.AMS.2001613 阈值规则重名 (138)5.1.46 SVCSTG.AMS.2001601 阈值规则不存在 (138)5.1.47 SVCSTG.AMS.2001604 服务内部错误 (139)5.1.48 SVCSTG.AMS.4010000 视图模板接口鉴权失败 (139)5.1.49 SVCSTG_AMS_4000001 上报的数据结构体为空 (140)5.1.50 SVCSTG_AMS_4000002 namespace参数校验失败 (140)5.1.51 SVCSTG_AMS_4000003 Dimensions参数校验失败 (141)5.1.52 SVCSTG_AMS_4000005 type参数校验失败 (141)5.1.53 SVCSTG_AMS_4000006 value参数校验失败 (141)5.1.54 SVCSTG_AMS_4000007 dimensions中的name或者value 参数校验失败 (142)5.1.55 SVCSTG_AMS_4000008 请求参数体长度校验失败 (142)5.1.56 SVCSTG_AMS_4000009 dimensions数量校验失败 (143)5.1.57 SVCSTG_AMS_4000010 collect_time参数校验失败 (143)5.1.58 SVCSTG.PE.4011001 PE接口鉴权失败 (144)5.1.59 SVCSTG.PE.4011003 权限不足 (144)5.1.60 SVCSTG.PE.4031014 帐号冻结或暂停 (145)5.1.61 SVCSTG.PE.4031002 应用不存在 (145)5.1.62 SVCSTG.PE.5003007 查询数据库失败 (146)5.1.63 SVCSTG.PE.4005003 策略组名称重复 (146)5.1.64 SVCSTG.PE.4031012 用户projectId不匹配 (146)5.1.65 SVCSTG.PE.4291004 接口负载过高 (147)5.1.66 SVCSTG.PE.5003006 创建调度任务失败 (147)5.1.67 SVCSTG.PE.5001201 存储记录失败 (147)5.1.68 SVCSTG.PE.5001202 查询指定记录失败 (148)5.1.69 SVCSTG.PE.5001203 查询记录失败 (148)5.1.70 SVCSTG.PE.5001204 更新记录失败 (148)5.1.71 AOM.04001401 查询数据订阅规则认证失败 (148)5.1.72 AOM.04001500 查询数据订阅规则时ES集群异常 (149)5.1.73 AOM.04002401 创建数据订阅规则认证失败 (149)5.1.74 AOM.04002002 规则条数达到上限 (149)5.1.75 AOM.04002500 创建数据订阅规则时ES集群异常 (150)5.1.76 AOM.04002003 创建数据订阅时规则名称已存在 (150)5.1.77 AOM.04003002 修改数据订阅时规则名称已存在 (150)5.1.78 AOM.04003500 修改数据订阅规则时ES集群异常 (151)5.1.79 AOM.04003401 修改数据订阅规则认证失败 (151)5.1.80 AOM.04004401 验证数据订阅规则中kafka配置认证失败 (151)5.1.81 AOM.04004002 验证数据订阅规则可用性,连接自定义kafka失败 (152)5.1.82 AOM.04004500 验证数据订阅规则时ES集群异常 (152)5.1.83 AOM.04006403 删除数据订阅规则认证失败 (152)5.1.84 AOM.04004403 验证数据订阅规则实例连通性认证失败 (153)5.1.85 AOM.04002403 创建数据订阅规则认证失败 (153)5.1.86 AOM.04006500 删除数据订阅规则时ES集群异常 (153)5.1.87 AOM.0103 阈值规则接口权限不足 (154)5.1.88 AOM.0403 toke鉴权失败 (154)5.1.89 AOM.0503 查询告警或者事件列表时服务异常 (154)5.1.90 AOM.04003001 修改订阅规则时参数校验失败 (155)5.2 日志模块错误码 (155)5.2.1 SVCSTR.ALS.200100 鉴权失败 (155)5.2.2 SVCSTR.ALS.200105 租户projectId鉴权失败 (156)5.2.3 SVCSTR.ALS.200322 参数校验失败 (156)5.2.4 SVCSTR.ALS.200203 日志服务异常 (156)5.2.5 SVCSTR.ALS.200207 内部服务错误 (157)5.2.6 SVCSTR.ALS.200305 添加OBS转储策略失败 (157)5.2.7 SVCSTR.ALS.200306 删除OBS转储策略失败 (157)5.2.8 SVCSTR.ALS.200309 OBS桶授权失败 (157)5.2.9 SVCSTR.ALS.200315 日志路径配置个数超过限额 (158)5.2.10 SVCSTR.ALS.200316 非法的日志采集路径 (158)5.2.11 SVCSTR.ALS.200317 添加日志采集路径到ES数据库失败 (158)5.2.12 SVCSTR.ALS.200318 请求体不合法 (159)5.2.13 SVCSTR.ALS.200322 日志采集路径个数已达上限 (159)5.2.14 SVCSTR.ALS.200500 内部服务错误 (159)5.2.15 SVCSTR.ALS.201403 token鉴权失败 (159)5.2.16 SVCSTR.ALS.403105 租户projectId非法 (160)5.3 ICMGR模块错误码 (160)5.3.1 APM.ICMGR.5000000 服务失败 (160)5.3.2 APM.ICMGR.2001401 鉴权失败 (160)5.3.3 APM.ICMGR.2001405 参数错误 (161)5.3.4 AOM.0101 请求参数无效 (161)5.3.5 AOM.0102 获取agent信息时没有访问权限 (162)1快速入门1.1 AOM使用流程应用运维管理(Application Operations Management,以下简称AOM)是云上应用的一站式立体化运维管理平台,实时监控您的应用及相关云资源,分析应用健康状态,提供灵活的告警及丰富的数据可视化功能,帮助您及时发现故障,全面掌握应用、资源及业务的实时运行状况。
运维管理系统需求说明书范文
运维管理系统需求说明书范文运维管理系统需求说明书1、引言1.1 编写目的本文档旨在详细描述并定义运维管理系统的需求,以便开发团队全面理解系统应具备的功能和性能。
1.2 背景随着互联网的发展,各种规模的企业都需要一个高效的运维管理系统来确保业务的稳定运行和高效维护。
2、需求概述2.1 系统目标运维管理系统的目标是提供一套完整的运维管理解决方案,覆盖服务器监控、应用程序管理、故障处理、日志管理等功能。
2.2 功能需求- 服务器监控:实时监测服务器的运行状态,包括CPU、内存、磁盘等使用情况。
- 应用程序管理:支持对部署在服务器上的应用程序进行版本管理、启动、停止和重启等操作。
- 故障处理:自动检测并对服务器故障进行告警,并提供故障修复的指导。
- 日志管理:记录服务器和应用程序的日志,并提供查看和搜索功能。
- 资源管理:管理服务器和应用程序的配置信息,包括IP地质、端口号、用户名密码等。
2.3 性能需求- 响应时间:系统对请求的响应时间应在1秒以内。
- 并发性能:系统应支持同时处理1000个并发请求。
- 可扩展性:系统应能够方便地扩展和部署。
3、界面设计3.1 登录界面- 用户名输入框- 密码输入框- 登录按钮3.2 首页界面- 左侧菜单栏:包含各个模块的入口。
- 主要内容区域:展示各个模块的概览和重要信息。
3.3 服务器监控界面- 服务器运行状态图表:展示CPU、内存、磁盘使用情况的实时图表。
- 告警信息列表:展示服务器故障的告警信息。
3.4 应用程序管理界面- 应用程序列表:展示已部署的应用程序的基本信息。
- 版本管理:对应用程序的版本进行管理和控制。
3.5 故障处理界面- 故障列表:展示待处理的故障信息。
- 故障修复方案:提供故障修复的指导和建议。
3.6 日志管理界面- 日志列表:展示服务器和应用程序的日志信息。
- 日志搜索功能:支持根据关键词进行日志搜索。
4、数据库设计4.1 用户表- 用户ID- 用户名- 密码4.2 服务器表- 服务器ID- IP地质- 端口号- 用户名- 密码4.3 应用程序表- 应用程序ID - 名称- 版本- 所属服务器ID - 状态5、数据接口5.1 登录接口- 请求URL: /login- 请求方法: POST- 请求参数:- 用户名- 密码- 响应数据:- 成功:用户信息- 失败:错误信息5.2 服务器监控接口- 请求URL: /monitoring- 请求方法: GET- 请求参数: 无- 响应数据: 服务器运行状态信息5.3 应用程序管理接口- 请求URL: /applications- 请求方法: GET- 请求参数: 无- 响应数据: 应用程序列表信息5.4 故障处理接口- 请求URL: /troubleshooting- 请求方法: GET- 请求参数: 无- 响应数据: 故障列表信息5.5 日志管理接口- 请求URL: /logs- 请求方法: GET- 请求参数:- 关键词- 响应数据: 日志列表信息附件:无法律名词及注释:1、服务器监控:监控服务器资源的使用情况,确保服务器正常工作。
软件系统运维手册(完整资料).doc
软件系统运维⼿册(完整资料).doc【最新整理,下载后即可编辑】系统运维⼿册1、⽬的 (3)2、适⽤范围 (3)3、服务器及数据库概述 (3)3.1 服务器概述 (3)3.2 数据库概述 (3)4、系统服务程序的详细说明 (4)4.1系统服务程序的构成 (4)4.2 系统服务程序的启动、关闭及维护管理 (4)4.2.1 dhcp主服务 (4)4.2.2 dhcp从服务 (5)4.2.3 web管理模块 (5)5、服务器硬件维护(略) (6)6、windows 2003系统的⽇常维护 (6)6.1 定期检查磁盘空间 (6)6.2 维护系统注册表 (7)6.3 定期备份系统注册表 .....................................................................76.4清理system路径下的⽆⽤的dll⽂件 (7)7、备份策略 (8)7.1 备份⽅式 (8)7.2 备份计划 (8)7.3 常见故障恢复 (8)9、数据库的⽇常维护 (11)9.1 检查数据库的基本状况 (11)9.2 检查数据库⽇志⽂件 (11)9.4监控数据库表空间的使⽤情况(字典管理表空间) (11)9.4.1 判断是否需要碎⽚整理 (11)10、命令解释 (12)1、⽬的楚天⾏消费卡管理系统运营⽀撑系统使⽤的服务器中,服务器均采⽤windows xp操作系统,数据库版本为:sql server 2000,随着业务的开展,sql server 数据库中存储的数据量也不断增⼤,这样操作系统和数据库的⽇常维护就显得⼗分重要。
本⼿册详细描述了程序模块,windows xp操作系统,负载平衡及sql server 数据库等⽇常检查的主要步骤,指导现场⼯程师对其进⾏监控和维护。
2、适⽤范围使⽤者为⽹e通宽带⽹络运营⽀撑系统维护⼯程师3、服务器及数据库概述3.1 服务器概述服务器数量:4台,基本信息如下:3.2 数据库概述数据库软件分别安装在主服务器上。
易维宝智能业务应用运维 管理平台用户使用手册说明书
易维宝智能业务应用运维管理平台用户使用手册V6.0目录1安装部署 (4)1.1如何下载DCS (4)1.2如何安装DCS (4)1发现资源 (4)1.1主机 (5)1.1.1Linux主机 (5)1.1.2Windows主机 (9)1.2Web Server (15)1.2.1IIS (15)1.2.2Apache (21)1.2.3Nginx (28)1.3Application Server (34)1.3.1Jetty (34)1.3.2Tomcat (43)1.4中间件 (52)1.4.1RabbitMQ集群 (52)1.4.2ElasticSearch集群 (57)1.5数据库 (62)1.5.1SQLSERVER (62)1.5.2GBase (67)1.5.3达梦 (74)1.5.4Redis (78)1.5.5PostgreSQL (84)1.5.6Oracle (90)1.5.7MariaDB (94)1.5.8MySQL (100)1.6调整资源模型视图 (103)1.6.1更换模型视图 (104)1.6.2自定义视图 (105)2业务应用创建 (106)2.1创建业务应用 (106)2.1.1填写基本信息 (106)2.1.2填写模块信息 (107)2.2编辑业务应用 (110)2.3删除业务应用 (111)2.4创建架构图 (111)2.4.1布局资源 (111)2.4.2选择监控指标 (113)2.4.3添加关联指标 (114)3首页设置 (115)3.1初始化业务应用总览 (115)3.2添加业务应用 (117)3.3调整资源模型视图 (117)3.3.1监控资源视图 (117)3.3.2首页自定义视图 (118)4告警设置 (119)4.1资源告警配置 (120)4.2编辑资源告警配置 (122)5消息通知设置 (122)5.1企业微信应用消息设置 (122)5.2企业微信群机器人设置 (123)5.3钉钉群通知机器人设置 (123)5.4SMTP邮件设置 (123)5.5第三方接口设置 (123)6账号权限管理 (123)6.1创建角色 (123)6.2创建用户 (125)7运维档案 (126)1安装部署1.1如何下载DCS使用浏览器(Chrome、Edge)打开“智能业务应用运维管理平台”,依次进行如下操作:1)点击进入“系统管理”页面2)点击左侧页签,进入“DCS信息”页面3)点击右下方“下载DCS文件”按钮4)下载自动开始,等待完成1.2如何安装DCS在采集服务器上,依次进行如下操作:1)使用root账号登录服务器,确认可以访问CCS服务器地址,可以使用ping 工具验证。
运维维护记录报告-概述说明以及解释
运维维护记录报告-概述说明以及解释1.引言1.1 概述:运维维护记录报告是指对运维工作过程中的维护和管理情况进行记录和总结的文件。
在企业的运维工作中,维护记录是非常重要的部分,它可以记录下各项维护的具体内容、时间点、责任人等关键信息,有助于维护工作的监督和总结。
通过对维护记录的及时整理和分析,可以更好地了解系统运行情况,提高对问题的排查和解决效率,保障系统的稳定性和安全性。
同时,运维维护记录也是运维团队之间沟通和合作的重要参考依据,能够确保工作的顺利进行。
本报告将对运维维护记录的重要性、内容和格式以及管理与应用等方面进行详细探讨,希望可以为企业运维工作的提升和改进提供一些参考和帮助。
1.2 文章结构文章结构部分的内容包括对整篇文章的布局和框架进行详细说明。
在本篇运维维护记录报告文章中,文章结构主要分为引言、正文和结论三个部分。
在引言部分,我们将首先概述运维维护记录的重要性和作用,介绍本报告的主题和目的。
然后,介绍文章的整体结构和各个部分的内容安排,帮助读者快速了解本文的主要内容和框架。
在正文部分,我们将详细阐述运维维护记录的重要性,包括对企业运营和管理的意义,以及如何有效地记录和管理运维数据。
同时,我们会展示不同类型的运维维护记录的内容和格式,包括日常维护记录、故障处理记录、系统更新记录等。
最后,我们将介绍如何管理和应用这些运维维护记录,提高运维效率和管理水平。
在结论部分,我们将对本文的主要内容进行总结并展望未来的发展方向。
同时,我们将提出一些建议和建议,帮助企业更好地进行运维维护记录,并提高系统的稳定性和安全性。
1.3 目的运维维护记录报告的目的在于记录和总结系统日常维护和运作的情况,以便后续查阅和分析。
通过定期更新和维护这些记录,可以帮助管理者和技术人员更好地监控系统的健康状况,及时发现和解决问题,提高系统的稳定性和可靠性。
同时,这些记录也是对运维工作的一种总结和反思,可以帮助团队不断改进工作流程和提升效率。
服务器运维管理手册
XXXX有限公司服务器运维管理手册XXXX有限公司运维服务部2012/8/30一、文档简介 (1)二、文档目的 (1)三、文档范围 (2)四、事件处理流程 (2)五、具体操作说明 (2)1)服务器硬件管理 (2)2)服务器系统管理 (4)1.Windows系统管理 (4)2.Linux系统管理 (4)六、相关文档 (6)一、文档简介本文档根据桑菲消费通信服务器硬件设备与系统应用管理需求,针对日常维护内容进行技术归类于总结,描述具体操作步骤与操作方法,积累服务器事件处理能力,使之服务运维能力更为主动可控。
二、文档目的标准服务器故障处理方法指引,服务器管理知识库积累。
三、文档范围服务器硬件故障判断与标准处理操作服务器系统日常性能检测与标准检测四、事件处理流程五、具体操作说明1)服务器硬件管理1.检查与故障判断:服务器硬件的主动检查方式主要分三种:设备面板指示灯检查硬件系统日志检查第三方工具检查(一)面板指示灯检查IBM服务器上面有,电源指示灯,硬盘/IDE设备活动指示灯,网卡指示灯,系统过热报警灯.硬盘槽还有硬盘指示灯。
HP服务器上面指示灯一般为UID,内部和外部健康灯,其他就是电源网口灯了,DELL的机种有的上面有风扇,内存,CPU,指示灯情况,图标都是很直观的,其它服务器与IBM,HP的差不多。
图示说明详细描述:(二)系统日志检查(三)第三方检测工具检查相关图解:进入诊断网页,在第一选项卡Survey中,上部有2个下拉项,左侧选择Advanced,右侧选择All,会显示出更多硬件信息,点击右下的Save按钮保存。
此界面可以看到服务器所有硬件信息。
2.硬件设备变更操作标准:判断并确定最快恢复时间判断是否有做冗余设置判断是否需要关机操作磁盘设备检测并确定阵列信息,确定有做数据备份是否对其它关联应用有影响制定回退方案,保证数据与应用的可用性设备变更操作设备兼容性测试应用系统运行测试设备变更后正式应用3.相关巡检记录单:备注:《服务器信息列表》 《服务器指示灯巡检表》2) 服务器系统管理服务器系统管理主要分为:Windows 系统管理 Linux 系统管理1. Windows 系统管理1.1. 磁盘空间使用计算机管理——磁盘管理磁盘空间使用率是否已经到达80% 1.2. 进程监控任务管理器-—进程查看进程的CPU 使用率和内存使用率是否超阀值 1.3. CPU 性能任务管理器——性能查看CPU 最高峰值与一般使用率是否超阀值 1.4. 内存性能任务管理器——性能查看内存最高峰值与一般使用率是否超阀值1.5. 网络查看任务管理器——联网检查是否能正常访问站点页面1.6. 日志记录错误报警信息 --应用程序日志由应用程序或者系统程序记录的事件 --安全性日志查看有效和无效的登录尝试事件,以及资源使用相关的事件 —-系统日志Windows 系统组件记录的事件2. Linux 系统管理1.1. 平均负载(uptime )描述:uptime命令过去只显示系统运行多久.现在,可以显示系统运行多久、当前有多少的用户登录、在过去的1,5,15分钟里平均负载时多少。
应用系统运维服务方案
应用系统运维服务方案运维服务目标及服务范围服务目标我公司提供专业的应用系统软件运维服务,可进一步加强XXX法院应用系统软件运行维护,对应用软件运行维护流程提供先进的管理理念与流程,并通过专业的技术支持为运行维护工作提供专业的技术平台,可以满足多种应用运行环境稳定的要求,可以满足系统高效、可靠和安全运行的要求,可以满足运行系统统一管理、及时的故障恢复的要求,可以保证XXX法院构建的应用系统正常运行,满足省级应用系统的建设需要,达到高效、稳定、安全和高扩展性的要求,为实现省本级信息化建设的可持续发展奠定基础。
服务范围本次应用系统软件服务的范围包括XXX法院正在运行的应用系统软件,软件主要有行政办公类软件、案件信息管理类软件、司法公开类软件。
行政办公类软件主要有机关办公系统、内网网站系统、公文管理系统、人事管理系统、物资装备管理系统、档案管理系统、公共信息发布、电子签章系统等应用软件系统。
案件信息管理类软件主要有各级法院开发使用的信访管理系统、案件信息管理系统、数字审委会管理系统、开庭公告管理系统、司法统计系统、审判质量评查等软件系统。
司法公开类软件主要有裁判文书公开网系统、审批流程公开网系统、执行信息公开网系统、庭审直播等应用系统。
运维服务要求运维服务流程1、技术人员现场值守运行维护的基本操作流程如下图所示:2、定期巡检结合故障现场运行维护服务操作流程如下图所示:运维服务人员要求驻场服务:我公司安排专业软件运维技术人员在服务期间驻现场服务,负责XXX法院正在运行的应用系统软件,软件主要有行政办公类软件、案件信息管理类软件、司法公开类软件系统日常运行维护和技术支持工作,保障应用系统的正常稳定运行。
驻场基本服务内容(1)掌握XXX法院目前运行的所有应用系统软件运行情况;(2)掌握XXX法院目前运行的所有应用系统部署情况;(3)掌握XXX法院目前运行的所有应用系统常见问题情况;(4)建立XXX法院目前运行的所有应用系统软件各种故障的恢复流程及应急措施;(5)建立XXX法院目前运行的所有应用系统软件日常检查记录;(6)建立XXX法院目前运行的所有应用系统软件运维工作日志台账进行记录;(7)建立XXX法院目前运行的所有应用系统软件更新操作记录;(8)形成每日巡视制度,对XXX法院机房中相关应用系统人员进出维护进行记录。
视频云平台运维管理系统使用说明书
目录
使用说明书
全部服务 集群 新增 集群 修改资源 升级 集群
管理 服务用户 备份管理 网络 新增服务多网映射 新增接入多网映射 新增运维多网映射 资源 资源纳管
纳管资源 修改
单个修改 批量修改 安装代理 资源监控 资源管理 新增资源 修改资源 管理磁盘 管理本地磁盘 挂载网络磁盘 查看资源清单 检测网络 诊断网络
常见图标
图标 、
说明 刷新图标。 单击该图标,刷新当前界面、列表等。 下拉框。 单击该图标,可显示下拉菜单。 文本框。 可输入数字、字母等。
图标 、、
、
、
使用说明书
说明
搜索框。
输入关键字,单击 或者按【 】键,可快速搜索到所需的信息。
支持模糊搜索。
折叠图标。
单击该图标,可展示隐藏的信息、配置项等,此时图标变为
使用说明书
第 章 系统简介
使用说明书
系统概述
视频云平台运维管理系统(以下简称“运维系统”)为满足大华视频云基线产品的统一安装部 署、升级、扩容和运行管理需求,提供了 层硬件服务、 层开源云计算框架服务、 层 业务服务的状态监控和管理,同时支持半自动修复异常服务。 运维系统致力于成为一个智能化运维平台,主要具备以下产品亮点: ● 通过视频云平台运维管理系统,开发人员能够方便地管理基础设备的网络与存储,并对其进
表示已使能。
选择框。
单击该图标,可选择对应的配置项。 表示已选中。
关闭图标 按钮。 单击该图标,可关闭窗口。
确定按钮。 单击该图标,保存当前页面所做的修改。
取消按钮。
单击该图标,取消保存当前页面所做的修改,并返回上级菜单。
使用安全须知
使用说明书
下面是关于产品的正确使用方法、为预防危险、防止财产受到损失等内容,使用设备前请仔细 阅读本说明书并在使用时严格遵守,阅读后请妥善保存说明书。
系统运维部的职责说明书及常见业务流程
系统运维部的职责说明书及常见业务流程系统运维部的职责说明书一般包括以下内容:1. 服务器管理:负责服务器的选购、安装、配置、管理和维护,包括硬件和软件的管理、性能监控、故障处理等。
2. 网络管理:管理和维护企业的网络设备,包括路由器、交换机、防火墙等,保证网络的正常运行和安全性。
3. 数据库管理:负责数据库的安装、配置、备份、维护和性能优化,保证数据库的高可用性和安全性。
4. 应用系统管理:负责企业的各种应用系统的安装、配置、更新、监控和维护,确保应用系统的稳定运行和数据安全。
5. 安全管理:负责企业的信息安全管理,包括网络安全、系统安全、数据安全等方面的管理和防护工作。
6. 故障处理:负责系统和网络故障的日常排查、分析和修复工作,确保系统的高可用性和业务的正常进行。
7. 值班和监控:负责系统和网络的24小时值班和监控工作,及时发现并处理故障,保证系统的稳定运行。
8. 技术支持:负责对其他部门及员工提供系统运维方面的技术支持和培训,解答相关问题。
常见的业务流程包括:1. 服务器管理流程:包括服务器的购置流程、安装与配置流程、监控与维护流程、故障处理流程等。
2. 网络管理流程:包括网络设备采购流程、设备配置与管理流程、网络安全管理流程等。
3. 数据库管理流程:包括数据库安装与配置流程、备份与还原流程、性能优化流程等。
4. 应用系统管理流程:包括应用系统的安装与配置流程、更新与升级流程、监控与维护流程等。
5. 安全管理流程:包括网络安全策略制定流程、系统安全检测与防护流程、数据安全管理流程等。
6. 故障处理流程:包括故障排查流程、故障分析流程、故障修复流程等。
7. 值班和监控流程:包括系统和网络的24小时值班和监控工作流程、故障处理流程等。
8. 技术支持流程:包括技术支持的需求接收流程、问题解答流程、培训流程等。
运维工具应用情况说明
运维服务工具应用情况说明河南中裕广恒科技股份有限公司变更履历目录一、 运维管理类工具的应用情况 ........................... 5 1.1 智能交通运维系统 .................................. 5 1.1.1 系统业务介绍 ................................. 5 1.1.2 系统功能及原理 ............................... 6 1.2 知识库 ........................................... 11 1.2.1 系统业务介绍 ................................ 11 1.2.2 系统功能介绍 ................................ 11 二、运维监控类工具 ..................................... 13 2.1中裕广恒智能交通运维维护管理平台V2.1 ............. 13 2.1.1系统业务介绍 ................................. 13 2.1.2系统功能及原理 ............................... 13 2.1.3工具应用情况 ................................. 17 2.2基于云计算平台的智能云运维终端(智能交通管理系统终端平台V2.0) ....................................... 17 2.2.1系统业务介绍 ................................. 17 2.2.2系统功能及原理 ............................... 17 2.2.3工具应用情况 ................................. 18 三、其他运维及故障检测工具 .............................. 18 3.1入侵检测系统设备 ................................. 18 3.2漏洞扫描设备 ..................................... 18 四、使用团队和收益 ..................................... 18 序言河南中裕广恒科技股份有限公司服务产品广泛应用于政府、企业、公安等单位,提供网络、PC服务器、小型机、数据库、智能交通等相关硬件设备的现场及定期巡检、故障处理等服务产品,由于行业覆盖面广,系统与各方各面都息息相关,系统的稳定性、安全性及持续运行能力尤其重要,而且随着政府、企业、公安等单位的业务发展,对信息化的依赖程度越来越高,对系统的稳定性、维护能力也提出了更高的要求。
天玥运维安全网关 V6.0 运维人员使用手册说明书
2021适用范围:内部运维人员使用手册天玥运维安全网关V6.0适用范围:天玥运维安全网关V6.0系列精细控制合规审计北京启明星辰信息安全技术有限公司目录1概述 (1)2用户登录 (1)2.1WEB方式 (1)2.1.1WEB访问方式 (1)2.1.2相关资料下载 (2)2.2运维客户端 (2)2.3登录认证 (3)3环境准备 (5)3.1环境检测 (5)3.2安装JAVA控件 (7)3.3浏览器设置 (9)3.4配置本地工具 (11)3.5修改密码 (13)4运维说明 (14)4.1RDP/VNC访问 (14)4.2Telnet/SSH/Rlogin访问 (15)4.3FTP访问 (16)4.4数据库访问 (17)4.5批量登录主机 (18)4.6工单操作 (19)4.6.1工单申请 (19)4.6.2工单运维 (22)4.7最近访问资源 (23)4.8高级搜索 (24)4.9我的资源组 (24)4.10菜单模式 (25)4.10.1命令行方式 (26)4.10.2图形方式 (30)5FAQ (32)5.1登录提示应用程序被阻止 (32)5.2提示Java过时需要更新 (33)5.3调用应用发布工具失败 (34)5.4使用dbvis提示JAVA环境变量 (34)1概述启明星辰天玥运维安全网关V6.0,是启明星辰综合内控系列产品之一。
本手册详细介绍了天玥运维安全网关V6.0进行运维操作过程的使用方法,用户可参考本手册,通过天玥运维安全网关V6.0进行各种运维操作。
2用户登录运维用户可选择通过以下方式使用天玥运维安全网关V6.0进行运维操作:(1)WEB方式(依赖JAVA环境);(2)运维客户端方式(不依赖JAVA环境);(3)客户端工具直连模式(不依赖浏览器和JAVA环境,目前支持运维SSH、TELNET、RDP、VNC,使用方法参见本手册4.9章节)。
2.1WEB方式2.1.1WEB访问方式通过浏览器访问天玥运维安全网关V6.0系统,如图2.1.1所示:(默认URL:https://天玥OSM系统的IP,如果web服务端口不是默认的443,登录URL地址需要加上web服务当前的端口号,例如:https://172.16.67.201:10443)。
应用工作情况说明
应用工作情况说明在现代社会中,应用软件已经成为人们生活和工作中不可或缺的一部分。
无论是在个人生活中,还是在企业和组织中,应用软件都扮演着重要的角色。
在这样的背景下,许多人选择从事与应用软件相关的工作,从开发到测试,再到运营和推广,应用软件行业涵盖了多个领域。
本文将通过对应用软件工作情况的说明,来探讨这一行业的特点、发展趋势以及工作人员的工作情况。
首先,应用软件行业的特点之一就是快速变化。
随着技术的不断进步和市场的不断变化,应用软件行业的发展速度非常快。
新的技术和新的需求不断涌现,这就要求从业人员不断学习和更新自己的知识,以适应行业的变化。
因此,应用软件行业的工作人员需要具备良好的学习能力和适应能力,能够及时跟上行业的发展步伐。
其次,应用软件行业的工作涉及的范围非常广泛。
从应用软件的开发、测试、运维,到产品设计、市场推广、用户服务等等,应用软件行业涵盖了多个职能部门。
因此,不同的岗位需要具备不同的技能和知识。
比如,开发人员需要精通编程语言和算法,测试人员需要具备严谨的逻辑思维和测试方法,运营人员需要了解市场和用户需求,产品设计人员需要具备创新和设计能力。
因此,应用软件行业的工作人员需要具备多样化的技能和知识,才能胜任自己的工作。
再次,应用软件行业的工作节奏通常比较快。
由于行业的快速变化和市场的竞争压力,应用软件行业的工作节奏通常是比较紧张的。
开发人员需要在有限的时间内完成软件的开发,测试人员需要在短时间内完成测试,运营人员需要及时响应市场变化,产品设计人员需要快速推出新产品。
因此,应用软件行业的工作人员需要具备高效的工作能力和抗压能力,能够在紧张的工作环境下保持高效率和高质量的工作。
最后,应用软件行业的发展前景非常广阔。
随着信息技术的不断发展和普及,应用软件的需求将会越来越大。
无论是在个人生活中,还是在企业和组织中,应用软件都将扮演着越来越重要的角色。
因此,应用软件行业的发展前景非常广阔,将会有越来越多的就业机会和发展空间。
运维情况汇报大纲
运维情况汇报大纲
一、总体情况概述。
1. 运维工作总体目标。
2. 运维工作内容范围。
3. 运维工作时间节点安排。
二、设备和系统运维情况。
1. 设备维护保养情况。
2. 系统更新维护情况。
3. 设备和系统故障处理情况。
三、安全管理情况。
1. 安全事件处理情况。
2. 安全策略执行情况。
3. 安全漏洞排查整改情况。
四、性能监控和优化情况。
1. 系统性能监控情况。
2. 性能优化措施执行情况。
3. 性能问题解决情况。
五、应用程序运维情况。
1. 应用程序部署情况。
2. 应用程序更新维护情况。
3. 应用程序故障处理情况。
六、运维人员培训和知识管理情况。
1. 运维人员培训情况。
2. 知识管理系统建设情况。
3. 知识分享和传承情况。
七、客户服务和沟通情况。
1. 客户问题响应情况。
2. 客户服务满意度情况。
3. 运维团队内部沟通情况。
八、运维工作成果和展望。
1. 运维工作成果总结。
2. 未来运维工作展望。
3. 改进建议和计划。
以上为运维情况汇报大纲,各项内容需准确、全面地反映实际情况,为确保运维工作的高效进行,希望各位运维人员认真填写相关内容,如有问题请及时沟通。
设备运维报告
设备运维报告
报告起草人:XXX
日期:XXXX年XX月XX日
摘要:
本次设备运维报告主要涵盖以下内容:设备运行情况概述、设
备故障及处理方式、维修记录、设备维护及保养情况等。
一、设备运行情况概述
我公司设备运行总体情况稳定。
本月共投入运行设备数XX台,其中正常运行的设备数XX台,出现故障的设备数XX台,故障率为XX%;未投入使用的设备数XX台。
二、设备故障及处理方式
本月出现的设备故障主要涉及设备掉电、短路、温度过高等。
针对不同的故障情况,我司采取了相应的处理方式,如及时更换备件、调整设备参数、维修设备等。
经过处理,所有故障设备已恢复正常运行。
三、维修记录
本月,我司共进行了XX台设备的维修工作,主要涉及设备保养、设备故障修复等。
维修工作均按时、按质、按量完成,保证了设备的正常运行。
四、设备维护及保养情况
我司本月对设备进行了定期的维护与保养工作,主要包括设备的清洁、检查、校准等。
经过统计,本月设备的平均正常运行时间较上月提高了XX%。
综上所述,我司设备运维工作本月运行情况平稳、故障处理及时、维修保养及时到位。
为保证设备的正常运行,下月我司将继续加强设备的维护与保养工作,并进一步提升设备运行效率。
恒生电子股份有限公司 LightDB dbPaaS 运维手册说明书
恒生电子股份有限公司LightDB dbPaaS运维手册恒生研究院2022年4月文档修改记录说明本文档中所包含的信息属于商业机密信息,如无恒生电子股份有限公司的书面许可,任何人都无权复制或利用。
模板版本信息编辑部门:EPG批准日期:2018/9/26目录目录 (2)1引言 (3)2LightDB dbPaaS简介 (3)3LightDB Agent (3)3.1LightDB Agent 支持的平台 (3)3.2LightDB Agent参数 (4)3.3LightDB Agent启动停止 (8)3.4LightDB Agent和LightDB EM需要公用一个Redis (9)3.5网络详情页为空并且后台报-bash: lsof: command not found (9)3.6EM磁盘活动数据展示都为-1,监控采集需要安装sysstat (9)3.7Agent采集数据保留多久 (9)4LightDB EM (10)4.1LightDB EM 支持的平台 (10)4.2LightDB EM参数 (10)4.3LightDB安装EM报错Redis连接失败怎么办? (14)4.4LightDB安装EM组件启动或重启顺序 (14)4.5Lightdb EM组件配置文件和日志对应的路径 (14)4.6LightDB EM启动失败常见问题 (15)4.7LightDB EM java日志处理 (15)1引言本文档为恒生电子股份有限公司LightDB dbPaaS日常运维手册,主要介绍日常运维常用操作的指南。
2LightDB dbPaaS简介LightDB dbPaaS分为LightDB Agent和LightDB EM。
LightDB dbPaaS系统架构如下3LightDB AgentLightDB Agent用于监控主机和数据库实例,通过定时任务采集主机和数据库实例信息并入库到LightDB EM数据库中。
PTN综合运维工具使用手册
【版本记录】注:上述为文档版本记录,版本记录主要方便网站文档管理、存档、修改和归类等操作。
【适用范围】注:说明本文用于指导哪些人员作哪些事项。
目录【版本记录】 (2)【适用范围】 (2)1、PTN综合运维工具构架 (5)1.1硬件平台 (5)1.2软件平台 (6)1.3部署方式 (7)1.4 整体构架 (7)2、PTN综合运维工具系统安装 (8)2.1 PTN综合运维后台安装流程 (8)2.2 PTN综合运维后台安装过程(参考相应的安装手册) (9)2.3 PTN综合运维界面安装流程 (9)2.4 PTN综合运维界面安装过程(参照相应的安装手册) (9)3、PTN综合运维工具相关服务或进程说明 (9)4、PTN综合运维工具功能说明 (10)4.1、PTN资源自动分析优化系统 (10)4.1.1实时监控模块 (11)4.1.1.1全局流量监控 (11)4.1.1.2指定资源监控 (12)4.1.2物理资源统计模块 (13)4.1.2.1网元统计 (13)4.1.2.2单盘统计 (13)4.1.2.3端口利用率统计 (14)4.1.2.4环网统计 (14)4.1.2.5槽位统计 (15)4.1.3逻辑资源统计模块 (15)4.1.3.1实际流量统计 (16)4.1.3.2配置流量统计 (16)4.1.3.3业务流量统计 (16)4.1.3.4全网流量统计 (17)4.1.3.5承载隧道/伪线统计 (17)4.1.3.6流量越限统计 (18)4.1.4资源评估优化 (18)4.2 PTN故障辅助定位系统 (19)4.2.1 告警相关性分析 (19)4.2.2告警相关性规则 (19)4.2.3 端口故障检查 (20)4.3 PTN自动巡检系统 (20)4.3.1巡检模板管理 (21)4.3.2 巡检任务管理 (21)4.3.3 巡检结果 (23)4.3.4 批量下载管理 (24)4.4 PTN智能割接系统 (24)5、PTN综合运维升级 (25)5.1 后台升级 (25)5.2界面升级 (25)6、日志组成 (25)6.1 EMS端APISERVER日志 (25)6.2 后台日志 (25)6.3 前台界面日志 (26)1、PTN综合运维工具构架1.1硬件平台1.2软件平台1.3部署方式PTN综合运维工具和OTNM2000网管部署在不同的服务器上,结构图如下所示:1.4 整体构架PTN综合运维工具共包含四大部分:PTN资源自动分析优化系统、PTN故障辅助定位系统、PTN自动巡检系统和PTN智能割接系统。
系统运维说明及承诺书
系统运维工作说明书及售后服务承诺2017年11月目录1 概述 (1)1.1 服务范围和服务内容 (1)1.2 服务目标 (1)2系统现状 (1)2.1应用系统 (1)2.2系统功能 (1)3服务方案 (3)3.1xxxxxxx系统的软件bug修复 (3)3.1.1 业务流程 (3)3..1.2 流程说明 (3)3.2定时备份xxxxxxx系统的业务数据 (4)3.2.1 备份业务流程 (4)3.2.2 备份业务流程说明 (4)3.3按需更新xxxxxxx系统(不包含系统迁移) (5)3.3.1 更新流程 (5)3.3.2 更新业务说明 (5)3.4及时处理xxxxxxx系统的异常数据 (6)3.4.1 异常数据处理流程 (6)3.4.2 异常数据处理说明 (6)3.5及时解决xxxxxxx系统的咨询或培训 (7)3.5.1 系统咨询或培训流程 (7)3.5.2系统咨询或培训说明 (7)4服务响应 (8)4.1日常服务响应时间 (8)4.2事故分级响应服务时间 (8)4.3服务报告 (9)4.4运维保障资源库建设 (9)4.5项目管理 (9)1 概述1.1 服务范围和服务内容本次服务范围为XXXXX有限公司XXXXXX系统,软件系统位于 XXXXXXX机房内,服务内容为XXXXXX应用软件系统的系统运维工作,不包括服务器操作系统的运维及网络运维、专业安全服务等。
1.2 服务目标及时修复xxxxxxx系统的软件bug定时备份xxxxxxx系统的业务数据按需更新xxxxxxx系统(不包含系统迁移)及时处理xxxxxxx系统的异常数据及时解决xxxxxxx系统的咨询或培训2系统现状2.1应用系统xxxxxxx系统等日常工作均在基于内网在不同应用系统上得以实现,其中优惠券类业务需要外网权限。
OS端是安卓系统,应用服务器是使用的centos系统,客户端使用的windows 和安卓系统。
2.2系统功能xxxxxxx系统L2级系统运维的内容如下。
服务器资源使用情况说明模板
服务器资源使用情况说明模板标题,服务器资源使用情况说明。
正文:
尊敬的用户,。
我们很高兴地向您报告我们服务器资源的使用情况。
在过去的一个季度里,我们对服务器资源的使用进行了详细的监控和分析,并希望通过这份报告向您展示我们的工作成果。
首先,我们对服务器的CPU使用情况进行了监测。
根据数据显示,CPU的平均利用率在95%以下,表明我们的服务器能够很好地满足用户的需求,不会出现过载的情况。
此外,我们还对内存和存储资源进行了监控,发现内存利用率在80%左右,存储资源利用率在70%左右,说明我们的服务器资源分配合理,能够支持用户的正常操作。
另外,我们还对网络带宽进行了监测。
通过分析数据,我们发现网络带宽的利用率在50%左右,表明我们的网络资源充足,能够
支持用户的高速数据传输和访问需求。
总的来说,根据我们对服务器资源使用情况的监控和分析,我们很高兴地向您报告,我们的服务器资源在过去的一个季度里得到了合理的利用,用户的需求得到了很好地满足。
我们将继续努力,确保服务器资源的高效利用,为用户提供更加稳定、高效的服务。
谢谢您对我们的支持,如果您有任何关于服务器资源使用情况的问题或建议,欢迎随时联系我们。
祝您工作顺利!
此致,。
服务器资源监控团队。
项目建设运维需求说明书
文档编号:项目建设运维需求说明书目录目录 (2)1 文档概述 (4)1.1 文档目的 (4)1.2 适用范围 (4)1.3 目标读者 (4)1.4 参考文档 (4)1.5 术语定义 (4)1.6 基本要求 (4)2 系统建设背景 (5)2.1 业务范围 (5)2.2 技术架构 (5)3 系统基础需求 (5)3.1 性能需求 (5)3.2 高可用需求 (5)3.3 连续性需求 (6)3.4 平台能力需求 (6)4 系统监控需求 (7)4.1 告警管理 (7)4.2 基础层监控 (7)4.3 平台层监控 (8)1. 数据库监控 (8)2. 中间件监控 (9)3. 容器监控 (9)4.4 应用层监控 (10)1. 服务监控 (10)2. 业务监控 (11)3. 客户终端监控 (13)5 系统管理需求 (13)5.1 服务管理 (13)5.2 版本部署 (13)5.3 日志管理 (14)5.4 数据库管理 (14)5.5 网络管理 (15)5.6 域名管理 (15)5.7 数据归档 (16)5.8 日终处理 (16)5.9 数据迁移 (17)6 系统控制需求 (17)6.1 服务控制 (17)6.2 流量控制 (17)6.3 维护日志审计 (17)1文档概述1.1文档目的本文档编写的目的,是对XXXX项目提出运行维护需求,明确需要提供的功能和文档提交物。
1.2适用范围本文档描述了对XXXX项目的运行维护需求,重点描述系统要满足的维护管理需求。
1.3目标读者设计开发人员、维护管理人员。
1.4参考文档1.5术语定义1.6基本要求1、系统架构、应用架构设计需满足统一的架构要求。
3、需提供系统依赖的软、硬件清单,物理、应用拓扑图。
4、本需求文档提出的运维功能需纳入性能和功能管理,明确性能指标,并通过测试评估及验证。
2系统建设背景2.1业务范围2.2技术架构3系统基础需求3.1性能需求基于分布式架构设计,系统性能须满足业务需求,并通过压力测试,提供完整的测试报告,在满足以下指标的情况下稳定运行:1、资源总数为1600C 3200G的条件下,综合处理能力达到2000TPS,并可在此基础上横向扩展提升性能以满足业务量增长需要:2、支持日均4000万笔系统流水;3、支持同时在线用户数50000个;4、交易成功率达到99.9%;5、交易平均响应时间低于50ms;6、数据库读写的最大并发事务数2000个;7、日终批量处理时长在30分钟以内;8、日常数据归档处理时长在3小时以内。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
运维服务工具应用情况说明
编制:
审核:
****公司
二〇一四年一月
所有:****公司。
保留所有权利。
目录
序言 (3)
一、运维管理类工具的应用情况 (3)
1.1 400客服故障业务受理系统 (3)
1.1.1系统业务介绍 (3)
1.1.2系统功能及原理 (4)
1.2 知识库管理工具 (5)
1.2.1系统业务介绍 (5)
1.2.2系统功能介绍 (5)
二、监控、系统维护类工具的应用情况 (6)
2.1指挥调度系统监控平台 (6)
2.2硬件系统监控工具 (7)
2.3程控交换机维护工具 (7)
三、其他运维及故障检测工具 (7)
3.1示波器 (7)
序言
****公司产品广泛应用于****单位的指挥中心,提供特服的受理及后期处理平台,由于行业的特殊性,系统的稳定性、安全性及持续运行能力尤其重要,而且随着业务发展,特服受理系统的涉及围越来越官方,对信息化的依赖程度越来越高,对系统的稳定性、维护能力也提出了更高的要求。
正是在这种情况之下,特服指挥调度系统的运行维护管理引起了公司的关注,同时也认识到一个好的运维系统需要好的运维工具支持,公司先后组建了运维工具开发团队及系统产品监控、维护工具开发团队,针对客户管理、系统故障受理系统、系统监控及系统维护等软硬件平台进行部署及开发,先对目前运维服务工具的应用情况进行说明。
一、运维管理类工具的应用情况
运维、管理类工具目前公司主要是利用400客服故障业务受理系统完成。
1.1400客服故障业务受理系统
1.1.1系统业务介绍
“400客服故障业务受理系统”主要完成公司负责承建的各类系统在运行过程中出现的故障申报的业务受理系统,该系统通过硬件及软件实现对客户的受理、处理、反馈、跟踪功能,并为客户提供7×24小时不间断服务,系统主要组成包括以下部分:
1)故障业务排队接入受理系统
2)后台业务流转通信平台
3)故障受理、登记系统
4)二级分配、处理系统
5)数字录音录时子系统
6)查询、统计、分析系统
7)用户处理情况回访系统
8)故障业务跟踪系统
1.1.2系统功能及原理
1、故障业务排队接入受理系统
故障业务受理子系统是应运维系统的门户和语音呼入呼出的通道,其稳定性和可靠性以及系统的接入速度应该作为设计的重点来考虑。
2、后台业务流转通信平台
后台业务流转通信平台是400客户故障受理系统的核心平台之一,所有消息流及数据的流转均需要通过该平台进行传送,因此公司将该平台设计为热备份系统,已保证系统的稳定及客户服务的不间断性。
3、故障受理、登记系统
客户报障呼入后,系统将自动分配至空闲座席,受理人员接通客户后,系统将自动弹出相应的受理单,受理单中的报障人呼入及录音号将自动填写如受理单。
受理人在询问客户基本信息及故障情况后进行受理单的录入,包括故障种类、故障情况、发生时间等等,如受理人员能够在中当场为客户解决故障的,则受理人员需在系统中填写相应的反馈容,包括处理方法、处理结果等信息,如受理人员无法即时解决的,则通过二级分配、处理系统将该受理单发送至二级受理部门,二级受理部门包括客服中心、项目履行部、开发部等。
4、二级分配、处理、反馈系统
一级受理人员在接收到客户的报障并进行登记后,如不能在第一时间为客户排除故障的,则需要根据具体情况将报障记录通过二级分配系统分配至其他相关部门,由其他部门根据报障单的容进一步与客户进行沟通,判断故障的原因及处理,如有必要则需安排人员携带相关备品备件至用户现场进行维修,在处理完毕后需通过二级反馈系统进行及时的处理情况反馈。
二级系统包括系统登录、业务单接收、业务单反馈等功能。
1.2知识库管理工具
1.2.1系统业务介绍
➢知识库使信息和知识有序化,是知识库对组织的首要贡献建立知识库,必定要对原有的信息和知识做一次大规模的收集和整理,按照一定的方法进行分类保存,并提供相应的检索手段。
经过这样一番处理,大量隐含知识被编码化和数字化,信息和知识便从原来的混乱状态变得有序化。
这样就方便了信息和知识的检索,并为有效使用打下了基础。
➢知识库加快知识和信息的流动,有利于知识共享与交流
知识和信息实现了有序化,其寻找和利用时间大大减少,也便自然加快了流动,使有效的知识能够迅速传遍整个企业,这就使人们获得新信息和新知识的速度大大加快。
➢知识库还有利于实现组织的协作与沟通
公司的知识库可将员工的建议存入,员工在工作中解决了一个难题或发现了处理某件事更好的方法后,可以把这个建议提交给一个由专家组成的评审小组,评审小组对这些建议进行审核,把最好的建议存入知识库,知识库中注明建议者的,以保证提交建议的质量,并保护员工提交建议的积极性。
➢知识库可以帮助企业实现对客户知识的有效管理
运维部门的信息管理一直是比较复杂的工作,一般老的运维人员拥有很多宝贵的信息,但随着他们负责项目的转变或工作的调动,这些信息和知识便会损失。
因此,知识库的一个重要容就是将运维项目的所有信息进行保存,以方便新的运维人员随时利用。
1.2.2系统功能介绍
知识库系统中包含了知识地图、我的订阅、我的知识、知识排行、全文检索、知识管理等分支容。
各分支模块中主要功能:
➢知识地图
➢我的订阅
➢我的知识
➢知识排行
➢全文检索
➢知识管理
二、监控、系统维护类工具的应用情况
2.1指挥调度系统监控平台
在系统中建立完善的监控体系,便于对整个系统进行管理和维护。
提供良好的人机管理界面,能够迅速定位故障结点,应用程序提供完整的故障日志,以便及时发现故障并进行快速维护排除故障;
公司为了便于客户及客服人员能够及时了解系统运行情况,判断系统故障所在,是系统故障能够得到及时、准确的处理,缩短系统的故障时间,在系统架构中开发了监控平台,监控平台的监控围涵盖了系统的主要核心部分及终端部分,系统中的某一环节一旦出现故障,监控系统将会对相关故障部分做出报警提示,并初步判断故障的原因。
监控系统主要包括以下部分容:
1、系统鉴权登录部分
完成授权系统管理、监控员的登录,由于监控系统可对系统的运行服务进行控制,因此要求必须有维护权限的操作员方可登录该系统
2、系统核心设备及软件监控部分
特服呼叫指挥中心的核心系统包括数字程控排队交换机、数据库、后台通信平台等,这些核心系统一旦出现故障将严重影响系统的稳定性,
监控系统可分类对核心系统进行即时监控。
另系统中如果增加了核心部件的备份或业务分担冗余节点,在监控系统中也可以增加对这些冗余节点的监控,确保冗余节点的可用性,避
免造成即使有备用系统,但在主用系统出现故障是,备用系统无法接替
主用系统工作的现象。
3、系统性能监控及告警
监控系统可对平台所有的服务器及终端设备进行性能监控,包括CPU、存、硬盘等的使用情况监控,并针对不同的应用设定不同的告警阈
值,当系统运行过程中监控组件超过阈值后系统即产生告警,告知系统
维护人员关注,告警界面如下图所示:
4、后台通信平台监控
5、系统服务控制
系统一旦发生故障后,维护人员如判断为终端服务出现故障,或其他系统故障可通过重启计算机服务来解决的,则可以利用系统监控平台
及时对故障终端进行服务的控制,停止或重新启动相应的服务,以达到
解决故障的目的。
2.2硬件系统监控工具
公司生产的部分硬件产品中增加了故障告警判断、搜集及发送模块……
2.3程控交换机维护工具
排队程控交换机作为公司的核心产品……
1、线路连接状态的跟踪及告警
2、信令跟踪
3、历史数据查询
三、其他运维及故障检测工具
3.1示波器
公司配备了电子示波器,用于对排队程控交换机、联动控制设备等系统硬件设备进行故障检测及判断的辅助工具。
公司在系统运维、故障监控及故障处理中应用了大量的硬件及软件辅助工具,规了客户故障申报的处理、跟踪过程,增强了系统运行的稳定性、故障预判能力、故障及时处理能力,提高了客户的满意度。