系统运行维护手册项目
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
XXX项目
系统运行维护手册安徽科大讯飞信息科技股份有限公司
修订文档历史记录
目录
1.前言
此文档为统一政务项目实例,在编写其他项目运维手册时可根据项目实际情况参照此模板编写。
内容不必完全相同,取决于实际需要。
统一政务平台系统运行在一个复杂、综合的IT环境中,为了保证平台系统的稳定、持续运行,应当对此环境中相关的软、硬件系统进行监控、维护。
本文档描述了在平台运行中应当关注哪些重要的系统、设备,以及如何对这些设备进行监控与维护。
主要包括以下几个方面:
服务器监控
平台系统可用性检查
操作系统补丁升级与病毒定义升级
垃圾邮件控制
全系统备份
用户信息维护
全系统开、关机
服务器访问控制
一旦系统发生变更,则文档所描述的措施与要求也应当根据实际情况进行调整。
维护相关的管理工作,如报告等,根据实际管理需要进行。
2.系统运行监控
2.1服务器运行状态监控
2.1.1监控内容
通过Microsoft Operation Manager(以下简称MOM)对服务器运行状态进行监测。
主要监测服务的运行状态、CPU使用情况、内存使用情况、逻辑磁盘可用空间、网络连通性。
需要监控的服务器根据实际运行情况确定,目前监控范围见“错误!未找到引用源。
错误!未找到引用源。
”。
2.1.2监控要求
MOM会实时监控服务器状态,维护人员需定时检查MOM控制台,并对控制台中生成的信息进行处理。
维护人员实时接收MOM的报警邮件,对其中的警报信息进行处理。
监控中如果发现异常,根据实际情况分析处理。
2.1.3监控产物
每日下午下班前取当时检测到的服务器运行状态数据填写“错误!未找到引用源。
”,并根据管理要求提交相关涉众。
2.1.4操作说明
2.1.4.1通过MOM控制台查看服务器运行状态
进入MOM控制台
以MOM操作员帐号或域管理员、本地管理员等具有相应权限的帐号登录
hf-mom-01服务器(或者通过MOM的WEB控制台进行管理,从能够连接hf-mom-01服务器的任何终端访问,然后以hefei\hf-mom-user帐号登录);
从windows开始菜单运行“Microsoft Operation Manager 2005 操作员控制台”程序(以下描述均基于MOM程序控制台);
选择要通过MOM查看的计算机
进入MOM程序界面后,将工具栏上“组”设置为“MOM管理员作用域”(根据登录的帐户不同,可能此处显示为MOM用户作用域等其他文字)。
也可选择其他作用域,以在随后的操作中只显示该作用域内的计算机信息(请选择MOM管理员作用域,这将显示所有计算机,其他域可能不包括任何计算机或仅包括该域内的计算机)。
查看服务器运行状态
在程序窗口的左侧下方,单击“状态”按钮,此时视图切换为“状态视图”。
再单击左侧上方的“状态”文字链接,此时程序窗口的中部上方即显示所有管理员作用域内的计算机状态;
检查状态窗口中第一列“状态”,此列显示服务器的综合状态,如果为绿色的对号,则说明服务器运行正常。
如果为红色的叉或其他符号,则说明存在异常
情况,此时可检查其他列状态(分别显示服务器中程序、磁盘、群集等的状态),以定位是服务器的哪个环节出现异常。
或者,也可进入“警报”视图,以检查是否有相应的报警信息。
注:服务器状态显示正常则说明其网络连通性也正常。
查看报警信息
在程序窗口的左侧下方,单击“警报”按钮,此时视图切换为“警报视图”。
再单击左侧上方的“警报”文字链接,此时程序窗口的中部上方即显示所有管理员作用域内的计算机所生成的报警信息;
如果在警报中视图中发现有服务器生成的报警信息,则需根据实际情况处理。
查看CPU、内存与磁盘空间使用情况
在程序窗口的左侧下方,单击“我的视图”按钮,此处显示的是维护人员自己定义的视图。
目前根据实际需要,分别定义了收集CPU、内存与磁盘空间使用情况的视图。
分别检查此三个视图,注意CPU不得持续高于90%,若持续高于95%时就需要检查服务器以确定是否正常;可用内存不得持续低于10%,若低于2%则需要检查是否异常;磁盘剩余空间不得低于20%,若低于15%则必须进行清理(一般在可用磁盘空间低于40%时就可以检查并判断是否有异常情况存在)。
2.1.4.2生成监控报表
登录MOM报表控制台
访问,如果需要登录,以hf-mom-user或其他管理员级帐号进行登录。
生成报表
打开MOM报表控制台主页面后,单击页面中的“Microsoft Operations Manager Reporting”,然后在打开的页面中单击“Microsoft Windows 基本操作系统”,然后在打开的页面中单击“操作系统性能”,再选择“Daily Monitor”计算机组,然后选择生成数据的日期范围,再单击“查看报表”,MOM即生成所需的报表。
导出报表
在前一页面,“选择格式”处选择需要导出的报表格式,例如excel表格,然后单击“导出”,即可将报表导出。
2.1.4.3接收MOM报警邮件
设置操作员
以MOM管理员帐号或域管理员、本地管理员帐号登录hf-mom-01服务器。
从windows开始菜单运行“Microsoft Operation Manager 2005 管理员控制台”程序。
在程序窗口中,依次展开“控制台根→Microsoft Operation
Manager(hf-mom-01) →管理包→通知”,然后在“操作员”上单击右键,再选择“创建操作员”,然后依照屏幕提示逐步完成操作员创建。
注意:在创建操作员时,选中“向此操作员发送电子邮件”选项并输入操作员的电子邮箱地址。
操作员创建好后,在屏幕右侧的操作员列表中双击此操作员名称,然后单击“通知组”,单击“添加”,再将系统中所有的通知组逐个添加给此操作员。
设置邮件发送
在MOM管理员控制台中,依次展开“控制台根→Microsoft Operation Manager(hf-mom-01) →管理”,然后单击“全局设置”,然后在屏幕右侧的列表
中双击“电子邮件服务器”,在此面板中设置邮件服务器地址、端口信息。
完成上述两项设置后,操作员就可以接收MOM发送的报警邮件了。
注:可以使用移动或联通的手机邮箱作为接收报警邮件的邮箱,再开通该邮箱的来信通知功能,则可以通过手机短信接收MOM发送的报警信息了。
2.1.5邮件系统可用性验证
每日通过OWA方式(通过浏览器访问与客户端程序方式(outlook)验证邮件系统可用性。
检查内容包括登录邮箱、收邮件、发邮件。
检查结果填写到“错误!未找到引用源。
”中。
检查如果发现问题,则需根据实际情况进行分析处理。
2.1.6SAN磁盘状态检查
每日检查所有10台群集服务器的SAN磁盘状态。
分别登录每台服务器,然后从开始菜单运行SAN磁盘管理程序,如下图所示:
进入管理程序界面后,查看所有磁盘是否状态正常,如下图所示:
如果发现某个或某组磁盘上显示红色斜线,则说明磁盘状态异常。
需要联系服务商处理。
SAN磁盘状态检查结果填写到“错误!未找到引用源。
”中。
2.2平台可用性检查
2.2.1监控内容
检查平台能否正常登录,各模块功能是否可以正常使用,各模块的页面打开时间是否在5秒内。
详细检查项见“错误!未找到引用源。
错误!未找到引用源。
”
2.2.2监控要求
每日执行一次,上班后即执行。
监控结果于当日发送给运维管理部门或其指定人员;
按照“错误!未找到引用源。
错误!未找到引用源。
”中的内容执行;
2.2.3监控产物
每日填写“错误!未找到引用源。
”,并在下班前提交相关涉众。
2.3补丁与病毒定义更新检查
2.3.1补丁检查与升级
每周五进行补丁检查与升级工作。
检查“错误!未找到引用源。
”中所列出的全部服务器,检查是否有新的操作系统补丁需要更新,如果有则进行安装,并根据实际情况重启服务器。
补丁升级完成后,需要执行一次“平台可用性检查”,检查要求参照前文章节的描述。
补丁检查、升级结果写入周报。
如果微软推出重大安全公告,并要求进行相应的补丁升级的,应根据实际情况立即升级或确定其他升级时间。
2.3.2病毒检测及病毒定义更新检查
每周五进行病毒检测及病毒定义更新检查工作。
检查“错误!未找到引用源。
”中所列出的全部服务器,检查KILL是否有发现病毒的信息,检查KILL的病毒定义库是否当前最新版本(注,平台所有服务器的KILL客户端均受专网KILL服务器管理,也可直接在KILL服务器上进行此检查工作,效率及效果比逐个服务器检查更好)。
如果发现病毒,应当根据实际情况立即处理。
病毒检测及病毒定义更新检查结果写入周报。
如果防病毒软件厂商或相关权威机构发布了重大病毒通告,则应根据实际情况立即升级病毒定义库或采取其他防范措施。
2.4垃圾邮件维护
2.4.1维护垃圾邮件地址列表
维护人员定期从平台用户收集垃圾邮件地址,并添加到邮件服务器的过虑器中。
以域管理员帐号登录hf-owa-01/hf-owa-02/hf-exh-01/hf-exh-02任一台服务器,从开始菜单打开“Exchange系统管理器”,展开“全局设置”,右键选
择“邮件传递”,“属性”,“发件人筛选”
单击“添加”,然后将收集的垃圾邮件地址逐个添加进去。
2.4.2定期清理垃圾邮件
系统将过滤的垃圾邮件存储在前端服务器(hf-owa-01与02)的
“ C:\Program Files\Exchsrvr\Mailroot\vsi 1\UceArchive\”目录下。
应当定期删除这些垃圾邮件,以免占用服务器本地磁盘空间。
在hf-owa-01与02的C:\Program Files\Exchsrvr\目录下,已经编写了脚本文件,运行它即可自动清理垃圾邮件。
清理垃圾邮件的周期根据实际情况决定,一般当前端服务器C盘使用空间超过50%时就应当进行清理。
2.5系统备份检查
根据系统备份计划表执行检查工作。
如果发现备份失败或错误,则应立即进行分析处理。
2.6服务器硬件状态检查
每周五对平台所有服务器进行巡检,查看主机状态灯是否显示异常。
如果有异常,联系设备供应商或服务商处理。
巡检结果填写“错误!未找到引用源。
错误!未找到引用源。
”。
3.平台业务用户管理
在统一政务处理平台系统中,添加系统用户可能会有两种情况。
一种是添加用户并开通全部功能,一种是添加用户并只开通邮箱。
对于添加用户并开通全部功能的,必须分别在AD、Exchange、LCS、US中执行开通操作。
对于添加用户并只开通邮箱的,必须分别在AD、Exchange中执行
开通操作。
如果要修改用户信息,例如用户名称,则必须同步更改AD、Exchange、LCS、US中的设置。
用户命名参考文档“用户帐户命名规则”。
在hf-mom-01服务器上已经部署了AD、Exchange、LCS管理工具,US是WEB 管理方式,因此维护用户的所有操作都可以在hf-mom-01上完成。
详细开通操作见下文描述。
3.1收集用户信息
在添加用户前,必须先收集用户的资料,主要包括“用户姓名、用户单位与部门、用户联系电话、用户在系统中的角色”等。
详细的用户信息字段可以参考文档“公务员信息收集表”。
3.2在AD中添加用户
以hefei\usermgt帐号登陆hf-mom-01服务器,选择开始→运行,在运行栏里输入,打开AD控制台。
选择控制台页面左侧的,默认显示的是所有单位的列表,在列表中找到要添加的用户所属的单位。
在AD中查找单位的方法:
鼠标右击,选择“查找”;
在“查找”的下拉选项中,选择“组织单位”;在“范围”的下拉选项中,选择“hefei”在“名称”中输入要查找的单位名称,选择“开始查找”,系统就会显示出查找结果,如下图:
如果系统显示查询不到,那就需要核实单位名称是否正确,或者该单位是否存在于AD的组织单位列表中,如果该单位不存在的话,需要先添加组织单位。
鼠标右击查询到的单位名称,选择“新建用户”,系统会弹出“新建对象-用户”的窗口,如下图:
在“姓”和“名”的窗口中输入用户的姓和名;
系统会自动生成姓名的全写;
在“用户登陆名”中,输入用户姓名的拼音,输入完成后选择“下一步”;
选择下一步时,如果系统提示该用户登陆名已经被使用,则必须按照平台用户帐户命名规则,选择新的姓名拼音。
输入给用户设定的密码,用户的初始密码均设置为:1234;
输入密码:1234;
输入确认密码:1234;
去除“用户下次登陆时须更改密码”选项的勾选;
勾选“密码永不过期”选项;
选择下一步。
选择“完成”,即完成了在AD中添加用户的过程。
3.3为用户开通邮箱
以hefei\usermgt帐号登陆hf-mom-01服务器,选择开始→运行,在运行栏里输入,打开AD控制台页面。
点开页面左侧的,显示的是所有单位的列表,在列表中找到用户所属的单位,在该单位中找到此用户。
在邮件控制台中查找用户的方法:
以鼠标右击,选择“查找”,会弹出系统的查找页面;
在“查找”的下拉选项中,选择“用户、联系人及组”;在“范围”的下拉选项中,选择“hefei”;在“名称”中输入要查找的单位名称,选择“开始查找”,系统就会显示出查找结果,如下图:
查找到用户后,以鼠标右击用户名,选择“Exchange任务”,系统会弹出“Exchange任务向导”窗口;
在任务向导中选择“创建邮箱”,如果是已经建立过邮箱的帐号,则不会有此选项。
在随后的过程中,依照屏幕提示完成操作即可。
但需要注意,在选择邮箱存储位置时,应当注意在几个邮箱存储间均衡分配,以造成有的存储已经用完,而有的存储却空间空闲的情况;
如果是新建的用户,在创建域帐号的过程中,系统会提示是否开通邮件功能,其操作与上述相同。
3.4为用户开通LCS功能
以hefei\usermgt帐号登陆hf-mom-01服务器,选择“开始,运行”,在运行栏里输入,打开AD控制台。
点开页面左侧的,显示了所有单位的列表,在列表中找到用户所属单位,在该单位中找到用户。
在AD控制台中查找用户:
鼠标右击,选择“查找”,会弹出系统的查找页面。
在“查找”的下拉选项中,选择“用户、联系人及组”;在“范围”的下拉选项中,选择“hefei”;在“名称”中输入要查找的单位名称,选择“开始查找”,系统就会显示出查找结果。
查找到用户后,以鼠标右击用户名,选择“为用户启用Live Communications”,系统会弹出“启用用户向导”窗口。
按照配置向导的提示进行配置,配置过程中各项选择保持默认值即可。
即使是新建的用户,在建立域帐号的过程中,也不会出现开通LCS功能的过程,必须在建立好域帐号后,再单独开通LCS。
3.5为用户开通UserService服务
在IE浏览器访问“10.12.4,然后使用UserService的系统管理员(system)登陆。
选择左侧的组织结构,显示的是所有单位的列表,在列表中找到用户所属的单位。
在该单位中,找到该用户所属的部门。
选择部门,打开了“部门信息”的页面,如下图:
在“部门信息”页面中,选择“添加用户”,打开“用户信息”页面,如下图:
在“用户姓名”中,填写该用户的中文姓名;
在“陆帐户”中,填写在AD中为用户所配置的帐户名;
在“电子邮件”中,填写在邮件服务器中为用户所开通的邮箱地址;
在“AD帐户登陆名”中,填写 hefei\登陆帐户。
例如某用户的登陆帐户为:zhangsan,则该用户的AD帐户登陆名为:hefei\zhangsan;
在“IMID”中,填写在邮件服务器中为用户所开通的邮箱地址;
以上5项用户信息为添加用户时的必填信息。
填写完成后,选择“保存”,完成了在UserService中添加用户的过程。
3.6在UserService中为用户配置角色
在“部门信息”中,选择要配置角色的用户。
打开“用户信息”页面,选择“用户所属角色”。
打开“用户所属角色”窗口,如下图:
窗口左侧为候选角色名,窗口右侧为已经配置的角色名;
在候选角色名中选中某一角色,单击向左箭头,即为用户添加了该角色;
在已经配置的角色名中选中某一角色,单击向右箭头,即为用户删除了该角色。
角色选择完成后,选择“关闭”,就完成了在UserService中为用户配置角色的过程。
4.平台访问安全控制
平台访问安全控制参见文档“服务器控制管理规范”。
5.平台系统开、关机
在平台系统运行中,可能会需要临时关闭系统。
如,供电线路检修等情况。
此时应当遵循以下关机与开机顺序。
首先在hf-mom-01的管理员控制台中将所有计算机设为维护状态,期限根据实际需要关机的时间设置(此步操作可以避免因为正常关机,而MOM却发出系统宕机警报)。
再关闭各业务系统的前端服务器。
包括:hf-lcs-01;hf-owa-01、
hf-owa-02、hf-exh-01、hf-exh-02、hf-app-01~10、hf-typ-01、hf-sps-01~05、hf-avs-01。
再关闭数据库群集各服务器。
包括hf-db-01~hf-db04群集、
hf-db-05~hf-db-08群集。
不同的群集可以同时开始关机。
单个群集中的服务器要依次关机,不可同时关机,并且要确认前一台服务器已经成功关机后才开始关闭下一台服务器。
例如:可以同时开始关闭hf-db-01与hf-db-06,确认此服务器成功关机后,再分别开始关闭三个群集中的另外一台服务器。
依此类推。
注意,将hf-db-08(legato备份服务器)最后关机。
数据库群集服务器关机成功后,开始关闭SAN和磁带库;与此同时,可以开始关闭除hf-dc-01与hf-dc-02以外的其他服务器(这些服务器的关机顺序不限,可以同时关机)。
Hf-isa-01~04关机时,应当将hf-isa-01最后关机。
关闭hf-dc-01与hf-dc-02(关机顺序不限,可以同时关机)。
服务器关机完成。
将hf-dc-01与hf-dc-02开机,并确认启动成功。
将SAN与磁带库开机。
将hf-db-01~hf-db04群集、hf-db-05~hf-db-08群集、
hf-exh-01~hf-exh-02群集开机。
开机顺序:不同的群集可以同时开机。
单个群集中的服务器要依次开机,不可同时开机,并且要确认前一台服务器已经成功启动后才将下一台服务器开机。
例如:可以同时开始将hf-db-01、hf-exh-01、hf-db-06开机,确认此三台服务器成功启动后(启动成功的标准为可以登录到桌面),再分别开机三个群集中的另外一台服务器。
依此类推。
注意,将hf-db-08(legato备份服务器)最先开机。
将其他服务器开机,顺序不分先后,可以同时开机。
注意,将hf-mom-01与hf-mom-02最后开机。
Hf-isa-01~04开机时,应当将hf-isa-01先开机。
开机完成后,检查系统各节点以确认系统运行正常。
开机完成。
6.基础架构信息维护
每半年对平台各服务器配置信息进行一次检查,并与服务器配置文件进行比对。
如果发现实际配置与文档记录不一致,应当及时更新文档记录。
日常运行中,如果发生服务器变更,应当及时更新配置文档。
7.系统运行维护报告
系统运行维护实行日报、周报、月报。
报告内容参见附件。
文档所列格式以及报告时限为参考标准,实际使用时应当根据管理需要确定。
每日9点前完成并提交前一日系统运行报告,每周五前完成并提交上周五至本周四的系统运行报告;每月5日前完成并提交上月系统运行报告。
如遇节假日则顺延。
8.附件
8.1服务器监控范围
8.2系统运行监测记录表。