列车自动监控系统服务器的维护
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
列车自动监控系统服务器的维护
Maintenance on ATS system servers:
摘要:由于ATS系统服务器在地铁运营中的重要性,对维护工作提出了更高的要求,如何通过有效的维护减少服务器故障的发生,在故障时如何利用准确的方法快速恢复,是运营维护部门必须解决的问题。本文结合南京地铁一号线运营3年多ATS系统服务器的维修实践,探讨服务器的维护、软件备份以及故障排查方法。
Abstract: As the ATS servers are the most important servers of metro signaling system, the maintenance requirement for them is much higher. How to reduce the failures and accelerate the recovering from failure is the must conquer problem of the metro operation and maintenance department. This article describes the methods of server maintenance, system backup and trouble shooting, based on the experience of 3 years operation of Nanjing Metro line 1.
关键词:ATS系统;服务器;维护;软件备份;故障处理。
Key words:ATS system, Server, Maintenance, System backup, Trouble shooting
ATS(列车自动监控)系统是ATC(列车运行自动控制)系统的一个子系统,担负着列车运行及整个信号系统的监督和控制任务。ATS系统主要由服务器及网络组成,所以服务器的维护工作至关重要,如何保障服务器正常运行,减少故障率,在服务器发生故障后能快速恢复,是ATS系统维护员的必备技能,下面结合南京地铁一号线ATS系统服务器3年多的维护经验做一些探讨。
1ATS系统服务器组成
ATS系统服务器有两台COM服务器,型号为Sun Blade 2500,两台ADM 服务器、一台REPORT服务器和七台MMI服务器,型号都为Sun Blade 1500。Sun Blade 2500配置:64BIT 结构;1.28-GHz UltraSPARC IIIi 处理
器;DVD 光驱;36GB硬盘;1GB 内存;20 英寸液晶显示器;鼠标;键盘。Sun Blade 1500配置:64BIT 结构;1 GHz UltraSPARC IIIi 处理器;DVD
光驱;80GB硬盘;512MB 内存;20 英寸液晶显示器;鼠标;键盘,其中MMI为两台显示器。安装的系统软件为Solaris 8,应用软件为基于Spectrum 4.3的VICOS 501系统。
2ATS系统服务器的常规维护方法
在日常维护工作中,除了定期进行用户访问、除尘以及检查服务器电源和散热风扇工作是否正常之外,运用一些方法对计算机内部硬件和软件进行监督检查,掌握服务器的工作性能,排除故障隐患。
定时重启服务器
服务器长时间运行过程中,会产生很多沉余的程序,占用内存和CPU 资源,另外在系统中产生一些临时的信息文件,如在/home/s/sys、/tmp、/var, /home/logs 目录中。定期执行服务器重启可以激活清理临时盘区的脚本,对系统的部分临时文件进行清理,净化硬盘空间,同时释放更多的内存和CPU资源。
硬盘空间检查
硬盘的检查主要是硬盘的使用量、读盘和存盘的速度,硬盘的空间情况可以通过df命令进行检查,在命令行窗口内输入df –k,可显示本计算机硬盘各分区的使用情况,如果发现硬盘某一分区使用比率较大,还可以通过du命令找出分区中哪一个目录和文件占用了大量硬盘空间。如录放的次数过多或时间过长,大量的记录文件没有及时清除,系统故障时产生的core 文件过大等造成硬盘空间被占用,可以根据情况进行相应清理或转存。硬盘根分区如果已用90%以上,可能会造成计算机运行速度变慢,甚至不能正常启动。
进程监督
服务器操作系统和应用软件运行的程序,不管是前台运行还是后台运行,都会有相应的进程,做为系统维护人员要知道各服务器频繁运行的进程名称。可以用ps –la命令显示频繁请求运行的所有进程及其详细状态信息,也可以用syq_no命令查看没有运行或被破坏的进程,监督进程和系统资源的利用情况。在运行过程中有可能进程被终止了,在系统信息文件中会产生相应的报告,有些进程虽然被终止,但对运营并没有明显的影响,如time进程终止,时间长了可能因时间不同步出现偏差,影响服务器的信息传送。又如falko进程终止,只有在从falko工作站上传新编的时刻表时上传失败。如果发现进程被终止,或知道OC 501 对象的进程名,可以用别名命令“psg 进程名”,无论该进程是否在运行状态,将被找到并激活进程。有些进程在被终止后会通过系统的软总线发出报告,并有可能激活系统存活检查而使主备服务器切换或宕机。
系统信息查询
在/var/adm目录中的messages文件,记录整个系统的运行信息,从该文件中可以知道是否有足够的存储空间、是否有对系统的未经授权访问和操作、系统有关的操作信息、是否有3000以上错误代码信息出现、VICOS 501运行信息等。是分析服务器运行情况的主要依据,处理故障时可根据信息的提示进行排查。
3用实用程序进行系统维护和检查
在应用VICOS 501系统中,提供了部分系统操作和检查的实用程序,通过实用程序可以进行系统操作和运行状况检查,辅助系统维护员对服务
器的分析和维护。
SPV实用程序
SPV 是一个查询实用程序,起到系统监控的作用。可以使用实用程序查询服务器的状态,也可以手动进行服务器状态的切换和重启,是系统操作员常用的工具之一。服务器有四种状态,分别为NC(独立未连接)、RU (启动)、PC(进程管理或主用) 、SB(备用),用命令spv> show me v 显示本服务器的状态信息,用命令spv sh ser all显示全部VICOS 501服务器的状态信息。在验证主、备服务器的切换是否正常时,可用命令“spv> change 主备”实现服务器切换。通过命令“spv> restart 服务器名”重启服务器,通过命令“spv> change 服务器名 PC”、spv> online、spv> offline 改变服务器的工作状态等。
服务器发生故障后,在“历史文件”中会产生一条故障记录,可通过命令“spv> table v”进行所有历史记录查询,有利于维护员分析故障。
系统统计SOS查询
SOS 是系统统计的服务程序,传送关于内部VICOS 部件的统计数据,比如软总线地址、目标、关系等。SOS 可以通过‘rootright-菜单’或者‘Shell 工具’启动SCtool 1.11.SOS显示窗,从显示窗中可以了解系统统计的相关信息,有利于分析系统的运行情况。
其它实用程序
dbr实用程序用于加载和卸载数据库关系,数据库关系贮存成一个文件" dbr_nj_